Принципы компьютерного зрения (CV)
В уроке рассмотрим понятие компьютерного зрения, примеры использования CV и принцип работы. Установим OpenCV на операционную систему Windows.
Понятие компьютерного зрения
Компьютерное зрение (Computer Vision или CV) — это область науки об искусственном интеллекте. Ученые занимаются задачами, связанными с анализом изображений и видео. Цель работы — заставить камеру определенным способом обрабатывать изображение. Дальше «мозг» камеры работает по программе: отслеживает положение мяча на видео, захватывает лица людей и прочее.
Эта область науки уже успела стать частью нашей жизни. Рассмотрим некоторые примеры использования компьютерного зрения:
- Face ID от Apple — технология распознавания лица для разблокировки смартфона.

- Microsoft Kinect — это сенсор, изначально разработанный для приставки Xbox 360. Он работает при помощи движений, позы, жестов и пр.

- Дополненная и виртуальная реальность (AR/VR) — эти технологии используются в играх (Pokemon GO, AR Dragon, Batman: Arkham VR), в социальных сетях (AR-маски в Instagram, Snapchat) и пр.

- Система автопилота — система автоматического управления транспортом.

О разработке робота с системой автопилота и пойдет речь в наших статьях.
Человеческое зрение
Основой для CV стало человеческое зрение. Поэтому перед изучением работы компьютерного зрения, рассмотрим, как работает глаз у человека:
- Свет падает на объект;
- Свет отражается от объекта;
- Отраженный свет проходит через линзу глаза;
- Пропущенный свет падает на светочувствительный орган — сетчатку;
- Сигнал с сетчатки передается по зрительному нерву в мозг.

Принцип работы компьютерного зрения
В любую камеру заложен абсолютно тот же самый принцип работы, что и в «биологический» глаз.
Камера прошла длительный путь от простейших фоторезисторов и фотореле к сложнейшим светочувствительным матрицам:
Типичная конструкция фотоэлемента с пластиковым покрытием Светочувствительная матрица
Светочувствительные матрицы практически не отличаются от фоторезисторов и фотореле. Разница между ними в размерах: можно считать, что каждый пиксель равен 3 фоторезисторам.
Отраженный свет попадает на матрицу. Затем он преобразуется в электрический сигнал, с которым мы и будем работать. Для этого мы используем открытую библиотеку OpenCV (Open Source Computer Vision Library). Она содержит все необходимые функции для работы и обработки изображений и видеопотока.
Добавить комментарий