Машинное зрение: понятия, задачи и области применения

Мухамедияров Р.М.

Казахский национальный технический университет К.И.Сатпаева, Алматы, Казахстан

Машинное зрение: понятия, задачи и области применения

1. Основные определения и понятия машинного зрения.

Машинное зрение - это научное направление в области искусственного интеллекта, в частности робототехники, и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.

Машинное зрение теснейшим образом взаимодействует с такими областями как Компьютерное зрение, Обработка изображений, Анализ изображений, Распознавание образов и т.д. Также нет стандартной формулировки того, как должна решаться проблема данной области и часто трудно однозначно отнести возникающие задачи и применяемые методы решения к одной из этих областей. Если сделать обзор технических приемов, алгоритмов, методов обработки изображений, которые используются и разрабатываются в этих областях, можно увидеть, что они являются более или менее идентичными.

Машинное зрение сосредотачивается на применении, в основном промышленном, например, автономные роботы и системы визуальной проверки и измерений. Это значит, что технологии датчиков изображения и теории управления связаны с обработкой видеоданных для управления роботом и обработка полученных данных в реальном времени осуществляется программно или аппаратно.

Обработка изображений и Анализ изображений в основном сосредоточены на работе с 2D изображениями, т.е. как преобразовать одно изображение в другое. Например, попиксельные операции увеличения контрастности, операции по выделению краёв, устранению шумов или геометрические преобразования, такие как вращение изображения. Данные операции предполагают, что обработка/анализ изображения действуют независимо от содержания самих изображений.

Компьютерное зрение сосредотачивается на обработке трехмерных сцен, спроектированных на одно или несколько изображений. Например, восстановлением структуры или другой информации о 3D сцене по одному или нескольким изображениям. Компьютерное зрение часто зависит от более или менее сложных допущений относительно того, что представлено на изображениях.

Также существует область названная Визуализация, которая первоначально была связана с процессом создания изображений, но иногда имела дело с обработкой и анализом. Например, рентгенография работает с анализом видеоданных медицинского применения.

Наконец, Распознавание образов является областью, которая использует различные методы для получения информации из видеоданных, в основном, основанные на статистическом подходе. Значительная часть этой области посвящена практическому применению этих методов.

Таким образом, можно сделать вывод, что понятие «машинное зрение» на сегодняшний день включает в себя: компьютерное зрение, распознавание зрительных образов, анализ и обработка изображений и т.д.

2. Задачи машинного зрения.

В задачи, рассматриваемые в рамках машинного зрения, в частности, входят:

· Обнаружение/распознавание/отслеживание объектов, обладающих определенными свойствами (в самом широком смысле) на статическом изображении и/или в видеопотоке.

Распознавание/обнаружение. Классическая задача в компьютерном зрении, обработке изображений и машинном зрении это определение содержат ли видеоданные некоторый характерный объект, особенность или активность. Эта задача может быть достоверно и легко решена человеком, но до сих пор не решена удовлетворительно в компьютерном зрении в общем случае: случайные объекты в случайных ситуациях.

Существующие методы для решения таких проблем могут быть достоверно решены только для отдельных объектов, таких как простые геометрические объекты, человеческие лица, печатные или рукописные символы, автомобили и только в определенных условиях, обычно это определенное освещение, фон и положение объекта относительно камеры. В литературе описано различное множество проблем распознавания:

· Распознавание: один или несколько предварительно заданных или изученных объектов или классов объектов могут быть распознаны, обычно вместе с их двухмерным положением на изображении или трехмерным положением в сцене.

· Идентификация: распознается индивидуальный экземпляр объекта принадлежащего к какому-либо классу.

· Обнаружение: видеоданные проверяются на наличие определенного условия. Обнаружение, основанное на относительно простых и быстрых вычислениях иногда используется для нахождения небольших участков в анализируемом изображении, которые затем анализируются с помощью приемов, более требовательных к ресурсам, для получения правильной интерпретации.

Существует несколько специализированных задач, основанных на распознавании текстов, например:

· Поиск изображений по содержанию: нахождение всех изображений в большом наборе изображений, которые имеют определенное различными путями содержание.

· Оценка положения: определение положения или ориентации определенного объекта относительно камеры.

· Оптическое распознавание знаков: распознавание символов на изображениях печатного или рукописного текста, обычно для перевода в текстовый формат, наиболее удобный для редактирования или индексации (например, ASCII).

· Восстановление 3D формы по 2D изображениям с помощью: стереореконструкции карты глубины; реконструкции поля нормалей и карты глубины по закраске полутонового изображения; реконструкции карты глубины по текстуре; определения формы по перемещению.

Восстановление сцены. Даны два или больше изображения сцены, или видеоданные. Восстановление сцены имеет задачей воссоздать трехмерную модель сцены. В простейшем случае, моделью может быть набор точек трехмерного пространства. Более сложные методы воспроизводят полную трехмерную модель.

Восстановление изображений. Задача восстановления изображений это удаление шума (шум датчика, размытость движущегося объекта и т.д.). Наиболее простым подходом к решению этой задачи являются различные типы фильтров, таких как фильтры нижних или средних частот. Более высокий уровень удаления шумов достигается в ходе первоначального анализа видеоданных на наличие различных структур, таких как линии или границы, а затем управления процессом фильтрации на основе этих данных.

· Выделение на изображениях структур определенного вида, сегментация изображений.

· Анализ оптического потока (нахождения перемещения пикселей между двумя изображениями). Несколько задач, связанных с оценкой движения, в которых последовательность изображений (видеоданные) обрабатываются для нахождения оценки скорости каждой точки изображения или 3D сцены. Примерами таких задач являются: определение трехмерного движения камеры, слежение, т.е. следование за перемещениями объекта (например, машин или людей).

3. Области применения методов машинного зрения:

· Медицина (автоматический анализ медицинских изображений рентген, томография, УЗИ);

· Охранные системы (идентификация личности, детекторы движения, распознавание и отслеживание движущихся объектов, распознавание автомобильных номеров и т.д.);

· Естественный интерфейс человек-компьютер, основанный на жестах, мимике и голосовых командах пользователя, не обремененный устройствами "удобными компьютеру" (клавиатурой, мышью);

· Мультимедиа-приложения, игры (реальный пример - автоматическое создание модели игрока для Quake3), расширенная реальность (комбинация виртуального окружения и реальных объектов);

· Системы распознавания рукописного и печатного текста;

· Сжатие видео с учетом содержимого передающегося видеопотока;

· Промышленность (дефектоскопия, контроль качества, промышленные роботы): автомобилестроение, электроника, машиностроение.

Литература:

1. Computer Vision: A Modern Approach by D. A. Forsyth and J. Ponce, Prentice Hall, Upper Saddle River, N.J., 2002

2. Computer Vision. L. Shapiro and G. Stockman, Prentice-Hall, Upper Saddle River, N.J., 2000

3. Искусственный интеллект. Современный подход. Стюарт Рассел, Питер Норвиг. Москва/Санкт-Петербург/Киев, 2006.

4. http://graphics.cs.msu.ru/