Современные информационные технологии/Программное обеспечение

к.ф.-м.н., доцент Фархадов Т., к.т.н. Турганбай К.Е.,

магистрант Оглов Р.В.

Евразийский технологический университет, Казахстан

SVM-классификатор. Метод опорных векторов

Конечным шагом в распознавании объектов с использованием HOG является классификация дескрипторов при помощи системы обучения с учителем. Далал и Триггс использовали метод опорных векторов (SVM, Support Vector Machine).

В оригинальном эксперименте по обнаружению людей, Далал и Триггс сравнивали дескрипторы R-HOG и C-HOG с обобщенными вейвлетами Хаара и контекстами формы. Обобщенные вейвлеты Хаара являются направленными вейвлетами Хаара и были использованы в 2001 году Моханом, Папагеоргиу и Поггио в их экспериментах по обнаружению объектов. Дескрипторы PCA-SIFT похожи на SIFT-дескрипторы, но отличаются тем, что к нормализованным градиентам применяется метод главных компонент. Дескрипторы PCA-SIFT впервые были использованы в 2004 в работе Ке и Суктханкара; было заявлено, что они по своим параметрам превосходят обычные SIFT-дескрипторы. Наконец, контексты формы, подобно C-HOG, используют круглые бины, но учитывают голоса только на основе присутствия края, не учитывая ориентацию. Контексты формы появились в 2001 в работе Белонги, Малик и Пузича [1].

Тестирование проводилось на двух разных наборах данных. База данных пешеходов Массачуссетского технологического института содержит обучающую выборку из 509 изображений и тестовую выборку из 200 изображений. Набор содержит изображения людей только спереди или сзади, позы на изображениях почти не отличаются. Эта база данных широко известна и используется в других исследованиях, найти ее можно по ссылке http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html. Второй набор данных был специально создан Далалом и Триггсом для их эксперимента, поскольку на наборе MIT дескрипторы HOG показали почти совершенные результаты. Этот набор данных, известный как INRIA, содержит 1805 изображений людей. Набор содержит изображения людей в широком разнообразии поз, включает в себя изображения с трудным фоном (например, на фоне толпы), и является гораздо более сложным для распознавания, чем набор MIT [2]. База данных INRIA в настоящий момент доступна по адресу http://lear.inrialpes.fr/data.

По результатам исследований, дескрипторы C-HOG и R-HOG дают сравнимые результаты, причем C-HOG имеют несколько меньшую долю пропущенных изображений при фиксированной доле ошибок первого рода на обоих наборах изображений. Сравнение C-HOG и R-HOG можно увидеть в таблице 1.

Таблица 1 - Сравнение C-HOG и R-HOG

Дескриптор	Набор изображений	Доля пропущенных изображений	Доля ошибок первого рода
HOG	MIT	≈0	10⁻⁴
HOG	INRIA	0.1	10⁻⁴
Обобщенные вейвлеты Хаара	MIT	0.01	10⁻⁴
Обобщенные вейвлеты Хаара	INRIA	0.3	10⁻⁴
PCA-SIFT, контексты формы	MIT	0.1	10⁻⁴
PCA-SIFT, контексты формы	INRIA	0.5	10⁻⁴

В рамках семинара Pascal Visual Object Classes в 2006 году, Далал и Триггс представили результаты применения HOG-дескрипторов к поиску на изображениях не только людей, но и машин, автобусов, велосипедов, собак, кошек и коров, а также оптимальные параметры для формирования и нормализации блоков в каждом случае. По ссылке можно посмотреть примеры для обнаружения мотоциклов.

Затем в рамках Европейской конференции по компьютерному зрению 2006 года, Далал и Триггс совместно с Корделией Шмид применили HOG-дескрипторы к распознаванию людей на видео. Предложенный ими способ заключается в совместном использовании обычных HOG-дескрипторов на каждом кадре и гистограмм внутреннего движения (англ. Internal Motion Histograms, IMH) на парах последовательных кадров. IMH-дескрипторы используют длины градиентов, полученных из оптического потока между двумя последовательными кадрами [3].

Литература:

1. Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. М.: Наука, 2005. - Вып. 33. 5-68 с.

2. Рудаков К.В. Об алгебраической теории универсальных и локальных ограничений для задач классификации //Распознавание, классификация, прогноз. Математические методы и их применение. Вып. 1. - М.: Наука, 2007. -176-200 с.

3. Потапов А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007. - 548 с.