Современные информационные
технологии/Программное обеспечение
к.ф.-м.н.,
доцент Фархадов Т., к.т.н.
Турганбай К.Е.,
магистрант Оглов Р.В.
Евразийский
технологический университет, Казахстан
SVM-классификатор. Метод опорных векторов
Конечным шагом в распознавании объектов с
использованием HOG является классификация дескрипторов при помощи
системы обучения с учителем. Далал и Триггс использовали метод
опорных векторов (SVM, Support Vector Machine).
В оригинальном эксперименте по обнаружению
людей, Далал и Триггс сравнивали дескрипторы R-HOG и C-HOG с обобщенными
вейвлетами Хаара и контекстами формы. Обобщенные вейвлеты Хаара
являются направленными вейвлетами Хаара и были использованы в 2001 году
Моханом, Папагеоргиу и Поггио в их экспериментах по обнаружению объектов.
Дескрипторы PCA-SIFT похожи на SIFT-дескрипторы, но отличаются тем, что к
нормализованным градиентам применяется метод главных компонент.
Дескрипторы PCA-SIFT впервые были использованы в 2004 в работе Ке и Суктханкара;
было заявлено, что они по своим параметрам превосходят обычные
SIFT-дескрипторы. Наконец, контексты формы, подобно C-HOG, используют круглые
бины, но учитывают голоса только на основе присутствия края, не учитывая
ориентацию. Контексты формы появились в 2001 в работе Белонги, Малик и Пузича [1].
Тестирование проводилось
на двух разных наборах данных. База данных пешеходов Массачуссетского
технологического института содержит обучающую выборку из 509 изображений и
тестовую выборку из 200 изображений. Набор содержит изображения людей только
спереди или сзади, позы на изображениях почти не отличаются. Эта база данных
широко известна и используется в других исследованиях, найти ее можно по
ссылке http://cbcl.mit.edu/cbcl/software-datasets/PedestrianData.html. Второй
набор данных был специально создан Далалом и Триггсом для их эксперимента,
поскольку на наборе MIT дескрипторы HOG показали почти совершенные результаты.
Этот набор данных, известный как INRIA, содержит 1805 изображений людей. Набор
содержит изображения людей в широком разнообразии поз, включает в себя
изображения с трудным фоном (например, на фоне толпы), и является гораздо более
сложным для распознавания, чем набор MIT [2]. База данных INRIA в настоящий
момент доступна по адресу http://lear.inrialpes.fr/data.
По результатам
исследований, дескрипторы C-HOG и R-HOG дают сравнимые результаты, причем C-HOG
имеют несколько меньшую долю пропущенных изображений при фиксированной доле
ошибок первого рода на обоих наборах изображений. Сравнение C-HOG и R-HOG можно
увидеть в таблице 1.
Таблица 1 - Сравнение C-HOG и R-HOG
Дескриптор |
Набор изображений |
Доля пропущенных изображений |
Доля ошибок первого рода |
HOG |
MIT |
≈0 |
10−4 |
HOG |
INRIA |
0.1 |
10−4 |
Обобщенные
вейвлеты Хаара |
MIT |
0.01 |
10−4 |
Обобщенные
вейвлеты Хаара |
INRIA |
0.3 |
10−4 |
PCA-SIFT,
контексты формы |
MIT |
0.1 |
10−4 |
PCA-SIFT,
контексты формы |
INRIA |
0.5 |
10−4 |
В рамках семинара Pascal Visual Object Classes в
2006 году, Далал и Триггс представили результаты применения HOG-дескрипторов к
поиску на изображениях не только людей, но и машин, автобусов, велосипедов,
собак, кошек и коров, а также оптимальные параметры для формирования и
нормализации блоков в каждом случае. По ссылке можно посмотреть примеры для
обнаружения мотоциклов.
Затем в
рамках Европейской конференции по компьютерному зрению 2006 года,
Далал и Триггс совместно с Корделией Шмид применили HOG-дескрипторы к
распознаванию людей на видео. Предложенный ими способ заключается в совместном
использовании обычных HOG-дескрипторов на каждом кадре и гистограмм внутреннего
движения (англ. Internal Motion Histograms, IMH) на парах последовательных
кадров. IMH-дескрипторы используют длины градиентов, полученных из оптического
потока между двумя последовательными кадрами [3].
Литература:
1.
Журавлев
Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации
// Проблемы кибернетики. М.: Наука, 2005. - Вып. 33. 5-68 с.
2.
Рудаков
К.В. Об алгебраической теории универсальных и локальных ограничений для задач
классификации //Распознавание, классификация, прогноз.
Математические методы и их применение. Вып. 1. - М.: Наука, 2007. -176-200 с.
3.
Потапов
А.С. Распознавание образов и машинное восприятие. - С-Пб.: Политехника, 2007. -
548 с.