Сучасні підходи до відстеження об’єктів у відео

Васюра А.С., к.т.н., проф.; Маслій Р.В.; Барченко К.В; Васаженко А.С.

Вінницький національний технічний університет, Україна

Вступ

Відстеження об’єктів у відео є важливою задачею комп’ютерного бачення. Швидкий ріст потужності комп’ютерів та доступність високоякісних та недорогих відеокамер разом із збільшенням необхідності автоматизованого відео аналізу сформувало значний інтерес до алгоритмів відстеження об’єктів[1].

Відстеження об’єктів здійснюється у багатьох застосуваннях, а саме:

- розпізнавання руху з метою ідентифікації особи, основуючись на специфічності її ходи;

- автоматичне відео спостереження, тобто моніторинг сцени з метою виявлення підозрілої активності чи небажаних подій;

- відео індексування, тобто автоматичне створення анотацій і пошук відео у мультимедійних базах даних;

- взаємодія "людина-комп’ютер", в рамках якої здійснюється розпізнавання жестів, відстеження руху очей для взаємодії з комп’ютером;

- моніторинг дорожнього руху, тобто отримання в реальному часі статистики дорожнього руху для оптимального керування транспортними потоками;

- навігація автомобілів, тобто здійснення планування маршруту та обходу перешкод автомобілем;

- системи захисту пішоходів, наприклад, "розумні" світлофори, які можуть видавати звуковий сигнал у разі присутності пішоходів на переході, особливо це актуально в умовах поганої видимості;

- навігація роботів;

- відео стиснення, де відстеження може використовуватись, наприклад, для стиснення з меншою степеню втрат областей кадру, в яких знаходяться об’єкти інтересу;

- телеконференції.

У найпростішому випадку відстеження може бути визначене як проблема оцінювання траєкторії об’єкту у послідовності відео кадрів. Іншими словами під час відстеження у кожному кадрі мають бути виставлені мітки об’єктів, що відстежуються, наприклад, такі мітки можуть визначати просторове положення об’єктів. Крім того, в залежності від задачі, метод відстеження може забезпечувати таку інформацію про об’єкт, як орієнтація чи форма об’єкту.

Відстеження об’єктів є складною задачею у зв’язку з такими факторами:

- втрата інформації спричинена проекцією трьохвимірного світу у двохвимірне зображення;

- присутність шумів на зображенні;

- складні рухи об’єкту;

- не жорсткість об’єктів;

- часткові чи повні оклюзії об’єкту;

- складні форми об’єкту;

- зміни освітлення;

- вимога обробки у реальному часі.

Спрощення відстеження може бути здійснено шляхом введення обмежень на рух чи/і зовнішній вигляд об’єктів. Наприклад, майже всі алгоритми відстеження припускають, що рух об’єкту є гладким без різких змін. Іншим обмеженням стосовно руху може бути апріорна інформація про постійну швидкість чи постійне прискорення об’єкту. Апріорна інформація про кількість та розмір об’єктів чи зовнішній вигляд і форму об’єктів також може спростити проблему відстеження.

Останнім часом була запропонована велика кількість підходів до відстеження об’єктів. В першу чергу, ці підходи відрізняються один від іншого на підставі того, як вони відповідають наступним питанням:

- яке представлення об’єкту найбільш сприятливе для відстеження;

- які ознаки зображення мають бути використані;

- яким чином моделюється рух, зовнішній вигляд та форму об’єкту.

Відповіді на ці питання залежать від контексту/середовища, в якому здійснюється відстеження та кінцеве застосування, для якого використовується інформація, що стосується відстеження на даний час. Велика кількість методів відстеження намагаються відповісти на ці запитання для різноманітних сценаріїв.

1. Представлення об’єкту

Розглянемо форми представлення об’єктів:

1. Точки. Об’єкт представляється точкою, що є центроїдом [2] чи набором точок. У загальному випадку, таке представлення використовується для відстеження об’єктів, що займають незначні області зображення.

2. Примітивні геометричні форми. Форма об’єкту представляється у вигляді прямокутника чи еліпса. Рух об’єкту при такому представленні, як правило, моделюється шляхом зміщення, афінних чи проекційних перетворень. Примітивні геометричні форми більш підходять для представлення простих жорстких об’єктів, хоча можуть застосовуватися для представлення не жорстких об’єктів.

3. Зчленовані форми. Зчленовані об'єкти складаються з частин, які з’єднані між собою. Наприклад, людське тіло є зчленованим об'єктом з такими частинами як тулуб, руки, голова, ноги, що з’єднані між собою.

4. Скелетні моделі. Ці моделі, зазвичай, використовуються як представлення форми для розпізнавання об’єктів. Скелетні моделі можуть бути використані для моделювання як жорстких, так і зчленованих об’єктів.

5. Силуети та контури. Контурне представлення об’єкту визначає межі об’єкту. Область у середині контуру називається силуетом об’єкту. Контурне чи силуетне представлення підходить для відстеження об’єктів з не жорсткими формами [2].

Є декілька шляхів представлення зовнішнього вигляду ознак об’єктів. Для відстеження об’єктів представлення форми можуть бути об’єднані з представленням зовнішнього вигляду. Можна навести декілька відомих представлень зовнішнього вигляду об’єктів [1]:

1. Щільності ймовірностей зовнішнього вигляду об’єкту. Щільність ймовірності оцінки зовнішнього вигляду об’єкту може бути параметричною, такою, як гаусівська чи гаусівська суміш, або непараметричною, такою, як парзеновські вікна чи гістограми. Щільність ймовірності зовнішнього вигляду ознак об’єкту (колір, текстура) може бути обчислена в області зображення, що визначена моделями форм (внутрішня частина еліпса чи контуру).

2. Шаблони. Шаблони будуються при використанні геометричних форм або силуетів. Перевагою шаблонів є те, що вони несуть як просторову інформацію, так і інформацію про зовнішній вигляд. Недоліком шаблонів є те, що вони можуть представляти зовнішній вигляд об’єкту в одному ракурсі. Тому вони підходять тільки для відстеження, об’єктів орієнтація яких не суттєво змінюється під час відстеження.

3. Активні моделі зовнішнього вигляду. Ці моделі створюються шляхом моделювання одночасно і форми об’єкта, і його зовнішнього вигляду [3]. В цілому, форма об’єкта визначена набором граничних знаків. Схожі до контурного представлення граничні знаки можуть знаходитися як на границі об’єкта, так і в середині об’єкта. Для кожного граничного знака зберігається вектор представлення, який несе інформацію про колір, текстуру чи градієнт. Активні моделі зовнішнього вигляду потребують фази навчання, в якій як форма, так і зовнішній вигляд навчаються на наборі прикладів, використовуючи, наприклад, метод головних компонент.

4. Моделі зовнішнього вигляду різних ракурсів. Ці методи кодують різні ракурси об’єкту. Одним зі способів представлення різних ракурсів об’єкту є створення підпростору для кожного ракурсу. Такий підхід, що використовує підпростори, наприклад, аналіз незалежних компонент, використовує як представлення форми, так і представлення зовнішнього вигляду [4,5].

2. Ознаки зображень

Вибір правильних ознак відіграє важливу роль у відстеженні. В цілому, найбільш бажаною властивістю візуальних ознак є їх унікальність для того, щоб об'єкти можна було легко розпізнати у просторі ознак. Вибір ознак тісно пов'язаний з представленням об’єкту. Наприклад, колір використовується як ознака у гістограмному представленні зовнішнього вигляду, в той час, як для контурного представлення зовнішнього вигляду у якості ознак часто використовуються краї. Загалом, багато алгоритмів відстеження використовують комбінацію ознак. Розглянемо найбільш поширенні у використанні ознаки [1]:

1. Колір. В обробці зображень для представлення кольору зазвичай використовується кольорова модель RGB. Модель RGB не є рівномірним колірним простором, тобто відмінності між кольорами у просторі RGB не відповідають відмінностям між кольорами, що сприймаються візуальною системою людини. Кольорові простори L*u*v та L*a*b є рівномірними колірними просторами. Колірний простір HSV є апроксимовано рівномірним. Недоліком таких кольорових просторів є чутливість до шумів.

2. Краї. Границі об’єктів часто вносять значні зміни в інтенсивності пікселів зображення. Виявлення країв використовується для ідентифікації цих змін. Важливою характеристикою країв є їх менша чутливість до шумів в порівнянні з колірними ознаками. Алгоритми, які відстежують границі об’єктів, використовують краї у якості репрезентативних ознак. Завдяки своїй простоті та точності найбільш популярним детектором країв є Кенні детектор. Розвиток алгоритмів виявлення країв представлений у роботі [6].

3. Оптичний потік. Оптичний потік є полем щільності векторів зміщення, які визначаються зміщенням кожного пікселя в області зображення. Це обчислюється при використанні обмеження яскравості, яке передбачає сталість яскравості відповідних пікселів у послідовності кадрів. Оптичний потік, як правило, використовується в якості ознаки при відстеженні об’єктів та сегментації основаній на русі. Огляд методів, які використовують оптичний потік, представлений у роботі [7].

4. Текстура. Текстура є мірою інтенсивності зміни поверхні, яка характеризується такими властивостями, як гладкість та регулярність. У порівнянні з кольором, текстура вимагає додаткового кроку обробки для отримання дескрипторів. Прикладом текстурних дескрипторів є: GLCM, вейвлети, LBP. Аналогічно до ознак країв текстурні ознаки менш чутливі до змін освітлення в порівнянні з колірними ознаками [8].

3. Підходи до відстеження

Розглянемо класифікацію підходів до відстеження відносно порядку застосування алгоритму виявлення [1]:

1. В першому підході можливі області об’єкту в кожному кадрі отримуються за допомогою алгоритму виявлення об’єкту. Потім трекер знаходить відповідності між об’єктами та між кадрами.

2. В другому підході області об’єкту та відповідність між об’єктами спільно оцінюються шляхом ітеративного оновлення місцезнаходження об’єкту і використання інформації отриманої з попередніх кадрів.

У будь-якому підході відстеження, об'єкти представляються з використанням моделей форм та/або моделей зовнішнього вигляду об’єкту. Модель, що обрана для представлення форми об'єкта, має обмеження на тип руху або деформації об’єкту, які йому властиві. Наприклад, якщо об'єкт представлений у вигляді точки, то може бути використана тільки поступальна модель. У випадку, коли об'єкт представлений такою геометричною формою як еліпс, доцільними є параметричні моделі руху, такі, як афінні перетворення. Така форма представлення може апроксимувати рух жорстких об'єктів. Для нежорстких об'єктів силуети чи контури є найбільш зручним представленням, і обидві моделі, як параметричні так і непараметричні, можуть використовуватися для визначення їх руху.

Розглянемо класифікацію підходів до відстеження відносно форм об’єктів які використовуються:

1. Відстеження точок. Об'єкти, що виявлені в послідовності кадрів, представляються точками, які визначають стан об’єкту. Поточний стан об’єкту базується на попередньому стані, який може вміщати положення об'єкта і його рух (рис. 2. (а)). Цей підхід вимагає зовнішнього механізму для виявлення об'єктів в кожному кадрі [9].

2. Відстеження ядер. Ядро відноситься до форми та зовнішнього вигляду об’єкта. Наприклад, ядро може мати прямокутну або еліптичну форму з відповідною йому гістограмою. Об'єкти відстежуються шляхом розрахунку руху ядра у послідовності кадрів (рис. 2 (б)). Цей рух, зазвичай, представляється у вигляді параметричних перетворень таких, як переміщення, поворот чи афінні перетворення [10].

3. Відстеження силуетів. Відстеження здійснюється шляхом оцінки області об'єкта в кожному кадрі. Методи відстеження силуету використовують інформацію, яка закодована всередині області об'єкта. Така інформація може надаватись у вигляді щільності зовнішнього вигляду і моделей форми, які, зазвичай, представляються у вигляді карти країв. Враховуючи моделі об’єкта, силуети відстежуються або відповідністю форми, або еволюцією контуру (рис. 2 (в), (г)). Для методів, що базуються на контурах, силуети представленні явно та неявно. Явне подання визначає межі силуету за допомогою набору контрольних точок. Неявне подання визначає силует за допомогою функції, що визначена сіткою [11].

а) б) в) г)

Рис.2 – Підходи до відстеження

Висновки

Вибір підходу, що використовуються для відстеження об’єкту, залежить в першу чергу від специфічності об’єкту, від його можливих геометричних форм, специфічності руху, особливостей апаратури, що використовується для відстеження.

Для відстеження дуже малих об’єктів доцільно використовувати методи, які відносяться до точкового підходу відстеження. Найбільш відомими такими методами є фільтр Калмана та particle filter. У випадку об’єктів, що мають просту геометричну форму (прямокутник, еліпс) доцільно використовувати підхід відстеження ядер. Відомими методами такого підходу є порівняння еталонів та mean-shift. Для об’єктів, що мають складну геометричну форму доцільно використовувати підхід відстеження силуетів. Відомими методами цього підходу є порівняння форм та відстеження при використанні простору станів.

Література

1. Yilmaz, A. Object tracking: A survey / Yilmaz, A., Javed, O., and Shah, M. // ACM Comput. Surv. – 2006.

2. Veenman C. Resolving motion correspondence for densely moving points / Veenman C., Reinders M., Backer E. // IEEE Trans. Patt. Analy. Mach. Intell. – 2001.

3. Yilmaz A. Contour based object tracking with occlusion handling in video acquired using mobile cameras / Yilmaz A., Li X., Shah M. // IEEE Trans. Patt. Analy. Mach. Intell. – 2004.

4. Edwards G. Interpreting face images using active appearance models / Edwards G., Taylor C., Cootes T. // International Conference on Face and Gesture Recognition. – 1998. – P. 300–305.

5. Mughadam B. Probabilistic visual learning for object representation. / Mughadam B., Pentland A. // IEEE Trans. Patt. Analy. Mach. Intell. – 1997. – P. 696–710.

6. Black M. Eigen tracking: Robust matching and tracking of articulated objects using a view-based representation / Black M., Jepson A. // Int. J. Comput. Vision. – 1998. – P. 63–84.

7. Bowyer K. Edge detector evaluation using empirical roc curve / Bowyer K., Kranenburg C., Dougherty // Comput. Vision Image Understand. – 2001. –№10. P. 77-103.

8. Barron J. Performance of optical flow techniques. / Barron J., Fleet D., Beauchemin S.// Int. J. Comput. Vision – 1994. – №12. – P. 43-77.

9. Broida T. Estimation of object motion parameters from noisy images. / Broida T., Chelleppa R. // IEEE Trans. – 1986. – P. 90–99.

10. Tao H. Object tracking with bayesian estimation of dynamic layer representations. / Tao H., Sawhney H., Kumar R. // IEEE Trans. – 2002. – P. 75–89.

11. Sato K. Temporal spatio-velocity transform and its application to tracking and interaction. / Sato K., Aggarwal J. // Comput. Vision Image Understand. – 2004. – P. 100–128.