Сучасні інформаційні технології/3. Програмне забезпечення

 

Морфіянець О. О., к.т.н. Месюра  В. І.

Вінницький національний технічний університет, Україна

Методи глибокого навчання для розпізнавання виразу обличчя

 

Вирази обличчя, що виникають на обличчі людини  можуть слугувати ознакою обману при невідповідності до слів чи макровиразів або індикаторами майбутньої поведінки людини [1]. У таких виразів мала тривалість, приблизно до п’ятої частини секунди, тому недосвідченою людиною залишаються зазвичай непоміченими [2]. Доцільно розпізнавати вираз обличчя автоматизованою інформаційною технологією, так як це дозволить ідентифікувати основні вирази обличчя при спостереженні за великою кількістю людей одночасно. Доцільно використовувати розпізнавання виразу обличчя в області психології, для визначення підозрілих людей у місцях скупчення людей, у слідчій практиці, тошо.

В сучасному науковому суспільстві в останні декілька років набули популярності алгоритми  глибокого навчання. Нещодавні досягнення у підвищенні їх ефективності в області машинного навчання вказують на можливості створення інформаційної технології розпізнавання виразу обличчя з використанням глибокого навчання та підвищення точності розпізнавання виразу обличчя. Враховуючи новизну області можна стверджувати про можливість значного покращення точності розпізнавання виразу обличчя при використанні глибокого навчання [3]. Ключовими в області глибокого навчання є роботи професора Ендрю Нг та його дослідження у проекті «Гугл брейн»: вперше були застосовані широкомасштабні глибокі нейронні мережі на 16000 процесорних ядрах [4].

Глибоке навчання — це галузь машинного навчання, яка основується на множині алгоритмів, які намагаються моделювати високорівневі абстракції в данних. Наприклад, можна використати моделі нейронних мереж з великою кількістю прихованих шарів. Шари в такій моделі, які знаходяться близько до вхідного шару представляють низькорівневі концепції, а шари які знаходяться ближче до вихідного представляють високорівневі концепції отримані з низькорівневих. Таким чином, одні й ті самі концепції низького рівня допомагають визначити багато високорівневих концепцій [5].

Серед моделей глибокого навчання можна виділити наступні: згорточні нейронні мережі, глибокі мережі довіри, звичайні багатошарові нейромережі прямого розповсюдження та ін. Приклад схеми багатошарової нейронної мережі прямого розповсюдження наведено на рисунку 1.

 

tikz40.png

 

Рис. 1.  Приклад схеми багатошарової нейронної мережі прямого розповсюдження

 

В 2008 році, Бітом Фейзелем була запропонована архітектура згорточної нейронної мережі що складається з 5-ти шарів, 2 з яких – шари підвибірки і 2 – згорточні шари [6]. Б.Фейзель дослідив декілька архітектур згорточної нейромережі і виділив вищевказану, за допомогою якої було досягнуто точності розпізнавання у 82.9% на базі даних JAFFE (Japanese Female Facial Expression Database). Основним недоліком такої архітектури є об’ємність обчислень, необхідних при розпізнаванні: хоча кількість параметрів мережі є малою, на кожному кроці згортки необхідно обробляти велику кількість областей зображення, що перекриваються. Слід зазначити, що цей недолік може бути усунений з використанням паралельних обчислень, оскільки кожна така область може бути обробленою одночасно з іншими з використанням однакового набору параметрів. У 2010 році Томом Мак-Лафіним та іншими було використано підхід, що базується на глибоких нейромережах прямого розповсюдження із попереднім тренуванням за допомогою обмежених машин Больцмана [7] — типу нейронних мереж, який отримав значне розповсюдження останнім часом у зв’язку із порівняною легкістю використання, відсутністю потреби у великих об’ємах помічених даних (порівняно з іншими типами нейромереж, такими як згорточні) та нещодавно розробленими ефективними алгоритмами тренування.

Як виявилося, алгоритми тренування глибоких мереж довіри можуть бути використані для поперднього тренування без учителя ваг нейромережі прямого розповсюдження. Їх використання призводить до автоматичного виділення у кожному шарі характерних розподілених ознак вхідних даних з попереднього шару, що є основою розподілених інтерпретацій. Це дозволяє будувати глибокі нейромережі, не зважаючи на проблеми застосування зворотнього росповсюдження похибки до глибоких шарів — їх ваги вже будуть коректно ініціалізовані під час  переднавчання. В роботі T. McLaughlin було використано бази даних CK+, Yale Face Database та JAFFE. Точність на тестових даних при використанні лише баз даних CK+ та Yale Face Database для розпізнавання семи базових виразів обличчя та нейтрального виразу склала 71%, а при використанні всіх трьох баз даних — 59%. Така низька точність розпізнавання є значним недоліком порівняно з іншими розглянутими методами, однак вона є наслідком недостатньої вивченості подібних моделей, а не їх непридатності до задач розпізнавання. Точність розпізнавання може бути значно покращено, оскільки самі розробники визнають, що технологія внаслідок своєї новизни ще не дійшла до оптимального стану і можуть існувати кращі типи нейронів прихованого шару чи мережевої архітектури, та й сам алгоритм навчання скоріш за все може бути покращено [8].

Проаналізовано успішні приклади використання методів глибокого навчання до вирішення задачі розпізнавання виразу обличчя. Аналіз свідчить, що глибоке навчання є перспективним підходом для вирішення поставленої задачі через свою відносну новизну, можливість великої кількості варіацій, а також через підвищення швидкодії комп'ютерів згідно закону Мура, розповсюдження обчислень на нових, потужних графічних модулях, які дозволяють проводити обчислення з високим ступенем паралелізації [9], більшій кількості даних для тренування та тестування розпізнавання виразу обличчя людини.

 

Література

 

1.                  P. Ekman. Emotions Revealed: Recognizing Faces and Feelings to Improve Communication and Emotional Life / P. Ekman.— Henry Holt and Company, 2003. — 336 с.

2.                  P. Ekman. Telling Lies: Clues to Deceit in the Marketplace, Politics, and Marriage / P. Ekman.—  New York: W. W. Norton & Company, 2009. — 416 c.

3.                  G. Hinton. A fast learning algorithm for deep belief nets / G. Hinton, S. Osindero, Y. Teh // Neural Computation. —  2006. — №8.— C. 1527-1554.

4.                  Ng Andrew. Building High-level Features Using Large Scale Unsupervised Learning / Ng Andrew, Dean Jeff. — Google, (2012) — C. 1-11.

5.                  Y. Bengio. Learning Deep Architectures for AI / Y. Bengio. — Montreal: Université de Montréal, 2009. — 130 c.

6.                  B. Fasel. Multiscale Facial Expression Recognition using Convolutional Neural Networks / B. Fasel // IDIAP 2009. — 2009. — No13.— C. 121-137.

7.                  T. McLaughlin. Emotion Recognition with Deep-Belief Networks / T. McLaughlin, M. Le, N. Bayanbat // Stanford CS 229 Machine Learning Final Projects. — 2010. — No14.— C. 62–66.

8.                  G. Hinton. Deep Neural Networks for Acoustic Modeling in Speech Recognition / G. Hinton, L. Deng, D. Yu, G. Dahl, A.Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, B. Kingsbury // IEEE Signal Processing Magazine. — 2012. — No16.— C. 2–17.

9.                  Яровий А. А. Аналіз обчислювальної складності GPU-орієнтованих паралельно-ієрархічних обчислювальних систем та оцінювання продуктивності їх апаратного забезпечення / А. А. Яровий, Н. І. Кокряцька, С. В. Наконечна, М. С. Матейчук, Т. Д. Польгуль // Оптико-електронні інформаційно-енергетичні технології. - 2014. - № 1. - С. 18-25.