Технические науки /11. Робототехника

 

Д.т.н. Хачумов В.М.

ФГБУН Институт системного анализа Российской академии наук,              Россия

Интегрированный человеко-машинный интерфейс бесконтактного управления роботизированными системами

      В последнее время за рубежом наблюдается интерес к построению систем управления, использующих комбинированный принцип управления на основе  голоса и жестов. Необходимость в подобных системах связана как преодолением ограниченных возможностей человека, так и с целью повышения надежности систем управления. В работе [1] представлена система реального времени для управления небольшим мобильным роботом с использованием комбинированных речевых и жестовых команд. Для отображения жеста используется скелет и его развертка с распознаванием методом Dynamic Time Warping (DTW). Отдельные команды передаются fusion-центр, который решает проблему противоречивых и взаимодополняющих инструкций. В работе [2] дается описание робототехнической системы, управляемой дистанционно с помощью голоса, жестов и человеко-машинного интерфейса.

      В настоящей работе рассматриваются некоторые отечественные решения задач управления голосом и жестами, обозначены предпосылки для создания комбинированных бесконтактных систем управления и интегрированного интерфейса. Система речевого управления может использовать метод распознавания как команды в целом [3], так и ее фонемного представления [4]. Аналогично, система управления может располагать методами побуквенного распознавания жеста, например, на  основе русской ручной азбуки (РРА) [5],  или специального жеста, передающего команду одним знаком руки [6]. С целью увеличения надежности представляет интерес построение человеко-машинного интерфейса, способного воспринимать раздельно или одновременно любые из перечисленных способов формирования команды.

Рассмотрим вначале систему речевого управления [3,4].

      В случае фонемного подхода имеем следующую последовательность:

1. Чтение команды с микрофона или из базы команд (формирование речевого сигнала, который может быть оцифрован и визуализирован).

2. Вычисление дискретного вейвлет преобразования сигнала. Разбиение сигнала на фонемы.

3. Сравнение результата с базой данных фонем и команд.

4. Распознавание на основе дискретной цепи Маркова (набор фонем сравнивается базой эталонных команд, принимается решение о типе команды и  степени уверенности ее распознания).

5. Вывод распознанной команды (на экран выводится сигнал с разметкой, команда, соответствующая распознанному сигналу, указывается степень доверия).

      В случае обработки речевой команды без разбиения имеем следующую последовательность операций.

1. Чтение команды и ее преобразование.

2. Предварительная обработка (удаление постоянной составляющей, фильтрация шумов, выделение границ речевой команды).

3. Выделение информативных признаков (вычисление кепстральных коэффициентов).

4. Распознавание речевой команды (загрузка весовых коэффициентов нейронной сети, загрузка выделенных признаков; на выходе сети − идентификатор распознанной команды).

5. Вывод распознанной команды (на экран выводится команда, соответствующая распознанному сигналу и степень доверия).

Рассмотрим задачу формирования жестового сигнала [5,6]

Схема перевода жестового языка РРА в текстовый вид:

1.Подача на вход кадров видеоряда,

2. Сегментация видеоряда (разбиение видеоряда на сегменты, каждый из которых соответствует отдельно показанному жесту).

3. Распознавание позиции ладони руки посредством обработки дальностного изображения, определения руки и преобразования его  в бинарное изображение.

4. Вычисление ключевых характеристик жеста в каждом кадре (определение конфигурации руки и движения пальцев или руки; построение скелетного  изображения руки, развертка скелетного изображения). 

5. Распознавание жеста (геометрический скелет руки является дескриптором, который может быть использован для идентификации жеста путем сравнения развертки скелета руки с эталонными развертками по алгоритму  DTW).

6. Распознанный жест добавляется в текст как новая буква.

      В случае специальных жестов управления имеем следующую схему

1. Формирование сигнала трехмерным сенсором.

2. Обработка кадров видеоряда, построение дальностного изображения, выделение изображения руки (изображение представлено множеством точек, являющимся моделью наблюдаемого объекта).

3. Сглаживание изображения. Распознавание позиции ладони руки путем обработки дальностного изображения. Преобразование изображения руки в бинарное изображение. За центр ладони принимается центр окружности вписанной в фигуру руки и имеющей максимальный радиус.

4. Часть динамических жестов можно распознать путем анализа изменений позиции центра ладони по трем осям пространства. Другая часть жестов распознается посредством вычисления моментов изображения.

5. Вывод распознанной команды в систему управления.

На основе результатов работ [3-6] можно составить таблицу качества распознавания команд, поданных разными способами (таблица 1). Заметим, что формирование точного слова только путем распознавания букв пока не представляется возможным и требует дополнительного сравнения полученных слов с командами, хранимыми в базе знаний. Анализ показывает, что весь цикл интеллектуального управления, независимо от способа подачи команды, содержит пять основных этапов, которые могут быть унифицированы.

Таблица 1 − Точность распознавания команд управления

 

Способ подачи и обработки команды

Команды:

Речь (фонемы)

Речь (слитно)

Спец. жест

Старт

0.83

1.00

0.90

Прямо/вперед

0.92

0.98

0.99

Назад

0.94

0.96

1.00

Стоп

0.83

0.97

0.92

Налево

0.97

0.99

1.00

Направо

0.96

0.99

1.00

Поворот

-

-

0.98

Вверх/вниз

-

-

0.99

(Примечание: прочерк означает отсутствие данных)

      Для реализации всех перечисленных возможностей комбинированной интеллектуальной системы и построения интерфейса необходимо создать инструментальные средства, позволяющие упростить и ускорить процесс комплексирования.  Целесообразна раздельная фильтрация потоков данных от каждого из датчиков команды с последующим объединением решения с весами, зависящими от точности  распознавания. Приоритет при этом отдается данным, полученным от датчиков с наибольшей точностью. Один из подходов к унификации заключается в замене разнотипных классификаторов на универсальную нейронную сеть, в которой происходит только смена весовых коэффициентов в соответствии с типом решаемой задачи. В нашем случае единой моделью служат развертка, называемая также «траекторией», в виде цифровой последовательности, физический смысл которой зависит от способа подачи команды. Для увеличения надежности распознавания возможно построение комитета классификаторов, в том числе на основе нейронных  сетей. Аппаратная часть системы управления представляет собой вычислительный конвейер, в котором в реальном масштабе времени происходят процессы передачи и преобразования информации.

       Работа выполнена при частичной финансовой поддержке, осуществляемой в рамках проекта РФФИ № 13-07-00025 А и проекта по Программе фундаментальных исследований ОНИТ 1 РАН.

 

Литература:

1. Fardana A.R., Jain S., Jovancevic I., Suri Y., Morand C., Robertson N.M. Controlling a Mobile Robot with Natural Commands based on Voice and Gesture.  http://home.eps.hw.ac.uk/~cgb7/readinggroup/papers/RobotCommandingByVoiceAndGesture.pdf

2. Urban M., Bajcsy P. Fusion of Voice, Gesture, and Human-Computer Interface Controls for Remotely Operated Robot.

http://isda.ncsa.illinois.edu/peter/publications/conferences/2005/Fusion05Robot.pdf

3. Котомин А.В. Предобработка звукового сигнала в системе распознавания речевых команд. – Труды XV Молодежной научной конференции «Наукоемкие информационные технологии» SIT-2011 (20-24 апреля 2011г.). – Переславль–Залесский: Изд-во «Университет города Переславля», 2011, с.25–38.

4. Мокров Е.В., Хачумов В.М., Теплоухова Н.Е. Применение фонемного подхода к распознаванию речевых команд. – Труды IV Всероссийской научно-технической конференции «Актуальные проблемы ракетно-космического приборостроения и информационных технологий» (15-17 июня 2011 г.)  М.: Радиотехника, 2012, с.418-424.

5. Nahapetyan V.E., Khachumov V.M. Automatic Transformation of Russian Manual Alphabet Gestures into Textual Form. – Scientific and Technical Information Processing, 2014, Vol.41, No.5, pp.302-308.

6. Нагапетян В.Э., Хачумов В.М. Распознавание жестов руки в задаче бесконтактного  управления беспилотным летательным аппаратом. – Автометрия, № 2, 2015.