Математика/3. Перспективы
информационных систем
Акимов Д.А., Терехин И.В. к.т.н. Никонов В.В.,
д.т.н. Морозова Т.Ю.
ФГБОУ ВПО «Московский государственный
университет приборостроения и информатики»
«Ситуационный анализ в промышленных
системах человеко-машинного взаимодействия»
Создание интеллектуальных человеко-машинных
интерфейсов является одним из приоритетных направлений современной науки и
техники. На основе анализа можно отметить, что сложность разработки подобных
систем обусловлена присутствием в системе не только технической составляющей,
например компьютера, но и еще более сложного объекта – человека. Человек в
контуре системы управления выступает как многокритериальный объект. При
создании интерфейсов с программными системами должны учитываться особенности физиологии
человека, его восприятия и поведения.
Особенно остро вопрос исследования человека как субъекта управления стоит при
создании бесконтактных интерфейсов.
Бесконтактные интерфейсы делятся на несколько
категорий по методу съема информации с человека:
·
Видео изображение. Даёт информацию о положении
частей тела и их перемещении в пространстве. Интерфейсы подобного рода активно
используют методы компьютерного зрения.
·
Звуковой
сигнал. С помощью микрофонов система воспринимает голосовые команды и
распознаёт их.
·
Электрические
и магнитные поля. С помощью специальных потенциометров измеряются магнитные и
электрические поля человека. Подобного рода метод используется при измерении
мозговой активности и считывании электрических потенциалов с глазного яблока.
Основной проблемой при распознавании команды,
поданной человеком, является нечеткие данные. Нечеткость команды
обуславливается особенностями человека и текущим окружением: положением тела,
пространственно-временными характеристиками движения частей тела и т.д.
Ситуационный анализ призван решить проблему
управления программными системами, в случае, когда управляющая информация
является нечеткой или неполной.
Рассмотрим систему бесконтактного управления на
основе информации с видео. Пользователь совершает головой или глазами
определённые движения, которые воспринимаются системой как жест. Жест
представляет нечеткий символ, который может быть интерпретирован несколькими
вариантами. Для четкой интерпретации жеста, нужно рассмотреть все возможные
варианты команд которые могут быть восприняты в контексте данной ситуации. Для
принятия четкого решения по управлению системой требуется провести ситуационный
анализ и на основании его результатов выбрать наиболее вероятную интерпретацию
жеста.
Система принятия решений по управлению
программами решает задачу распознавания ситуаций. Для построения модели системы
принятия решений, учитывающую динамику источников информации (видео человека и
состояние системы), необходим контекстно-ориентированный подход. Для процессов, поддерживаемых
информационными технологиями, контекст определяется как информация, которая
может быть использована для описания ситуации, в которой находится в данный
момент некоторый объект [3].
Человек делает жест головой и информация с видео
о траектории движения биометрических точек и времени, за которое жест головой
был подан, попадает в систему распознавания в виде вектора данных. Вектор может
представлять набор множеств, описывающих элементарное движение, совершаемое за
время съёмки определённого количества кадров.
Цифровое
изображение, получаемое видеокамерой в момент времени t и имеющее по вертикали h, а по горизонтали w пикселей, обозначим It(h, w).
Видео поток – это последовательность цифровых изображений (кадров) It(h, w), It+1(h,
w), ..., It+k(h, w). Под прямоугольной областью интересов
Obt(X, Y) понимается
множество пикселей цифрового изображения It(h, w),
очерчивающих искомый объект, содержащее X
пикселей по вертикали и Y по
горизонтали. Обнаружением объекта называется выделение области интересов Obt(X,
Y) на цифровом изображении It(h,
w) в момент времени t. Под обнаружением объекта в реальном
времени понимается обработка видеопотока с частотой не менее 10 кадров в
секунду [6]. В нашем случае удобно использовать алгоритм AAM (Active Appearance
Model) для отслеживания лица.

Рис. 1. Пространственно-временная модель жеста
головой (кончиком носа). Черными штрихами отмечены элементарные движения.
Жест
можно описать как объект класса наиболее верхнего (третьего) уровня модели
движений, которая включает три класса:
M = {Жесты, Элементы жестов, Элементарные
движения}.

Рис. 2. Уровни модели описания движений.
Элементарное движение описывается как вектор L (d,a),
где: d – длинна элементарного
движения , выраженная в пикселях; a
– направление вектора движения, выраженное в градусах.
Группа элементарных движений (элемент жеста)
описывается вектором:
F (h,b),
где:
h – нечёткая длинна элемента
жеста , выраженная в лингвистической переменной «Смещение», характеризующей
отношение Li/S, где i – номер длинны
элементарных движений L, S – длинна всего жеста; b – нечеткое направление, выраженное в
лингвистической переменной «Азимут».
Жесты описываются вектором элементов жестов G(F), Класс G
описывается деревом, конечными ветвями которого являются жесты, промежуточные
ветви характеризуют элементы жестов.
Формирование жеста основано на группировки
лингвистических переменных, описывающих, так же сгруппированные элементарные
движения. Метод описания жеста можно представить на рис. 3.

Рис. 3. Пример группировки жеста
Распознавание жестов основано на продукционной
системе, реализующей подсистему ситуационного анализа. На этапе распознавания
элементов жеста с помощью нейросетевой структуры, выполняется поиск
альтернативных жестов, которому этот элемент может принадлежать.
При применении методов распознавания ситуаций
необходимо решить две задачи:
·
Задача
оценки объекта;
·
Задача
оценки ситуации.
Процесс распознавания
ситуаций и процесс идентификации поисковой ситуации являются тождественными.
При этом использование одного или нескольких статистических и/или
математических алгоритмов не может решить проблему в целом [1,2]. В связи с
этим в качестве ядра сложной модели РС предлагается подход, основанный на
применении технологии экспертных систем.
Основная цель действий
системы распознавания — это интерпретация жеста. В зависимости от тех или иных
обстоятельств другие признаки жеста могут отсутствовать.
Фаза
распознавания ситуаций определяется как фаза поиска условий, влияющих на выбор
из альтернатив жестов. Данная фаза соответствует началу процесса принятия
решений. Она включает в себя осознание проблемы, требующей решения, и сбор и
анализ информации, относящейся к данной ситуации[8]. Описание текущей ситуации
необходимо для поиска и синтеза похожих ситуаций в базе знаний.
Рассмотрим ситуацию, когда пользователь выделил
текст, затем плавно провел взглядом снизу вверх и обвел полукруг справа опять
вниз. Движение получились нечеткими. Система отслеживания сегментировала
элементарные движения и построила альтернативы жестов и дерево возможных команд
– «P» , «D», «O», показанных на рис. 4.

Рис. 4.
Альтернативы жестов
Для принятия решения,
какую альтернативу выбрать - нужно обратиться к базе знаний. В базе знаний
содержатся дерева классов онтологий, по которому и происходит выбор альтернатив
команды[4].
Таблица 1.
Пример онтологий базы знаний сценариев ситуаций.
|
№
понятия |
Понятие |
Отношение |
Тип понятия, связь |
|
1 |
Программа |
Название |
Строковый |
|
Тип |
Строковый |
||
|
2 |
Позиция фокуса |
Номер ветви меню |
Целочисленный |
|
Номер элемента |
Целочисленный |
||
|
Тип выбора |
Множество |
||
|
3 |
Выделенная область |
Начальная позиция |
Целочисленный |
|
Конечная позиция |
Целочисленный |
||
|
4 |
Буфер |
Размер |
Вещественный |
|
Тип объекта в буфере |
Множество |
||
|
5 |
Возможные команды |
Название |
Строковый |
|
Конечное состояние |
6 |
||
|
Результат |
2,3,4 |
||
|
Частота использования |
Целочисленный |
||
|
6 |
Состояние |
Программа |
1 |
|
Позиция фокуса |
2 |
||
|
Выделенная область |
3 |
||
|
Буфер |
4 |
||
|
Возможные команды |
5 |
Команда «D» в
данном состоянии вообще не применяется. Команда «O» для данного состояния
интерпретируется как увеличение (zoom) окна. Пользователь
редко пользовался данной функцией. Из ситуации следует, что это команда «P»
интерпретированная как «Print»
(отправка выделенного текста на печать), отметим, что для удобства
команда, например «P», не может интерпретироваться различно в конкретном
состоянии программы.
Для
реальных задач исходные данные в самом общем случае являются многомерными и
могут быть представлены массивами (векторами) вещественных чисел. Одной из
основных особенностей распознавания ситуаций является проекция данных в пространство
состояний программной системы.
Ниже
приведено описание (в псевдокоде) базового алгоритма распознавания ситуаций.
Обучение
системы распознавания // отображение данных
{
Получить
обучающую выборку;
Сформировать
обучающую матрицу;
Выполнить
сингулярное разложение обучающей матрицы;
}
Распознавание
// классификация данных
{
Получить
вектор ситуации; //образ
Отобразить
вектор в пространство ситуаций;
Найти ближайший
экземпляр ситуаций;
Присвоить
вектору класс ближайшей точки;
}
Программная система построена на
клиент-серверной архитектуре. Клиентская часть устанавливается на компьютер или
смартфон, и связывается с серверной частью. Серверная часть представлена как
web-сервис, для подключения к серверной части на компьютере должен быть выход в
интернет.
Подсистемы совместимы со стандартом
DAML+OIL, используемым в качестве языка
описания знаний в рамках технологии Semantic Web*, языком Web-онтологий OWL,
рекомендованным W3C* (World Wide Web Consortium), и удобно описывается
средствами языка XML (Extensible Markup Language), используемым в качестве
базового языка для разработки распределенных приложений в рамках технологии W3C[5].
Рассмотренный
в статье случай ориентирован, главным образом, на решение специфического (с
практической точки зрения) класса задач управления программными системами.
Литература
1. Mahler, R. The Levels 2, 3, 4 Fusion
Challenge: Fundamental Statistics // 6th Intern. Conference on Information
Fusion: Proceedings Stockholm. 2004. Vol. 1. P.535–536.
2. Popovich, V. V., Ivakin, Y. A., Shaida, S. S. Theory
of search for moving objects: Proceedings of the International Conference
“Oceans 2002”, Biloxi, Mississippi, 2002. P. 1362–1375.
3. Popovich, V. V., Potapichev, S. N., Sorokin, R.
P., Pankin, A. V. Intelligent GIS for Monitoring Systems Development:
Proceedings of CORP2005, 2005 (University of Technology Vienna).
4. Tarakanov, A. O., Skormin, V. A., Sokolova, S.
P. Immunocomputing: Principles and Applications. New York, Springer, 2003.
5. Web Services Architecture. W3C Working Group Note,
2004. // <http: // www.w3.org/TR/ws-arch> (по состоянию
на 12.03.2006).
6. W. Zhang, Q. Wang, and X. Tang. Real time feature
based 3-d deformable face tracking. In ECCV (2), pages
720–732, 2008
7.
Попович В. В., Прокаев А. Н., Сорокин Р. П., Смирнова О. В. О распознавании ситуации на основе технологии
искусственного интеллекта // Труды СПИИРАН. Вып. 7. — СПб.: Наука, 2008.
8. Смирнов А. В., Пашкин М. П., Шилов Н. Г., Левашова Т. В. Подход к построению распределенной системы интеллектуальной поддержки
принятия решений в открытой информационной среде // Труды СПИИРАН. Вып. 4, — СПб.: Наука,
2007.