Гончаренко
А.Н.
Формирование стратегии поведения агентов интеллектуальных транспортных
систем горнопромышленного предприятия
НИТУ «МИСиС
Развитие
агентно-ориентированного подхода к построению интеллектуальных транспортных
систем горнопромышленного предприятия предполагает рассмотрение
интеллектуальной системы как сообщества естественных и искусственных агентов. В
качестве естественных агентов на горном транспорте выступают индивидуальные
агенты в лице работников, менеджеров, руководителей подразделений и групповые
агенты в лице отдельных коллективов групп, подразделений и служб. В качестве
искусственных агентов выступают такие физические единицы, как самосвалы,
экскаваторы погрузочно-разгрузочные устройства и другое транспортное
оборудование.
При формировании
стратегии поведения интеллектуального агента необходимо определить показатель, экстремальное значение которого
характеризует степень соответствия хода функционирования мультиагентной
транспортной системы поставленной цели и может быть оценен достигнутым
значением функционала. Для этого необходимо отделить агента и среду.
Пусть
в распоряжении агента имеются некоторое
множество действий A(a1,a2...an). Действия
агента влияют на среду, и агент в состоянии определить, в каком состоянии он
находится в данный момент и получает то или иное вознаграждение от среды за
свои действия R(a,s).
Для построения среды важно определить всё множество возможных состояний среды
S(s1,s2...sn). А также матрицу переходов
T(s,a,s'), которая содержит вероятности достижения состояния s', если в состоянии s было выполнено действие а. Предполагается, что эти переходы
являются марковскими в том смысле, что вероятность достижения состояния s' из s
зависит только от s, а не от истории пребывания в предыдущих состояниях. На
данный момент запись T(s,a,s') может рассматриваться как большая трехмерная
таблица, содержащая вероятности. Список возможных
внешних событий и объектов, влияющих на поведение агента: динамические
препятствия (люди, другие роботы и т.д.), статические препятствия (стены,
рельеф и т.д.), препятствия, которые нельзя предвидеть (источники света, звука
и т.д.).
Задачей
агента является найти наилучшею
стратегию. В данном случае она будет описываться Q-значениями, которые
определяют полезность выполняемого действия в соответствующем состоянии. Для
обозначения стоимости выполнения действия а в состоянии s
будет использоваться запись Q(a,s).
Процесс обучения позволит определить список интересов робота, и список
ситуаций, которых он будет избегать. Причем обучение будет происходить
автоматически, согласно принципам работы нейронных сетей.
Один из вариантов реализации алгоритма управления роботом, основанного на
нейросетевом математическом аппарате, является использование алгоритмов теории
обучения с подкреплением. Обучение с подкреплением представляет класс задач, в
которых автономный агент, действуя в определенной среде, должен найти
оптимальную стратегию взаимодействия с ней. Одним из популярных методов,
используемых для решения таких задач, является Q-Learning.
Информация для обучения автономного агента предоставляется в форме
«награды» которая имеет определенное количественное значение для каждого
перехода агента из одного состояния в другое. Никакой другой дополнительной
информации для обучения агенту не предоставляется.
Q(xt,at)←rt+γ•maxQ(xt+1,a)
где rt – награда, полученная при переходе системы из состояния xt в состояние xt+1, а γ –
дисконт-фактор 0≤γ≤1, at – действие, выбранное в момент времени t из множества
всех возможных действий A. Таким образом, Q представляет дисконтированную сумму
награды, которую получит система с момента времени t. Данная сумма зависит от
последовательности выбираемых действий, определяемой политикой управления.
Системе требуется найти политику управления, которая максимизирует Q для
каждого состояния.
Важным свойством использования нейросетевого аппарата для реализации
управления агентом и, в частности, использование алгоритма Q-Learning является
возможность его применения даже в тех случаях, когда агент не имеет
предварительных знаний о среде. Также достоинство данного метода –
автоматическое обучение агента. Недостатком могут служить появление ошибок,
зацикливаний при обучении, сложность реализации.
Сформированная
таким образом стратегия поведения агентов интеллектуальных транспортных систем
горнопромышленного предприятия позволит принимать наиболее правильное решение в
условиях неопределенности и непредсказуемой динамичной обстановке
функционирования горнопромышленного предприятия и повысить пропускную
способность его транспортной системы.