Технические науки / 12.Автоматизированные системы управления на производстве.

Проф., д.т.н., В.Н. Богатиков

ИИММ КНЦ РАН, г. Апатиты, Россия

Проф., к.т.н., Г.П. Виноградов,

ТГТУ, г. Тверь, Россия

Проф., д.т.н., Б.В. Палюх

ТГТУ, г. Тверь, Россия

 

Управляющие механизмы Адаптивным поведением многоагентных систем со встречным способом сообщения информации

 

Актуальность. В современном обществе в настоящее время активно развиваются технологии управления на основе методологий искусственного интеллекта. Цель этого процесса состоит в повышении интеллектуальности и качества управления в процессах принятия решений. Такие изменения в технологии управления должны усилить способность организаций в целом к самоорганизации и адаптации. Это предполагает развитие идей системного подхода к управлению для реализации, которых необходимо построение таких механизмов их функционирования, которые используют способность людей к самоорганизации и адаптации [1,2]. Эффективность такого управления во все большей степени зависит от поведения людей (агентов), их заинтересованности в поиске и использовании резервов и ресурсов развития организации, их способностью видеть перспективы и последствия принимаемых решений. Понятие самоорганизация понимается так, как это сформулировано в [3].

Формулировка задачи. Построение модели управляющего механизма функционирования организации, содержащей процедуры адаптации на основе обучения агентов. Для решения сформулированной задачи требуются новые подходы. В работе рассматривается один из возможных вариантов, использующий парадигму агентно-ориентированных систем, в которой для формализации поведения субъектов понятие интеллектуальный агент рассматривается, как высокоуровневая абстракция, обладающая свойствами креативности, активного поведения.

Модель агента. Пусть агент может находиться в m состояниях , образующих его модель ограничений.

·       p – потенциал агента, тогда .

·       uÎU – управление со стороны центра. Проявление потенциала агента будет зависеть от управления u.

·        - представление агента о свойствах ситуации целеустремленного состояния, где a – разделяемые всеми агентами и центром представления (общее знание) и им известные; b – представления, известные только i-му агенту, в полезности которых он убежден , b = b(u).

·       Наделим множество Y(p) следующими свойствами:

o      выпукло;

o      замкнуто.

Это означает , где W(p) – множество возможных состояний, характеризующих предельные потенциальные возможности агента.

·        – последовательность потенциальных возможностей агента, возрастающих за счет управления u.

·       Монотонность по Q - множество состояний  является расширяющимся на множестве свойств Q, то есть  при uÎU, , где m() – субъективные оценки агента полезности своих представлений.

·       Монотонность по uÎU множества состояний  на Q, что означает Æ, .

Будем предполагать, что множество  непрерывно по Хаусдорфу на множестве представление агента о свойствах ситуации целеустремленного состояния Q и множестве управлений со стороны центра U, соответственно, при любых uÎU и xÎQ.

Модель внешнего окружения агента.

Область существования системы. Процесс функционирования любой системы можно рассматривать как последовательную схему смены ее состояний на некотором интервале времени (to, tk).

Состояние системы в каждый момент времени t из этого интервала характеризуется набором параметров этой системы, на которые накладываются ограничения , зависящие от множеств параметров {Ti, Kj, Uпр} (технологических – {Ti, i=1…I}; конструктивных – {Kj, j=1…J}; управления – {Uпр, l=1…L}). Выход за эти ограничения означает переход процесса во внештатную ситуацию. Эти ограничения, «вырезают» на множестве всех состояний процесса n-мерную область, в которой процесс не выходит во внештатные ситуации  – это область всех работоспособных состояний процесса: .

Оценка идеала. Оценка свойств системы агентом рисует образ системы. Образ системы можно назвать оценкой субъективного идеала. Эта оценка включает саму область (рис.1), законы поведения системы. На основе накопленного опыта и последующего абстрагирования, появляются знания о системе, позволяющие прогнозировать возникновение новых состояний системы и, соответственно, строить управляющие воздействия.

 Рис.1 Область существования состояний системы

Центр субъективного области идеала. В большинстве случаев управление складывается из целеустремлений к определенным состояниям, которые в конкретных ситуациях являются наиболее предпочтительными. Основой такого управления является представление о некоем центре идеала – точке в пространстве идеала, которая доминирует по своим свойствам над остальной областью. Задача управления толкуется как задача стабилизации свойств системы в как можно близкой области точки субъективного идеала. На рис. 2

   O

  D

 

 D

 

 O

D

 

   O

Область существования системы

    Центр идеала

Рис.2 Оценка идеала

представлена графическая иллюстрация представлений агента при выработке управляющих воздействий – основой целеполагания агента является стремление к центру субъективного идеала.

 

Таблица 1. Обозначения и формулы рис. 2

Обозначения и формулы для определения Индекса безопасности

Описание

S

множество всевозможных состояний системы.

Sр

множество состояний идеала агента.

ji, i = 1, …, n

множество границ области состояния идеала агента (вырезает на S множество Sр).

So

точка процесса, соответствующая оценки центра субъективного идеала.

s*

текущая точка.

li = min (s*, ji)

расстояние от точки s* до границ области ji состояния идеала агента.

D*i= min r(s*,s0)ji

расстояние от точки s* до центра субъективного идеала So относительно границ.

di = min r(s0,  ji)

расстояние от центра субъективного идеала So до границ области возможных состояний ji, i = 1, …, n.

Oi = di - li

степень удаленности данного состояния s* относительно границ ji,
i = 1, …,
n.

Di = di - Oi

степень удаленности для данного состояния s* относительно границ ji,
i = 1, …,
n.

Характеристика механизма принятия решений агентом в некоторой конкретной ситуации при заданном множестве u управлений центра. Агент оценивает ситуацию, возникающую в системе, и ставит в соответствие каждой ситуации %Si из определенного набора ситуаций Ss, характеризующего все возможные состояния  объекта, некоторое управляющее решение Ri.

Ситуации, входящие в набор Ss, формируются агентом на основе своих знаний. Можно назвать эти ситуации эталонами агента. Входная ситуация ТS0 сравнивается с эталонными ситуациями %Si Î Ss, и определяется эталонная нечеткая ситуация, в некотором смысле наиболее близкая входной нечеткой ситуации. Модель операции сравнения можно построить, используя операцию нечеткой эквивалентности [4].

Формальное определение «нечеткой» ситуации. Пусть  – множество признаков, которые используются агентом. Каждый признак  описывается соответствующей лингвистической переменной .  – название лингвистической переменной;  – терм-множество лингвистической переменной ;  – базовое множество лингвистической переменной .

Нечеткое равенство или эквивалентность. В качестве меры близости между ситуациями обычно рассматриваются два критерия: степень нечеткого включения и степень нечеткого равенства.

Степень включения ситуации в ситуацию  обозначается и определяется выражением:

,

где

Обычно считают, что ситуация %Si нечетко включается в %Sj, %SiÍ%Sj, если степень включения %Si в %Sj не меньше некоторого порога включения tincÎ [0.6;1], определяемого условиями управления, то есть n(%Si , %Sj) ³ tinc.

Степень нечеткого равенства. Если множество текущих ситуаций  содержит такие ситуаций и , что нечетко включается в , а  нечетко включается в , то ситуации и нужно воспринимать как одну ситуацию. Это означает, что при данном пороге включения  ситуации и  примерно одинаковы. Такое сходство ситуаций называется нечетким равенством, при этом степень нечеткого равенства равна:

В отличие от набора  ТSs ={ ТS1, ТS2 , ..., ТSn } текущих  ситуаций,  набор Ss ={ %S1, %S2 , ..., %Sn } (n £ N) эталонных ситуаций агента не содержит нечетко равных при заданном пороге равенства ситуаций. Предполагается, что множество Ss полно. Таким образом, ситуация %Si существует для любой входной ситуации S0. По решающей таблице для этой эталонной ситуации определяется управляющее решение. Данный подход построен на основании метода ситуационного управления [5].

Субъективная оценка идеала. Индекс. Для определения субъективной оценки идеала введем понятие индекса идеала. Для оценки агентом текущего состояния системы необходимо сравнить на нечеткое равенство входную нечеткую ситуацию с нечеткой ситуацией, которая характеризует центр безопасности. При этом степень нечеткого равенства:  и покажет величину, которую можно определить как субъективный индекс идеала агента.

 Рис. 3 Функции принадлежности лингвистической переменной  <βi, Тi, Di >

E2 1

E11

1

E3 1

Область центра безопасности параметра P1

 


 

 

 

 

 

Некоторые результаты расчета субъективный индекс идеала агента представлены на рисунке 3.

 

 

 

 


Рис. 4 Результаты расчета индекса безопасности

Формализация цели. Субъективная оценка идеала. Процесс принятия решений агентом может быть промоделирован на основе лингвистических

переменных, с помощью которых формализуется качественная информация, представленная в словесной форме.

По результатам контроля функционирования системы по имеющимся функциям принадлежности заполняется таблица 2. На основе этой таблицы проводятся вычисления индексов субъективных оценок идеала.

Таблица 2. Исходная информация для определения индексов и результаты счета

Исходная информация

№ состояния

1

2

v

Расчет индекса

1 этап

 

1

v

2 этап

1

v

3 этап

1

v

При расчете индексов субъективных оценок идеала можно учитывать и ущербы, которые возникают в процессе работы системы. Классификация ущербов приводится на рис. 5.

 

 

 

 

 

 

 

 

 

 

 

 

 


Рис. 5 Классификация ущербов

 

Если учитываются ущербы, агент может определять и риск, который возникает при различных режимах работы системы. Определение индекса субъективной оценки идеала риска реализуются на основе того же механизма вычислений, как и индекса субъективной оценки идеала безопасности. Риск, в данном случае, определяется как двойка <индекс субъективной оценки идеала безопасности, индекс субъективной оценки идеала ущерба> ®  .

Модель состояний системы с точки зрения центра. Процесс функционирования системы – это непрерывная смена состояний. Смена состояний происходит под воздействием внешних и внутренних факторов. Могут возникать различные внештатные ситуации. Процесс смены состояний системы сопровождается также непрерывной сменой значений индексов и происходит это непрерывно во времени. В работе делается предположение, что смену состояний индексов системы можно описать марковскими случайными процессами. Марковские случайные процессы с конечным или счетным множеством возможных состояний обычно называют цепями Маркова.

Определение интенсивности переходов интегрального показателя безопасности. Поставим задачу — определить для любого момента времени индекс субъективной оценки идеала агента системы.

Пусть система S в момент t находится в состоянии St. Рассмотрим элементарный промежуток времени , примыкающий к моменту t.

Назовем плотностью перехода  предел отношения значение индекс субъективной оценки идеала агента за время  при переходе из состояния Si в состояние Sj к длине промежутка :

,

где  — значение индекс субъективной оценки идеала агента при переходе из состояния Si, за время , в состояние Sj.

Из формулы для плотности перехода значения индекса субъективной оценки идеала агента  следует, что при малом  значение индекс (с точностью до бесконечно малых высших порядков) равно :

Предположим, что нам известны плотности перехода  для всех пар состояний St, Sj. Построим граф состояний системы S (рис. 6).

 

Рис. 6 Граф состояний произвольной системы

 

Такой граф, с проставленными называют размеченным графом состояний [6].

Рис. 7 Пример размеченного графа с четырьмя состояниями [6]

Зная размеченный граф состояний, можно определить значения значение индексов субъективной оценки идеала агента: , как функции времени. Эти показатели удовлетворяют определенного вида дифференциальным уравнениям Колмогорова [6]. Рассмотрим вывод уравнений для значений индексов субъективной оценки идеала агента на конкретном примере.

Поставим задачу: найти один из индексов субъективной оценки идеала агента, например, . Он показывает то, что в момент t система будет находиться в состоянии S1. Придадим t малое приращение  и найдем изменение этого показателя за время  и в момент времени t +  система будет находиться в состоянии S1.

Это может произойти двумя способами:

·    в момент t система уже была в состоянии S1 а за время  не вышла из этого состояния

или

·   в момент t система была с состоянии S3, а за время  перешла из него в S1.

Возможность первого варианта оценим как произведение индекса субъективной оценки идеала агента  (в момент t система была в состоянии S1), на плотностью перехода  того, что, будучи в состоянии S1, система за время  не перейдет из него в S2. Эта условная возможность (с точностью до бесконечно малых высших порядков) равна .

Аналогично, возможность второго варианта равна:

Применяя правило сложения, получим:

Раскроем скобки в правой части, перенесем  в левую часть и разделим обе части равенства на , получим:

.

Теперь устремим  к нулю и перейдем к пределу:

.

Левая часть есть не что иное, как производная функции .

.

Таким образом, выведено дифференциальное уравнение, которому должна удовлетворять функция . Аналогичные дифференциальные уравнения могут быть выведены и для остальных интегральных показателей.

Рассуждая аналогично для состояний S2, S3, S4, получим в результате систему из четырех дифференциальных уравнений. Отбросим в них для краткости аргумент t у функций  и перепишем эту систему в виде

.

Левая часть уравнений есть производная функции , которую можно называть интенсивностью перехода индекса субъективной оценки идеала агента.

Условия эргодичности цепи Маркова для случая использования индексов субъективной оценки идеала агента. В большинстве случаев для исследования представляет интерес определение характеристик эргодических системы в стационарном режиме, то есть в такие моменты времени, в которые влияние начального состояния уже не ощущается.

Существование стационарных распределений связано со свойством эргодичности цепи Маркова. Приведем некоторые условия, при выполнении которых цепь Маркова обладает эргодическими свойствами и имеет единственное стационарное распределение [7].

Для дискретного времени:

1.         Достаточные условия Маркова: если w < + ∞ то и существует такое k, что  > 0 для всех i, j є W.

2.         Достаточные условия Маркова—Бернштейна: если w < + ∞ то и существуют такие j є W и k ≥ 1, что для любого i є W   ij(k) > 0.

3.         Необходимое и достаточное условие Фостера: система уравнений для стационарных состояний имеет ненулевое решение, такое, что  |Indі| < + ∞.

4.         Достаточное условие Мустафы: существует e > 0, c и натуральное число набор неотрицательных чисел xjW, таких, что  lіjxj xi - e для i > c.

Для непрерывного времени:

5.         Достаточные условия Маркова—Бернштейна: если w < + ∞ и существует W и t > 0 такие, что i,j (t) > 0 для всех i є W.

6.         Необходимое и достаточное условие Фостера: система уравнений равновесия имеет ненулевое решение такое, что  |Indі| < + ∞.

Здесь іj – интенсивности перехода из i состояния в j; Indі – индекс i состояния

С практической точки зрения наиболее удобным критерием эргодичности является критерий Фостера, поскольку фактически он предполагает выяснение того, имеют ли решения системы уравнений равновесия. Решение этих систем обычно необходимо для получения стационарных вероятностей и решая их, одновременно устанавливают эргодичность системы.

Оценка показателей работы агента топологическим методом в установившемся режиме. Методика построена на определении топологических  коэффициентов Сi для каждой xi вершины графа, которые определяются непосредственно по графу [8, 9]. Затем вычисляется нужный показатель по ниже приведенным топологическим формулам

 

К – множество прямых путей из произвольно выбранной вершины хq в хi; Хк - множество вершин, входящих в k-ый прямой путь;

              - прямой путь из произвольно выбранной вершины хq в хi ;

                       - определитель подграфа прямого пути из вершины хq в хi .

 


                         - индекс субъективной оценки идеала агента вершины хi (где n – число вершин графа).

 

 


                         - индекс субъективной оценки идеала агента коэффициента готовности системы (Ip – множество индексов работоспособных состояний системы).

 


                         - индекс  субъективной оценки идеала агента коэффициента простоя 
(где J – множество индексов неработоспособных состояний системы).

 

                                                                   - индекс субъективной оценки идеала агента средней наработки на отказ (  – подмножество индексов граничных состояний из Xр, из которых в неработоспособное состояние можно попасть за один переход).

 

                                                                    - индекс субъективной оценки идеала агента среднего времени восстановления

(J+  – подмножество индексов граничных состояний из Xр, из которых в работоспособное состояние можно попасть за один переход).

 

Основные положения топологического метода могут быть применены для определения показателей надежности неустановившегося режима с использованием преобразований Лапласа.

Основные этапы алгоритма оценки состояний объекта и расчета показателей надежности по нечеткой модели будут следующие:

         ввод информации о реальной ситуации на объекте;

         оценка индексов субъективной оценки идеала агента системы;

         оценка нечетких интенсивностей переходов из состояний в состояния;

         расчет показателей работы агента системы.

Функционирование обучающей адаптивной интеллектуальной организации. Рассмотрим функционирование обучающейся адаптивной интеллектуальной организации, начиная с периода t, t = 0, 1, 2, … На вход агента подается управление центра: план, определяющий результаты деятельности агента yt, потребляемые ресурсы rt и режимы ведения технологического процесса в виде коэффициентов выпуска at, а также управление его поведением ut. В состав последнего входят затраты на оплату деятельности агента, его обучение и коучинг, стимулирование на поиск скрытых резервов и т.п. Кроме того, на вход объекта действует помеха, значение которой в момент времени t известно агенту, но неизвестно центру.

Управление процессом агентом. Обладая определенной структурой информированности, агент может сформировать представление о множестве , также о множестве . После анализа реализуемости возможных режимов ведения технологического процесса агент выбирает состояние .

Рис. 8 Модель принятия решений агентом.
( - управляющие воздействия принятые агентом по управлению процессом).

Стратегия центра. Центр наблюдает результат выбора  и определяет оценку параметра at+1 в периоде t+1:

,                                             (1)

где I – процедура оценки технологических возможностей агента;  – оценки потенциала  агента в период t,   .

Будем предполагать также, что при любых  процедура (1) удовлетворяет следующим условиям

.

Это означает, что если центр получает лучшие оценки потенциала агента, то он будет уверен, что агент стремится улучшить свое представление об имеющихся резервах технологического процесса и его деятельность направлена на их реализацию в практике управления.

Если  и , то . В силу строгой монотонности  и условий выпуклости и замкнутости существует единственная форма представлений агента  о технологических возможностях, при которой . Это в свою очередь гарантирует, что различным потенциалам агента p(u,m) и p(u,m) m¹m таким, что  и  центр будет назначать различные оценки .

Стимулирование деятельности агента. Зная оценки потенциала агента at+1 центр, используя процедуру планирования p и регулирования Q, определяет вознаграждение агенту за достижение плановых показателей

,  и план  на период t+1:

.

Здесь  непрерывные функции, которые могут быть известными и согласованными центром с агентами.

Сопоставляя фактическое состояние  с плановым  центр определяет стимулирующее воздействие на агента по правилу

.

На этом функционирование системы в период t завершается.

Целевая функция агента, стремящегося не только увеличить свои доходы в текущем периоде, но и обеспечить их получение в определенной степени в будущем будет иметь вид: , где r – коэффициент дисконтирования, используемый для приведения будущих доходов к текущему моменту времени t, 0<r<1; T – дальновидность агента в периодах времени.

Поскольку механизм функционирования  с процедурами оценки и прогнозирования потенциала агента I, планирования p, стимулирования f и регулирования Q обладает свойствами выявления потенциала агента путем активной идентификации, то такой механизм будем называть адаптивным механизмом функционирования.

Величину Vt будем называть ценой, на которую агент согласен обменять свой человеческий капитал при участии в достижении целей, поставленных центром.

В рассмотренном выше случае предполагается, что агент способен к самоорганизации, то есть способен к совершенствованию и саморазвитию путем накопления знания и опыта и расширения на этой основе множество способов действия (совершенствовать свой потенциал).

Обозначим через  – способы действия агента,  – множество агентов. Вектор  – это вектор способов действия агентов, который наблюдаем всеми агентами. Вектор  – обстановка игры i-го агента по наблюдаемым способам действия.

Предположим, что i-й агент характеризуется параметром , называемым его типом и отражающим потенциал самоорганизации агента. Вектор потенциалов (типов) агентов обозначим через .

Стратегией агента является вектор способа действия , который приводит к ожидаемому результату  в соответствии с его представлениями : , где  – доступная агенту информация о правиле получения результата. При заданных значениях потребляемых ресурсов множество способов действия агента образуются выбираемые им режимы ведения технологического процесса. Обозначим через  – вектор результатов деятельности агентов, а вектор    - обстановка игры i-го агента по результату.

Удобно ввести вектор  , характеризующий полную обстановку игры для i-го агента.

Пусть результат деятельности центра  определяется результатами деятельности агентов и , где  функция агрегирования результатов деятельности агентов.

Интересы и предпочтения центра и агентов отражены в их целевых функциях. Целевая функция центра является функционалом  и представляет собой разность между его доходом ld, где l может интерпретироваться как рыночная цена, и затратами на вознаграждение , выплачиваемое агентам

,

где  – функция стимулирования i-го агента.

Тогда .

Целевая функция i-го агента является функционалом  и представляет собой удельную ценность ситуации целеустремленного состояния по результату. Второй возможный вариант – это разность между субъективными оценками ценности ситуации целеустремленного состояния по результату и эффективности затрат, то есть

.

В этом случае агент обменивает свой человеческий капитал  на вознаграждение  при приемлемом для него уровнем затрат на получение результата . Агент является собственником этого капитала, носителем уникального опыта, знаний и человеческих качеств.

Литература:

1.     Виноградов Г.П. Индивидуальное принятие решений: поведение целеустремленного агента. Научная монография. Тверь: 2011. с. 164.

2.     Виноградов Г.П., Кузнецов В.Н. Моделирование поведения агента с учетом субъективных представлений о ситуации выбора. Искусственный интеллект и принятие решений. №  3. 2011. с. 58-72.

3.     Эшби У. Принципы самоорганизации / Пер. с англ. М.: Мир, 1966

4.     Мелихов А. Н., Бернштейн Л.С., Коровин С.Я. Ситуационные советующие системы с нечеткой логикой. М.: Наука, 1990. – 272 с.

5.     Поспелов Д. А. Ситуационное управление: Теория и практика.- М.: Наука.- Гл. ред. физ.-мат. Лит., 1986.-288 с

6.     Венцель Е.С. Исследование операций. Издательство «Советское радио». – М., 1972. – 551 с.

7.     Дудин А.Н., Медведев Г.А., Меленец Ю.В. Практикум на ЭВМ по теории массового обслуживания [Электронный ресур]: Учебное пособие — Электрон. текст. дан. (953 Kб). —  Мн.:  “Электронная  книга  БГУ”, 2003. (http://anubis.bsu.by/publications/elresources/AppliedMathematics/dudin.pdf)

8.     Палюх, Б.В. Надежность и эффективность экономических информационных систем / Б.В. Палюх, А.С. Мироненко // Тверь, 2003. -157с.

9.     Пантелей, В.Г. Расчетные методы оценки надежности приборов.
/В.Г. Пантелей, И.Б. Шубинский // М.: «Машиностроение», 1974. - 56с.