Математика/ 5. Математическое моделирование

 

Василенко Ю.А., Ковач М.Й., Исак Ю.Ю., Чедреки Я.Н., Пайда Ю.Ю.

Закарпатский государственный университет, Украина

Математические модели прогнозирования свойств химических соединений

 

Основной недостаток существующих методов распознавания, применяемых в химии, состоит в том, что они, ввиду своей весьма узкой направленности, не позволяют достигнуть желаемой (точнее требуемой) точности распознавания новых объектов (т.е. тех, которые не встречались в обучающей выборке). Авторы предприняли попытку устранить вышеуказанный недостаток, использовав для этого новый методологический подход. В качестве объекта исследования нами выбраны химические соединения.

Как известно, задача синтеза химических соединений с заранее требуемыми свойствами является центральной при получении новых соединений. Однако, взаимосвязь между химической структурой и свойствами получаемого соединения, в большинстве случаев, устанавливается чисто эмпирически, что приводит к значительным затратам времени и средств как на синтез, так и последующую проверку характеристик химических соединений, которые не обладают требуемыми свойствами [1].

Проблема синтеза новых химических соединений с требуемыми свойствами актуальна в различных областях народного хозяйства. Однако, поскольку взаимосвязь между структурой и свойствами химических соединений в подавляющем большинстве случаев устанавливается эмпирическим путем, эта проблема в настоящее время, в основном, решается специалистами-химиками, что приводит к существенным затратам времени и средств на синтез соединений, не удовлетворяющих заданным требованиям, и на оценку их свойств. При этом оценка биологической активности химических соединений может занимать значительно больше времени, чем их синтез [1].

Именно поэтому возникла задача прогнозирования свойств химических соединений на ЭМВ по заданной структуре молекулы. Для ее решения могут успешно использоваться вычислительные методы (аддитивные методы, регрессионный анализ и др.), но их широкое применение ограничивается необходимостью выполнения гипотезы аддитивности, объемом статистического материала и другими требованиями. В ряде случаев, однако, для различных соединений оказывается достаточным прогнозировать не точную величину рассматриваемого свойства, а лишь интервал, в котором будет находиться его значение. Это позволяет сформулировать данную задачу как задачу распознавания образов [1].

Характерная особенность данной задачи заключается в том, что в большинстве случаев обучающие выборки содержат существенно ограниченное число представителей определенного ряда соединений и, как следствие этого, являются недостаточными. Потому для решения такой задачи целесообразно использовать иерархическую процедуру синтеза решающего правила [2], которая состоит в построении некоторого графа (типа дерева) – распознающего дерева (РД).

В общем случае, любому химическому соединению, описываемому конкретной структурной формулой, может быть поставлен в соответствие n-мерный вектор, компоненты которого представляют собой коды структурных элементов, определяющих молекулу. В качестве таких структурных элементов могут выбираться атомы, группы атомов, химические связи и т. д. Если диапазон возможных значений интересующего исследователя свойства химического соединения в общем случае может быть разбит на К интервалов, то множество М соединений – на К непересекающихся подмножеств или классов Мк , , причем соединение -го класса характеризуются величиной данного свойства, находящейся в -ом интервале. Задача обучения распознаванию в этом случае заключается в построении К характеристических функций [1].

При исследовании распознающего дерева оказалось, что сложность даже минимизированного дерева при  является уже значительной. С другой стороны, чтобы построить минимизированное дерево , нужно сначала построить дерево . Точнее говоря, сначала в память системы  нужно ввести все дерево , а потом, применив указанный в [2] алгоритм расстановки меток, перейти к дереву  . Ясно, что этот алгоритм применим тогда, когда память системы  позволяет поместить в нее все дерево . Таким образом, при вышеуказанном алгоритме расстановки меток в дереве уменьшение распознающего дерева происходит только в конце процесса распознавания. Однако целесообразно иметь алгоритм, который во время всего процесса распознавания использует сравнительно небольшую память. В [2] предложен один из таких алгоритмов.

Заметим, что алгоритмы, которые можно построить, используя этот подход, основаны на следующей априорной информации: признаки  расположены в порядке убывания их важности или существенности. Другими словами признак  считается более существенным, чем признак . Эта информация может быть известна нам перед процессом распознавания. Для того, чтобы в процессе распознавания расставить признаки  в порядке их важности, нужно ввести некоторую информацию об их важности [2] относительно функции, задающей разбиение.

Заметим, что существенность признаков  определяется здесь именно по отношению к распознающей функции .

Предложенный алгоритм обладает следующими свойствами:

1)    Осуществляется выбор оптимальных признаков, что с некоторой точки зрения способствует оптимальному размещению признаков  РД;

2)    Имеется возможность использования алгоритма не только для детерминированного распознавания, но и для вероятностного, т.е. при этом распознающая функция имеет вероятностную природу;

3)    Обладает значительным быстродействием, как и всякий алгоритм, структура которого есть дерево (последнее особенно важно при использовании алгоритма в сложных автоматических системах управления и контроля);

4)    Имеет малый объем РД;

5)    Алгоритм состоит из очень простых вычислительных процедур.

В изложенном алгоритме важность признаков  определяется на каждом этапе обучения. Можно предложить другой алгоритм [2], в котором важность признаков определяется только на первом этапе обучения. Достоинством такого алгоритма будет то, что память промежуточных деревьев  не будет превышать памяти окончательного распознающего дерева.

К недостатку этого алгоритма можно отнести необходимость повторений при обучении. Но увеличение времени обучения является расплатой за уменьшение памяти [3].

 

Литература:

1.     А.Б. Глаз. Параметрическая и структурная адаптация решающих правил в задачах распознавания, Рига, “Зинатне”, 1988, 170 с.

2.     Ю.А. Василенко. Математическое конструирование распознающих систем на основе метода разветвленного выбора признаков (теория, алгоритмы, реализация, применение), дисс… докт. техн. наук, Харьков, 1991, 230 с.

3.     Ю.А. Василенко, Ф.Г. Ващук. Об алгебраическом понятии вычислительной схемы. Науковий вісник УжДІІЕП, №1, серія “Інформатика. Математика. Фізика”, 1997.