Современные информационные технологии /1.Компьютерная инженерия
Д.т.н. Самигулина Г.А., PhD-докторант Самигулина З.И.
Институт
проблем информатики и управления МОН РК, Казахстан
Разработка методов построения оптимальной иммунносетевой модели
для прогноза свойств неизвестных лекарственных соединений
Исследование зависимости биологической
активности от структуры химических соединений и поиск на этой основе новых
высокоактивных лекарственных веществ одна из главных проблем современной
фармакологии [1]. При создании лекарственных средств актуальна
проблема сокращения сроков производства и уменьшение финансовых затрат. Разработка
нетрадиционных методов [2]
прогнозирования свойств новых химических соединений и направленный компьютерный
молекулярный дизайн соединений с заданным набором свойств являются важнейшими
задачами биоинформатики. При решении таких задач для исследования связи между
структурой и активностью соединений необходимо обрабатывать огромные
массивы данных.
В разрабатываемой интеллектуальной технологии
иммунносетевого моделирования лекарств под оптимальной структурой иммунной сети
понимается сеть, построенная на основе весовых коэффициентов выделенных
информативных дескрипторов, которые наиболее полно описывают рассматриваемое химическое соединение.
Критерием является максимальное сохранение информации при минимальном
количестве дескрипторов.
При построении оптимальной иммунносетевой
модели для прогноза свойств и активностей неизвестных соединений (лекарств)
предлагается использовать много алгоритмический
подход, когда одновременно используется
несколько алгоритмов для выделения
информативных дескрипторов. По результатам проведенных вычислений
выбирается алгоритм с наилучшими
полученными результатами. То есть выбирается набор информативных дескрипторов,
который меньше всего содержит
различного рода ошибки и более пригоден для дальнейшего прогнозирования.
Предпочтителен тот алгоритм,
использование которого дает минимальную ошибку обобщения. Под ошибкой обобщения
понимается
ошибка,
допускаемая моделью на данных, не
использованных при обучении иммунной сети. Под ошибкой обучения
понимается ошибка прогнозирования, полученная
тестом обучающего множества. Практически используется оценка ошибки
обобщения, так как истинное ее значение недоступно. Ошибка обобщения
оценивается как норма уклонений модели на множестве примеров из тестовой
выборки (не использованные при обучении). Основной целью при построении модели является
уменьшение ошибки обобщения, так как малость ошибки обучения не гарантирует
малость ошибки обобщения.
Можно рассчитать относительную ошибку
обобщения
, которая показывает во сколько раз
величина ошибки обучения меньше величины ошибки обобщения:
,
где
- ошибка
обобщения,
-
ошибка обучения.
Для выделения информативных дескрипторов предлагается использовать
алгоритмы: факторного анализа; нейросетевого подхода.
Для построения оптимальной структуры
иммунной сети на основе факторного
анализа используется метод главных компонент и программа SPSS [3].
В случае использования нейросетевого
подхода для выбора оптимальной сети используется программа NeuroShell. Данный
программный продукт разработан команией Al
Trilogy (Ward System Group). Широкое
применение во всем мире, особенно в банковской сфере (более 150 банков мира применяют в своей работе данную систему)
обусловлено простотой и удобством в использовании, наряду с достаточно широкими возможностями. Этот
комплекс программ является
универсальным пакетом для решения большого круга сложных задач на основе
нейронных сетей.
Удобно применение данного пакета для
предварительной обработки и выделения информативных дескрипторов при построении
оптимальной иммунной сети. Программа
позволяет выбрать архитектуру и параметры сети. Доступно 16 видов архитектур нейросетей. Программа рассчитывает
относительные показатели важности, т.е. весовые коэффициенты дескрипторов. Для
дальнейших расчетов малоинформативные дескрипторы удаляются.
После обучения
иммунной сети решается задача распознавания образов на основе сингулярного
разложения матриц, оценка энергетических погрешностей и
прогноз свойств химических соединений. На основании прогнозируемых данных
отбираются соединения - кандидаты в лекарства, которые подвергаются дальнейшим
исследованиям.
Литература:
1. Кубиньи Г. В поисках новых
соединений-лидеров для создания лекарств // Рос. хим. ж., 2006. №2. -С.5.
2. Tarakanov A.O.
Formal peptide as a basic of agent of immune networks: from natural prototype
to mathematical theory and applications // Proceedings of the I International
Workshop of Central and Eastern Europe on Multi-Agent Systems, 1999.-P.37.
3. Samigulina.G. A. Development of the decision
support systems on the basis of the intellectual technology of the artificial
immune systems // Automatic and remold control. – Springer, 2012.-Volume 74. -
№2. -С.397-403.