Современные информационные
технологии /1.Компьютерная инженерия
Д.т.н.
Самигулина Г.А., PhD Самигулина З.И.
Институт информационных и
вычислительных технологий КН МОН РК, Казахстан, Алматы
КОМПЬЮТЕРНЫЙ
МОЛЕКУЛЯРНЫЙ ДИЗАЙН СУЛЬФАНИЛАМИДОВ НА ОСНОВЕ АЛГОРИТМА RANDOM FOREST И ПОДХОДА ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ
Аннотация
Исследования посвящены прогнозированию
зависимости «структура –активность» (QSAR) новых лекарственных
препаратов сульфаниламидной группы на основе современных подходов
искусственного интеллекта. Алгоритм Random Forest
применяется в качестве предварительной обработки структурных дескрипторов для
построения оптимальной иммунносетевой модели.
Ключевые
слова: компьютерный
молекулярный дизайн, сульфаниламиды, дескрипторы, алгоритм Random
Forest, искусственные иммунные системы.
В связи с ростом
потребности в новых соединениях в фармацевтической промышленности требуется
разработка нетрадиционных методов для обработки многомерной структурной
информации. Алгоритм Random Forest
представляет особый интерес для решения данной задачи. Например, работа [1]
посвящена исследованиям рецептора эпидермального фактора
роста (EGFR)
при лечении раковых болезней. Использовалась база
данных PubChem, при этом применение алгоритма Random Forest
дало максимальный результат с точностью 83,7 процента.
Постановка задачи формулируется следующим
образом: необходимо построить
оптимальную иммунносетевую модель для прогнозирования зависимости «структура-активность» cульфаниламидов с использованием алгоритма Random
Forest для выделения информативных дескрипторов [2].
При построении оптимальной
иммунносетевой модели применяется мультиалгоритмический подход, который заключается в
следующем. На этапе предварительной обработки исходного набора дескрипторов
сульфаниламидов выбираются несколько интеллектуальных или статистических
алгоритмов, которые обрабатывают исходный набор дескрипторов. Далее осуществляется
выбор наилучшего из них, т.е. выбирается алгоритм с наименьшей ошибкой
обобщения. В качестве одного из алгоритмов, используемых в
мультиалгоритмическом подходе, выбран Random Forest.
Метод основан на построении ансамбля деревьев решений.
Исследования
проводятся по гранту Комитета Науки Министерства Образования и Науки Республики
Казахстан по гранту №
ГР 0115РК00549 по теме: «Компьютерный молекулярный дизайн лекарственных
препаратов на основе иммунносетевого моделирования» (2015-2017 г.г.).
Литература:
1. Singh, H., Singh S., Singla, D., Agarwal, S.M. and Raghava, G.P. QSAR
based model for discriminating EGFR inhibitors and non-inhibitors using Random
forest // Biology Direct. – 2015.
-Vol. 10. - №10. - P. 1-10.
2. Самигулина Г.А., Самигулина З.И. Построение
оптимальной иммунносетевой модели для компьютерного молекулярного дизайна
сульфаниламидов на основе алгоритма RANDOM FOREST
// Вестник ХПИ. – Харьков: ХПИ, 2016. -№21(1193). - С.102-108.