Современные информационные технологии /1.Компьютерная инженерия

 

Д.т.н. Самигулина Г.А., PhD Самигулина З.И.

 

Институт информационных и вычислительных технологий КН МОН РК, Казахстан, Алматы

 

КОМПЬЮТЕРНЫЙ МОЛЕКУЛЯРНЫЙ ДИЗАЙН СУЛЬФАНИЛАМИДОВ НА ОСНОВЕ АЛГОРИТМА RANDOM FOREST И ПОДХОДА ИСКУССТВЕННЫХ ИММУННЫХ СИСТЕМ

 

Аннотация

Исследования посвящены прогнозированию зависимости «структура –активность» (QSAR) новых лекарственных препаратов сульфаниламидной группы на основе современных подходов искусственного интеллекта. Алгоритм Random Forest применяется в качестве предварительной обработки структурных дескрипторов для построения оптимальной иммунносетевой модели.

 

Ключевые слова: компьютерный молекулярный дизайн, сульфаниламиды, дескрипторы, алгоритм Random Forest, искусственные иммунные системы.

 

В связи с ростом потребности в новых соединениях в фармацевтической промышленности требуется разработка нетрадиционных методов для обработки многомерной структурной информации. Алгоритм Random Forest представляет особый интерес для решения данной задачи. Например, работа [1] посвящена исследованиям рецептора эпидермального фактора роста (EGFR) при лечении раковых болезней. Использовалась база данных PubChem, при этом применение алгоритма Random Forest дало максимальный результат с точностью 83,7 процента.

Постановка задачи формулируется следующим образом: необходимо построить оптимальную иммунносетевую модель для прогнозирования зависимости «структура-активность» cульфаниламидов с использованием алгоритма Random Forest для выделения информативных дескрипторов [2].

При построении оптимальной иммунносетевой модели применяется мультиалгоритмический подход, который заключается в следующем. На этапе предварительной обработки исходного набора дескрипторов сульфаниламидов выбираются несколько интеллектуальных или статистических алгоритмов, которые обрабатывают исходный набор дескрипторов. Далее осуществляется выбор наилучшего из них, т.е. выбирается алгоритм с наименьшей ошибкой обобщения. В качестве одного из алгоритмов, используемых в мультиалгоритмическом подходе, выбран Random Forest. Метод основан на построении ансамбля деревьев решений.

Исследования проводятся по гранту Комитета Науки Министерства Образования и Науки Республики Казахстан по гранту № ГР 0115РК00549 по теме: «Компьютерный молекулярный дизайн лекарственных препаратов на основе иммунносетевого моделирования» (2015-2017 г.г.).

Литература:

1. Singh, H., Singh S., Singla, D., Agarwal, S.M. and Raghava, G.P. QSAR based model for discriminating EGFR inhibitors and non-inhibitors using Random forest // Biology Direct. – 2015. -Vol. 10. - №10. - P. 1-10.

2. Самигулина Г.А., Самигулина З.И. Построение оптимальной иммунносетевой модели для компьютерного молекулярного дизайна сульфаниламидов на основе алгоритма RANDOM FOREST // Вестник ХПИ. – Харьков: ХПИ, 2016. -№21(1193). - С.102-108.