д. фарм. н., проф. Буряк В. П., к.
фарм. н., доц. Кремзер А. А., к. фарм. н., доц. Мельник И. В., к. фарм. н., ст. преп. Постол Н. А.,
к. фарм. н., ст. преп. Кулиш
С. Н., ас. Салионов В. А., Федоренко О.
С.
Запорожский государственный
медицинский университет
Применение персональных компьютеров (ПК) для интерпретации молекулярных
спектров органических соединений
В аналитической практике химиков часто
встречаются задачи, связанные с использованием методов молекулярной спектроскопии.
Особенно часто методы молекулярной спектроскопии применяются химиками-органиками
при решении задач установления строения органических соединений. Эффективность
решения таких задач сильно зависит от квалификации химиков в области
используемого метода. Большие надежды на помощь в этой области возлагаются на
ПК с их огромным быстродействием и неисчерпаемой памятью. Однако широкое
использование ПК сдерживается отсутствием соответствующих программ и баз
данных.
В последние годы в Украине и за рубежом
созданию программ и баз данных уделяется много внимания [7]. Возникло новое
направление – химическая информатика, которая объединяет работы по проблемам
использования ПК в химии, химической технологии и образовании. Особенно много
работ в этом направлении посвящено интерпретации молекулярных спектров с целью
установления строения органических соединений [8].
В данной работе мы сочли необходимым
изложить принцип работы системы программ для интерпретации структурных формул
органических молекул с обсуждением возможных перспектив ее применения в практике
органической химии при решении структурных задач.
Под интерпретацией молекулярных спектров
обычно понимается решение следующих трех основных задач: предсказание
молекулярных спектров для соединений с известным строением; отнесение сигналов
экспериментального спектра соответствующим фрагментам структурной формулы;
установление строения исследуемого соединения по его молекулярным спектрам.
Наибольший практический интерес для химиков-органиков представляет решение задачи установления строения органических
соединений по их молекулярным спектрам. Однако, решение этой задачи неразрывно
связано с задачами предсказания и отнесения сигналов в спектрах, поэтому в
данном сообщении мы рассматриваем эти задачи в комплексе с единой точки зрения.
В основе работы описываемой системы
программы для ПК лежат те же принципы, которыми обычно пользуются специалисты
при решении указанных задач, поэтому данную систему программ можно отнести к
системам искусственного интеллекта. Как и в случае традиционного решения задачи,
работу рассматриваемых программ можно разбить на три этапа: 1) анализ исходных
данных; 2) выдвижение гипотез о строении
неизвестного соединения; 3) обоснование гипотез и принятие решения.
Мы рассматриваем подробно все эти три
этапа.
Анализ
исходных данных
В качестве исходных данных для решения
задачи установления строения органических соединений используется
брутто-формула определяемого соединения, его молекулярные спектры (УФ в области
200-400 нм), а также любая известная химику структурная информация. Цель
анализа исходных данных состоит в том, чтобы определить из каких структурных
фрагментов субституентов, не противоречащих введенным данным, состоит
определяемое соединение.
В описываемом методе задачу анализа
исходных данных можно разделить на два этапа: а) определение
микрофрагментов и пределов их
возможного вхождения в структурную формулу исследуемого соединения; б)
определение более крупных частей структуры - макрофрагментов.
Под понятием «микрофрагмент» понимаются
«элементарные» ячейки, из которых строятся структурные формулы органических
соединений. В качестве микрофрагментов используются скелетные атомы углерода с
их протонным окружением или без него, функциональные группы, гетероатомы.
Каждый микрофрагмент характеризуется определенным элементным составом, числом и
кратностью свободных валентностей, характерными признаками в определенных
интервалах молекулярных спектров. Структурные формулы, состоящие из атомов С,
Н, О, N, S и галогенов, могут быть построены из 32
таких микрофрагментов. Два или более микрофрагмента, связанных между собой
химическими связями, образуют макрофрагмент или структурную формулу, которые
различаются между собой лишь тем, что макрофрагмент содержит одну или несколько
свободных валентностей [2].
Микрофрагменты и границы их возможного
вхождения в структурную формулу исследуемого соединения определяются по
корреляционным таблицам, введенным в ПК в качестве одной из баз данных.
В литературе описано несколько способов
определения макрофрагментов в составе исследуемых соединений по их молекулярным
спектрам с помощью ПК, например по спектроструктурным корреляционным таблицам
[1] или в библиотеке данных по частичному совпадению УФ-спектра исследуемого соединения
с библиотечным [4]. В описываемом методе реализован иной подход, суть которого
состоит в следующем. Cозданы базы
данных фрагментов, наиболее типичных и широко распространенных фрагментов в
органической химии (алкильных, ароматических, насыщенных моноциклов). В базе
данных содержатся данные об элементном составе и строении фрагментов; «стандартные»
спектры фрагментов УФ-спектров; таблицы инкрементов влияния заместителей на
положения полос поглощения стандартных спектров фрагментов.
Стандартные спектры фрагментов и таблицы
инкрементов влияния заместителей используются для предсказания положений
сигналов поглощения библиотечных фрагментов в спектрах исследуемых соединений.
В качестве стандартных спектров фрагментов взяты УФ-спектры модельных
соединений, содержащих субституенты, инкременты, влияние которых на положение
полос поглощения электронных спектров стандартных образцов условно принято за
0.
Выдвижение
гипотез о строении неизвестного соединения
Под строением органического соединения
понимается такая модель, которая в некотором приближении отражает реальное расположение
атомов в молекуле. Если при этом
учитываются только относительные расположения атомов в молекуле, то такая
модель называется структурной формулой или топологической моделью органического
соединения. Если в модели учитываются пространственные расположения атомов в
молекуле, то такая модель называется геометрической моделью строения (конфигурация,
конформация).
В ПК топологические модели или структурные
формулы органических соединений представляются с помощью аппарата теории
графов. Граф представляет собой множество полос поглощения с их максимумами,
связанных между собой множеством линий. Для представления структурной формулы
максимумам поглощения соответствуют субституенты, боковыми полосами поглощения
– валентные связи между ними.
Выдвижение гипотез о структуре исследуемого
соединения сводится к построению всех возможных топологических моделей данного
органического соединения. Построение
таких моделей в системе «электронный спектр – база данных» осуществляется в
четыре независимых этапа: 1) составление наборов фрагментов; 2) построение
промежуточных структурных формул; 3) построение конечных структурных формул; 4)
построение стереомеров.
Из отобранных на этапе анализов данных
микро – и макрофрагментов строятся всевозможные сочетания фрагментов и
выбираются те, элементный состав которых соответствует брутто-формуле исследуемого соединения. Наборами фрагментов считаются сочетания,
удовлетворяющие ряд условий, обеспечивающие возможность построения из них
структурных формул [5].
Построение конечных структурных формул
Конечной считается такая структурная
формула органического соединения, которая не содержит в своем составе
макрофрагментов с нераскрытым строением. Если в промежуточной структурной
формуле не содержалось макрофрагментов, то промежуточная структурная формула
одновременно является и конечной. В противном случае строение макрофрагментов
необходимо раскрыть. Кроме того, если свободные валентности макрофрагмента не
эквивалентны между собой из-за асимметрии его строения, то, возможно, изомерия,
обусловленная порядком присоединения субституентов к макрофграменту (скелету).
Такая изомерия называется перестановочной.
Построение стереомеров
В случае «жестких» моделей строения
возможны изомеры, обусловленные ориентацией заместителей относительно цикла или
двойной связи (цис-транс изомеры). Построение всех таких изомеров из данной
структурной формулы представляется возможным благодаря принятому системе СИ
представлению структурных формул с помощью ориентировочных графов. В
ориентировочном графе выделяются стереомеры относительно которых возможно
изменение ориентации боковых полос поглощения. Стереомеры отличаются друг от
друга только ориентацией боковых полос поглощенных в графе при стереоцентрах.
Построение всех стереомеров обеспечивается последовательным изменением
ориентации боковых полос поглощения при таких стереоцентрах с последующим
исключением тех изомеров, которые сказались эквивалентными из-за своей симметрии.
Таким образом, в системе СИ обеспечивается поэтапное построение гипотез о
строении соединений с различной степенью приближения к реальному строению
молекулы органического соединения вплоть до геометрической (конфигурационной)
модели.
Обоснование
гипотез и принятие решения
Обоснование гипотез и принятие решений – основной
этап интерпретации молекулярных спектров. Гипотезы могут предлагаться пользователем
или строиться автоматически. Задача состоит в том, чтобы оценить соответствует
ли предложенная модель строения заданным молекулярным спектром. Эту задачу можно
разбить на две основные части: предсказание спектров для данной модели строения
и сравнение предсказанных спектров с экспериментальным.
С точки зрения исследования строения
химических соединений наибольший
практический интерес представляет предсказание положений полос поглощения в УФ-спектрах.
На практике широко применяются эмпирические методы предсказания положения полос
поглощений, основанные на использовании спектроструктурных корреляционных таблиц
и так называемых аддитивных схем, особенно характерных для ультрафиолетовой
спектрофотометрии. Однако использование
спектроструктурных корреляционных таблиц дает возможность лишь предсказать
более или менее узкий диапазон электронного спектра в котором ожидается
появление определенной полосы поглощения. Применение аддитивных схем в
электронной спектроскопии ограничено лишь определенными классами органических
соединений.
Для предсказания положений полос
поглощения в УФ – спектрах используют два подхода: предсказание диапазонов
положений сигналов, основанные на спектроструктурных корреляционных таблицах, и эмпирический расчет спектров,
основанный на учете влияния заместителей на положение каждой полосы поглощения
в спектре.
Эмпирический расчет спектров основан на
следующем. В молекуле органического соединения атомы, связанные друг с другом,
взаимно влияют друг на друга, обуславливая тем самым положения полос поглощения
в спектрах. Условно можно принять, что влияние какой-либо группы атомов
(микрофгарментов) равно нулю, а влияние других микрофгаментов количественно
можно оценить по отношению к такому микрофграменту. Таким микрофрагментам с
условно нулевым влиянием удобнее всего взять группу – СНЗ, поскольку
она, во-первых, часто встречается в структурах органических соединений, а
во-вторых, инертна в химическом отношении и не подвергается влиянию внешней
среды [6]. Используя спектры простейших модельных соединений, у которых данный
микрофграмент находится в окружении СН3 – групп, можно определить
так называемое собственное значение химического сдвига даренного микрофграмента
. Аналогично из спектров модельных соединений можно
определить для каждого микрофрагмента и инкременты влияния на положения полосы
поглощения с учетом субституентов, находящихся на определенном расстоянии относительно
данного микрофгармента. Полученные таким образом собственные значения химических
сдвигов и эксперименты влияния заместителей используются для эмпирического
расчета положений полос поглощения в спектрах с помощью следующего выражения:
где
- расчетный химический
сдвиг для данного микрофрагмента;
– суммы инкрементов влияния заместителей, находящихся в
и
положениях соответственно относительно данного
микрофрагмента;
и
– поправки на
цикличность структурной формулы пространственное расположение заместителей
соответственно.
Задача сравнения двух спектров состоит в
определении численного критерия, характеризующего степень соответствия (различия)
сравниваемых спектров. Таким критерием может быть средняя разность между
положениями полос поглощения, относящихся к одним и тем же атомам формулы, в
экспериментальном и расчетном спектрах. Для определения этого критерия
необходимо осуществить отношения
сигналов экспериментального спектра
определенным атомам или группам атомов структурной формулы. Для этой цели
составляется таблица разностей между положениями максимумов полос поглощения в
экспериментальном и расчетном спектрах.
Такая задача решается с помощью программы
назначений целочисленной матрицы, разработанной в институте органической химии Украины
[3]. Поскольку каждый сигнал расчетного сигнала расчетного спектра относится к
определенному атому, назначенный
данному расчетному максимуму, максимум экспериментального спектра будет относиться
к тому же атому или группе атомов.
Если имеется полное соответствие, то
производится расчет спектра с учетом более дальних влияний заместителей и
геометрии молекулы, и определяется степень соответствия расчетного спектра с
экспериментальным, как было сказано
выше. Если степень соответствия оказалась ниже предварительного заданной
величины, то делается заключение, что данная модель строения соответствует
введенным данным, и эта модель предлагается химику в качестве возможного
варианта строения молекулы анализируемого соединения.
В настоящее время система рассматриваемых
программ может применяться для решения следующих задач, часто встречающихся в
практике: построение вариантов строения для анализируемого соединения с учетом
различных ограничений (структурная информация, спектры); предсказание
молекулярных спектров для соединений с известным строением; отнесение сигналов
экспериментального спектра определяемым атомам структурной формулы.
Однако, следует отметить, что основным
ограничением возможностей системы в настоящее время является объем и содержание
баз данных, используемых в этой системе. Пополнение баз данных и их адаптация к
заранее определяемым типам органических соединений представит возможность
использовать данную систему программ практически без ограничений.
Система программ, созданная институтом
органической химии Украины, может быть реализована на любом языке, пригодном к
ПК.
Литература
1)
Грибов. Л. А., В. А.
Дементьев / Методы и алгоритмы вычислений в теории электронных спектров
поглощения органических соединений // Журнал аналитической химии, 2005. –Т.68. –
С. 1325-1332.
2)
Гуринович Т.Н., Субоч
В.И. / Исследование структурных формул органических соединений на основе
программного обеспечения ПК // Журнал
прикладной спектроскопии, 2003. –Т.58 – С. 26-32.
3)
Корниенко М.С. / Программное
обеспечение ПК // Киев Институт Органической Химии, 2008. – ВКП. 86. – С. 28-35.
4)
Лебедев К.С. / Седьмая
всероссийская конференция «Использование ПК в химических исследованиях и
спектроскопии органических молекул» // Санкт-Петербург: Издательство «Химимя»,
2006. – С. 181-186.
5)
Мелкозерова Л.Т. / Особенности
построения структурных формул
органических соединений с применением микро- и макрофрагментов органических
соединений // Журнал прикладной спектрокопии, 2007. – Т. 57. – С. 669-674.
6)
Райхардт К. / Растворители
и эффекты среды в органической химии. – М.: Мир, – С. 1991-763.
7)
Рыжов А. А. / Модель
представления знаний на основании понятий для компьютерного обучения. //
Медицинская информатика и инженерия. –2008, –№2,– С.83-88.
8) Hippe Z / Computer-assisted structure education
// J. Chem. Inform. and Comput. Sci., 1995. – Vol. 35. – p. 344-360.