DENDRAL [17] – программа распознавания химических структур. Данная система старейшая из имеющих звание экспертных. Первые версии данной системы появились еще в 1965 году в Стенфордском университете. Пользователь дает системе DENDRAL некоторую информацию о веществе, а также данные спектрометрии (инфракрасной, ядерного магнитного резонанса и масс-спектрометрии), и та в свою очередь выдает диагноз в виде соответствующей химической структуры.
Экспертная система EXPRES (EXPert system for chemical REaction cycles Synthesis) [18] может автоматически генерировать два вида реакционных циклов, т.е. циклы химических реакций и группы химических реакций с помощью баз данных (БД) реакций и различных видов баз знаний (БЗ). В БД реакций объединены известные реакции, которые точно идут при допустимых скоростях. EXPRES имеет такие отличительные особенности, как правила прохождения реакций, законспектированные и оцененные экспертами, обучающая способность и иерархически структурированная БЗ эффективной обработки и эксплуатации. Также имеется метод перевода формул химических реакций в список выражений на языке LISP.
EXPRES можно использовать для получения многошаговой группы реакций из одиночной реакции, которую сложно получить в промышленных условиях и поиска химических циклов выработки тепла, происходящих в необходимом температурном интервале для эффективного использования ресурсов или термической энергии.
Green Chemistry Expert System (GCES) [19] – экспертная система, которая позволяет пользователям строить процессы зеленой химии, проектировать зеленые химикалии или исследовать область зеленой химии. Система одинаково полезна для новых и существующих химикалий и их процессов синтеза. Она включает обширную документацию.
Возможности GCES содержатся в пяти модулях. Модуль Синтетической Оценки Методологии для Методов Сокращения (Synthetic Methodology Assessment for Reduction Techniques (SMART)) измеряет и классифицирует опасные вещества, используемые или сгенерированные в ходе химической реакции, основываясь на информации, введенной пользователем. Реакции могут быть изменены в модуле SMART и переоценены для того, чтобы оптимизировать их зеленую природу.
Модуль Синтеза Зеленой Реакций (Green Synthetic Reactions) обеспечивает техническую информацию относительно зеленых синтетических методов.
Модуль Разработки Более безопасных Химикалий (Designing Safer Chemicals) включает руководство о том, как химические вещества можно изменить, чтобы сделать их более безопасными; он упорядочен по химическим классам, свойствами и методам использования.
Модуль Растворителей/Условий протекания Зеленых Реакции (Green Solvents/Reaction Conditions) содержит техническую информацию относительно зеленых альтернатив по отношению к традиционным системам растворения. Этот модуль также позволяет пользователям искать заместители зеленых растворителей, основанные на физико-химических свойствах.
Модуль Ссылок Зеленой Химии позволяет пользователю получать дополнительную информацию, используя ряд стратегий поиска. Пользователь может также добавлять ссылки в этот модуль.
Пакет Rule-Master [20] был разработан и реализован фирмами IТL и Radian в 1982–1983 г. С помощью этого пакета были созданы десятки прикладных экспертных систем.
Пакет RuleMaster состоит из двух основных частей:
Radial – блочно-структурированный процедурный язык формулировки правил принятия решений. RuleMaker – система накопления знаний, предназначенная для построения деревьев рассуждений, исходя из примеров экспертных рассуждений, и записи таких деревьев в виде вы полнимых Radial-кодов.
Экспертные системы, созданные с помощью пакета RuleMaster, представляют собой программы на языке Radial. Для построения экспертной системы в знаниях из соответствующей предметной области выделяется модульная структура и собственно тела модулей. Структура определяет иерархию рассуждений, приводящих к решению проблемы. Тело каждого модуля подробно описывает способ проведения соответствующего рассуждения.
RuleMaker – это программа извлечения знаний, предназначенных для формулировки и проверки логичности рассуждений, содержащихся в Radial-модулях. Логика для каждого модуля задается в виде таблицы примеров правильных экспертных рассуждений. RuleMaker переводит каждую такую таблицу в эквивалентное дерево рассуждений и автоматически создает тело модуля на языке Radial.
-
Долгое время химики-синтетики руководствовались в своих действиях обращением к литературным данным в поиске надежных и проверенных практикой химических реакций, которые специфически пригодны для синтеза базового скелета данной целевой молекулы.
Однако, как показала практика, такой поиск не всегда успешен, поскольку фактический материал по органическим реакциям настолько огромен, что можно легко пропустить и не заметить нужную реакцию, хотя она и опубликована в литературе. Более того, часто требуется открытие принципиально новых реакций и подходов, что запланировать невозможно.
Выход из этой ситуации заключается в широком применении компьютеров для планирования органического синтеза. Лишь колоссальная память и быстродействие компьютера позволяют найти и оценить огромное число возможных вариантов синтеза того или иного соединения, выбрать из них оптимальный план синтеза, который таким образом может быть осуществлен с минимальными затратами и максимальными шансами на успех [21].
Начиная с удачной публикации по машинному органическому синтезу Кори(Corey) и Випке(Wipke) было представлено более пятидесяти машинных систем планирования синтеза, которые, как известно, были разработаны для проектирования синтеза органических составов за последние двадцати пяти лет. Есть две категории в машинных системах планирования органического синтеза. Первый - эмпирический подход основанный на знаниях, типа в LHASA или SECS. Другой – логический подход, например как в SYNGEN или EROS. Преимущество в отношении первых систем состоит в том, что их предложения ретросинтеза в общем могут выполняться в лабораториях. Последние имеют такое качество, что их предложенные ретросинтетические пути включают первоначальные и новые. Оба этих подхода привлекательны для химиков [22].
В настоящее время компьютерный синтез уже не является совокупностью отдельных разработок, а сформировался в большое научное направление [21]. Рассмотрим три основных аспекта компьютерного синтеза:
-
представление и анализ химических структур;
-
представление и анализ химических реакций-трансформаций;
-
критерии отбора.
Осуществление любой программы компьютерного синтеза начинается с ввода некоторых начальных данных, основу которых составляет информация о структуре заданной химической системы. Практически все существующие программы используют возможности ввода структуры в виде рисунка с помощью графических устройств компьютера. Обычно рисунок вводится в самом привычном для пользователя виде. Полученная графическая информация преобразуется в некоторое внутреннее представление структуры в программе. Каковы основные принципы кодирования в программе молекулярной структуры? Любая программа учитывает типы атомов в заданной системе и связи между ними, в том числе кратность связи. В некоторых программах для описания структуры химического соединения используют таблицы связности, которые указывают на ближайшее окружение каждого атома в структуре, а также могут содержать дополнительную информацию (описывают стереохимические особенности структуры, заряды атомов и т. п.).
Приведем примеры описания химических структур в некоторых известных программах. В программе SYNGEN описание заданной системы включает в себя только атомы скелета молекулы и связи между ними. Кроме того, для каждого атома скелета в таблице связности предусмотрены данные, касающиеся характера связей каждого конкретного атома с теми или иными функциональными группами. Программа EROS [23] хранит описание структуры в виде так называемой ВЕ-матрицы, которая указывает порядки связей между атомами заданной системы (недиагональные элементы) и число свободных электронов на внешней валентной оболочке каждого атома (диагональ матрицы). Программа SYNCHEM [24] использует обычное представление структур в виде таблиц связности. Описание заданной системы в виде таблицы связности применяется при анализе и трансформации структур, в то время как указанный код предназначен для удобства хранения и составления структурных банков данных. В ходе анализа структур, входящих в состав заданной системы, программы извлекают дополнительную информацию, необходимую для дальнейшей работы: особенности строения скелета (число и взаимосвязь циклов, цепей), число и вид функциональных групп, данные о симметрии структуры.
Следующим необходимым этапом составления программы компьютерного синтеза являются представление и анализ химических реакций. На этом этапе можно выделить два принципиально различных подхода: эмпирический (трансформации заданной системы осуществляются на основе сведений об известных органических реакциях) и неэмпирический (трансформации генерируются без привлечения фактических сведений). В первом случае химические реакции должны быть заранее систематизированы и закодированы, во втором случае для поиска трансформаций применяется комбинаторный алгоритм (набор некоторых логико-комбинаторных инструкций). Эмпирическое направление имеет то преимущество, что в этом случае программа обычно предсказывает правдоподобные пути синтеза, а большинство критериев отбора в неявном виде содержится в описании каждого конкретного превращения, К сожалению, такие программы неспособны предложить принципиально новый синтетический путь или найти новую реакцию, так как ограничены конкретной библиотекой трансформаций. Программы неэмпирического направления лишены этого недостатка, однако требуют включения в программу строгих критериев отбора, чтобы избежать получения нереальных или малоинтересных результатов.
Большинство программ относится к эмпирическому направлению и использует в своей работе библиотеки трансформаций, для которых характерны следующие общие черты. Во-первых, описание трансформации включает перечисление структурных фрагментов, которые должны присутствовать в заданной системе, для того чтобы структурная трансформация могла осуществиться. Во-вторых, описание должно содержать тесты, которые определяют принципиальную возможность осуществления данного превращения и/или определяют приоритетность описываемой трансформации. Кроме того, описание включает также перечень структурных изменений, которые необходимо произвести, чтобы получить структуры, соответствующие результату применения данной трансформации. Наконец, необходим идентификатор каждой трансформации. Указанные аспекты присущи всем описанным в литературе библиотекам трансформаций, однако некоторые из них могут содержать дополнительную информацию. Например, в программах LHASA [21] и SECS каждой трансформации приписывается краткое определение структурных изменений в заданной системе, которые вызывает данная трансформация (образование — разрыв связи, замыкание — раскрытие цикла, введение - удаление функциональных групп). Кроме того, в этих программах содержатся сведения об условиях реакций (например, о температуре и вспомогательных реагентах). В системе RЕАСТ, предназначенной специально для изучения химико-технологических процессов, большое внимание уделено описанию технологических условий для успешного осуществления конкретных процессов.
В отличие от эмпирических, в программах неэмпирического направления трансформации осуществляются не на основе данных библиотеки, а в результате применения некоторых логических конструкций. Например, программы EROS и TOSCA используют ряды так называемых генераторов реакций, то есть инструкций, которые в самом общем виде описывают перераспределения связей в ходе химических реакций. В одной из последних версий программы ЕRОS используют пять генераторов, описывающих большинство органических реакций:
-
X: + I – J I – X – J
-
I – X – J X: I – J
-
I – J + K – L I – K + J – L
-
I – J + K – L + M – N N – I + J – K + L – M
-
I – L + K – M + X: M: + I – K + L – X,
где I, J, К, L, М, N - реакционные центры, то есть атомы, связи между которыми изменяют свой порядок на единицу. Центр X соответствует атому, изменяющему в ходе реакции свою валентность на две единицы (например, карбенному центру в реакции присоединения карбена). Разрыв связи между центрами I и J может означать как разрыв, так и уменьшение порядка связи. Аналогично образование связи может соответствовать как реально образованной связи, так и увеличению кратности уже имеющейся. Очевидно, что для различных центров и связей один и тот же генератор реакции будет порождать различные химические превращения. Например, третий генератор может соответствовать как присоединению по двойной связи, так и реакции замещения. Таким образом, генераторы реакций в применении к конкретной системе могут порождать наряду с хорошо известными превращениями также и совершенно новые трансформации.
Для описания химической информации в программах неэмпирического направления может применяться и так называемый формально-логический подход (программа FLAMINCOES), в основе которого лежит представление любого процесса в виде суммарного результата, а именно в виде совокупности структурных изменений, происходящих при переходе от исходной химической системы (ХС) к конечной. Система может состоять из одного или нескольких веществ, структуры которых представлены в виде химических графов. Важнейшие типы органических реакций формально описываются как результат циклического перераспределения связей (ЦПС) при переходе от исходной к конечной системе. В настоящее время существует также программа СОМРАSS (Н. С. Зефиров, Д. Л. Лушников, Е. В. Гордеева), базирующаяся на сочетании чисто комбинаторных методов с эмпирическими правилами ретросинтетического анализа и, таким образом, как бы объединяющая эмпирический и неэмпирический подходы. Для специального круга реакций — карбокатионных перегруппировок — существует программа ICAR (Н. С. Зефиров, В. В. Щербухин, Е. В. Гордеева), в которой формально-логический подход используется для описания этих многостадийных процессов.
Итак, авторы показали, каким образом химическая информация кодируется и формализуется в некоторых известных компьютерных системах. Однако главная проблема компьютерного синтеза – это создание и формализация критериев отбора, которые позволяют значительно сократить количество операций, с тем, чтобы программа генерировала в первую очередь самые вероятные пути синтеза. Оперирование критериями отбора как раз и придаст программам черты искусственного интеллекта.
В программах эмпирического направления критерии отбора могут использоваться на трех стадиях поиска:
-
выбор определенной стратегии синтеза, которая ограничивает число и вид превращений;
-
оценка и отбраковка конкретных трансформаций до их применения в заданной системе;
-
оценка и отбраковка конкретных предшественников, полученных в результате трансформации. Выбор определенной стратегии может осуществляться автоматически или с участием пользователя.
Применение нескольких стратегий (например, структурно-ориентированной, стереохимической, топологической и т. п.) обычно позволяет найти эффективные и элегантные пути синтеза. Вопрос об априорной оценке вероятности протекания реакции решается в компьютерных программах с помощью формальных и эмпирических критериев отбора. Трансформация считается формально возможной, если в системе присутствует структурный фрагмент, формально необходимый для осуществления данной трансформации. Эмпирические критерии отбора реализуются на основе более глубокого анализа структуры системы, условий реакции, состава реагентов, В целях более детального анализа превращений может привлекаться и дополнительная информация. Наряду с оценкой трансформаций в программах эмпирического направления проводится и оценка самих предшественников. Отбраковка вариантов может производиться, например, по следующим критериям отбора: 1) неправильное значение валентности атома, 2) два одинаковых по знаку заряда на разных атомах, 3) нестабильная комбинация функциональных групп, 4) наличие антиароматической системы, 5) тройная связь в малом цикле и т. д.
Основная проблема, с которой сталкиваются программы неэмпирического направления, заключается в том, чтобы отобрать из всего множества формально возможных путей синтеза наиболее вероятные и интересные с химической точки зрения. В таких программах можно выделить следующие задачи, для решения которых применяются критерии отбора:
-
ограничение типов трансформаций;
-
ограничение применимости трансформаций;
-
оценка и отбраковка генерированных предшественников.
Критерии отбора предшественников во многом сходны с аналогичными критериями в программах эмпирического направления, поэтому остановимся на критериях отборов первых двух типов. Возможность выбора типов трансформаций в явном виде присутствует в программе EROS. Во-первых, здесь предусмотрена ситуация, когда пользователь исключает из списка генераторов реакций, хранящихся в машинной памяти, генераторы, отвечающие тем процессам, которые, по его мнению, не могут протекать в заданной системе, Принимается, что все пять генераторов реакций могут служить для поиска предшественников. Во-вторых, имеется возможность наложить определенные ограничения на вид и размер дерева синтеза, в частности указать максимальное число его уровней и число структур на каждой стадии. Как было показано ранее, описание любой трансформации в программах неэмпирического направления в общем виде можно представить как набор реакционных центров, указав, каким образом перераспределяются связи между ними. Следовательно, критерий отбора, который может ограничить применимость тех или иных трансформаций, заключается в выборе потенциальных реакционных центров или реакционноспособных связей из всего множества атомов и связен данной системы. Так, например, определяются связи, которые в принципе могут разрываться входе дальнейших превращений. В автоматическом режиме реакционноспособными объявляются кратные связи, связи С—X, Н—X, X—X (Х-гетероатом) а также смежные с ними связи. Ароматические связи не считаются реакционно-способными. Пользователь может произвольным образом корректировать список реакционноспособных связей.
Компьютеры необходимы для решения задач планирования синтеза, прогнозирования направления реакции, изучения перегруппировочных процессов. Более того, формализованное представление химической информации позволяет осуществить стратегическое планирование химического эксперимента с участием новых или малоизученных процессов.
Можно считать, что компьютерный синтез является чрезвычайно перспективным направлением органической химии и в ближайшем будущем компьютер высокого класса станет (и уже становится) непременным оборудованием лаборатории органического синтеза [21].
LHASA (Logic and Heuristics Applied to Synthetic Analysis) [22] – это программа для планирования синтеза, экспертная система, предназначенная для помощи химикам в разработке результативного пути для получения молекул органического синтеза. Работая не так, как системы реакционного восстановления, LHASA ищет собственный способ синтеза известных и неизвестных компонент, используя химическую БЗ. Так как LHASA оперирует в точном ретросинтетическом стиле, то БЗ содержит информацию о ретро-реакциях (или трансформациях), а не о реакциях. Текущая версия LHASA содержит 2242 трансформаций и 494 так называемых тактических комбинаций.
Программа имеет дружественный интерфейс и, практически все запросы идут через графический интерфейс. Поэтому использование LHASA не требует предварительных навыков работы на компьютере. Пользователь рисует в требуемой молекуле и определяет стратегию ретросинтетического анализа. Потом программа ищет преобразование, используя БЗ, для тех трансформаций, которые удовлетворяют выбранной стратегии, решает, какое преобразование подходит для получения заданной структуры и отображает получаемые продукты предшествующей стадии реакции химику. Химик может выбрать продукты предшествующей стадии реакции для дальнейшего анализа или выбрать другую стратегию выбора, в которой таким же образом программа возвращает второй уровень продуктов предшествующей стадии реакции. Обработка продолжается таким же способом до тех пор, пока химика не удовлетворит один или более продуктов, синтезированных из начальных.
EROS (Elaboration of Reactions for Organic Synthesis) [20, 23] – программа для предсказания реакции органического синтеза.
Для заданных начальных материалов предсказаны ход химической реакции и ее результаты. Авторы разрабатывали систему EROS более 20 лет. В существующей версии, EROS 7.0, база знаний и методы решения проблем явно разделены. База знаний состоит из методов для вычисления важного электронного и энергетического эффектов в органических молекулах, также как и правил для оценки хода элементарных химических процессов.
Основной задачей при разработке программы стало нахождение способов автоматического выделения химически осуществимых реакций из множества формально возможных. Для этого представляется необходимым создание модели реакционной способности.
Хорошей исходной точкой для создания базы знаний являются точные численные характеристики физических и химических свойств атомов, молекул и соединений. Основная задача здесь – концентрирование разрозненной информации в рамках количественной параметрической модели, воспроизводящей с определенной точностью первичные данные. Если такая модель создана, ее можно использовать для объяснения новых или предсказания неизвестных данных (в том случае, если ожидаемая точность таких прогнозов будет близка к точности воспроизведения данных). Кроме того, полученные параметры могут войти и в другие модели, дающие в свою очередь новые типы данных.
При разработке моделей реакционной способности авторы пользовались понятиями, введенными химиками-органиками для обсуждения механизмов органических реакций и их причин.
Целью была разработка моделей количественного описания различных явлений, связанных с химическими реакциями; таким образом, были заложены основы количественного описания реакционной способности. Разработаны следующие простые модели, позволяющие быстро производить вычисления даже для больших молекул и обширных массивов информации.
Простейший тип модели – аддитивная схема. Свойства молекулы получают суммированием вкладов, вносимых атомами, связями или группами. Для извлечения фундаментальных параметров из первичных данных аддитивная схема может объединяться с другими типами математических соотношений. Более того, аддитивная схема, хорошо описывающая глобальные молекулярные свойства, должна быть модифицирована для получения локальных свойств.
SYNCHEM [24] – программа решения проблем в области органической химии. Подобно всем системам решения проблем, выполнение SYNCHEM ограничено рамками в широте и глубине представителя химического знания в его базе знаний ко времени обращения к системе. Исследование, находящееся в настоящее время в разработке применяет методологи машинного обучения к проблеме извлечения знаний из больших удобочитаемых для компьютера баз данных реакции, для того чтобы делать как можно более автоматическими утомительные и подверженные ошибкам процессы построения базы знаний.
Программа ведет пользователя через один из многих планов синтеза, обнаруженных SYNCHEM для заданного состава. Для каждого ретросинтетического шага синтеза, отображается снимок вывода SYNCHEM. Также имеются комментарии химиков и компьютерных специалистов, указывающие на существенные особенностей синтеза, предложенного SYNCHEM.
AIPHOS (Artificial Intelligence for Planning and Handling Organic Synthesis) [25] объединяет достоинства эмпирического интеллектуального подхода и логического подхода. То есть, AIPHOS может предлагать первоначальные и новые маршруты ретросинтеза благодаря его уникальной базе знаний реакции. За несколько секунд, системные пошаговые подходы AIPHOS в интерактивном режиме, на каждом шаге, определяют синтетических предшественников от молекул предыдущего шага.
В AIPHOS осуществляется следующий ряд процедур:
-
Ввод желаемой целевой структуры.
-
Получение вероятных стратегических сторон в желаемой молекуле. К желаемой молекуле применяется получение стратегических сторон топологической стратегии и основанная стратегия функциональных группы, описанные у Кори (Corey). Одна из предложенных стратегических сторон выбирается пользователем. Когда пользователь желает описать стратегические стороны согласно его/ее стратегиям синтеза то, он/она может редактировать его/ее собственные стратегические стороны вручную.
-
Генерация возможных предшественников на основе стратегических сторон, выбранных на шаге 2 . Один набор предложенных предшественников выбирается пользователем.
-
Автоматическое добавление соответствующих уходящих групп к набору предшественников, выбранных на шаге 3 , используя базу знаний уходящих групп. В случае необходимости, пользователь может добавлять уходящие группы вручную.
-
Оценка предложенного ретросинтетического пути относительно того, может ли он появляться в базе знаний реакции. Если предложенный ретросинтетический путь может появиться то, это отображается пользователю вместе со связанными схемами реакции в базе данных AIPHOS.
При планировании органического синтеза, химики ищут эффективный ретросинтетический анализ отношений между надлежащим модулем целевой молекулы и структуры доступных составов подобно начальным материалам, предлагаемым в каталогах. Для этого авторы разработали эффективную программу, которая может включать данные базы данных химических структур, используемых на рынке, в библиотеку. Эта программа также способна распознавать синтетические эквиваленты, для того, чтобы классифицировать функциональные группы. И тогда результирующая библиотека составляется из иерархической структуры, используя абстрактные графы.
Используются четыре уровня абстрактных структур.
-
Уровень Данных состоит из полностью специфицированных первоначальных материалов.
-
Нижний уровень содержит информацию о позициях и видах функциональных групп, идентифицируемых согласно кодам функциональных групп.
-
Средний уровень, в котором функциональные группы заменены X, содержит только информацию об их позициях.
-
Верхний уровень включает основные скелеты первоначальных материалов. Если неароматическое C-C многократные связи существуют в абстрактных графах то, они преобразовываются в единственные связи на этом уровне. На рис. 2 показан пример абстрактных графов на каждом уровне.
Когда создана эффективная библиотека первоначальных материалов, приобретает значение сокращение мест для абстрактных мест. Поэтому, применяется концепция синтетических эквивалентов для абстракции данных, которые предоставляются только для изменяемых функциональных групп. Сорок функциональных групп классифицированы на 9 групп. В случае необходимости, можно дополнительно зарегистрировать другие функциональные группы, и также возможно изменение пользователями химиками комбинации функциональных групп в классах.
Структура библиотеки первоначальных материалов разделена в три блока: то есть хиральное объединение, ароматическое объединение, неароматическое объединение. В частности хиральное объединение подходит для предшественников, связанных с оптически активной результирующей молекулой. Кроме того, каждое объединение разделено согласно числу атомов углерода, содержащихся в абстрактных графах верхнего уровня.
Авторы разработали программу для создания фундаментальной библиотеки первоначальных материалов для того, чтобы использовать в AIPHOS первоначальный ретросинтетический анализ, ориентируемый на материал. Эта программа может импортировать данные из других коммерческих химических баз данных структуры также как и данные ACD в библиотеку, если их структурные данные описаны MDL форматом или могут быть преобразованы к этому формату. Используя эту программу, также распознаются синтетические эквиваленты.
Synthematix [26] – инструмент планирования реакции. Synthematix выполняет работу по развитию структуры и уменьшает время, для освоения информации, необходимой для патентов или совместного использования химических знаний, стимулирования творческого мышления уникальной технологией визуализации способов прохождения реакции, сотрудничества и совместного использования через стандартизированную химическую информацию, ускорения процесса документации и публикации, создания трансляционных отношений и соединения научных ресурсов.
Собственные технологии Synthematix позволяют химикам быстро находить и проектировать синтетические реакции и процедуры систематического построения интеллектуальной собственности.
AOCR [27] – инструмент для вычисления органических реакций с оконным интерфейсом и графическим компоновщиком органических формул и правил шагов реакции.
Программа включает вычислительную часть и построитель, который готовит ввод и отображает вывод. Он задуман для того, чтобы предлагать решение наиболее общих проблем, с которыми химик встречается в поле органического синтеза. Например, для решения проблемы определения того можно ли синтезировать вещество от заданных материалов и получения его, если возможно, или для решения проблемы перечисления всех результатов, которые можно получить из некоторой начальной смеси веществ. Химик может ограничить его или ее усилие по оценке решения предложенного программой синтеза. Если решение не приемлемо, то программа может продолжить поиск других решений.
AOCR основана на математическом представлении органического синтеза. Смесь органических веществ представлена ребрами разноцветного графа, шаги реакции перемещением ребер. Ограничения в перемещениях гарантируют, что ни тип, ни валентность атома, ни группа, ни заряд не могут изменяться в ходе реакции. Химик делает правила для шагов реакции, использующие знакомый формализм стрелок из органического синтеза. К базе данных не обращаются.
Чтобы успешно использовать программу, нужно понимать, как органические химические составы, реакции и механизмы реакции (шаги) могут использоваться программой.
Органический химический состав (органическая молекула) представлен способом, адекватным для программы, т.е. символами (написанными в некоторых точках), например, H, O, N, C,..., которые могут быть связанны единственными, двойными, тройными, или четверными связями.
Органическая химическая реакция, как установлено в соответствии с программой, является выражением
A1 ... An ____> B1 ... Bm,
где A1..., – органические составы, начальные составы, а B1..., Bm – органические составы, состоящие из тех же символов, что и A1...,
Любую комбинацию составов B1..., Bm считают полученной из реакции, или синтезированной в ходе реакции.
Нужно упомянуть один важный аспект. В органической химической реакции, как описано в химической литературе, электрические заряды перемещаются по кругу или нейтрализуют друг друга. Так как символы строго сохраняются, нет никакой возможности, что символ Y + исчезает и становится (другим) символом Y или наоборот. Кроме того определение вещества не содержит свойств, говорящих, что символ несет + или –. Решение заключается в отдельном представлении заряда + или – в виде отдельной связи символа с зарядом.
Реакция, как представлено в соответствии с программой, представляется шагами. Правило шага реакции представлено подобно составу, имеющему такие свойства:
-
Вместо символов и связей используются общие метасимволы (универсальные шаблоны), которые соответствуют некоторым наборам символов и связей.
-
Некоторые точки p1..., pn (n = 4, 6 или 8) различны.
Правила применяются, когда существует адекватный план перевода одного к другому, соответствие между символами правила и символами составов, рассматриваемых в соответствии с правилом. Когда правило применяется, значение (валентность) связи между p1 и p2 уменьшается на 1, а значение связи между p2 и p3 увеличивается на 1..., значение связи между pn-1 и pn уменьшается на 1 и, наконец, значение связи между pn и p1 увеличивается на 1.
В настоящее время система SYNLMA [20] способна разрабатывать синтез соединений, сравнимых по размеру с анальгетиком «Дарвоном». Разработка синтеза проводится на основе расположенной в оперативной памяти базы данных, содержащей около сотни реакций. Процесс разработки начинается с ввода структуры синтезируемого соединения (в форме предложения). Затем генерируется ее внутреннее представление. Оно становится целью (теоремой, которую необходимо доказать). Работа программы доказательства теорем начинается с определения основных функциональных групп целевой молекулы, которые затем используются при работе с базой данных как ключи. При поиске реакций и соединений для синтеза целевой молекулы ПДТ просматривает только файлы, соответствующие уже обнаруженным в целевой молекуле функциональным группам. Например, если в целевой молекуле имеются карбоксильная группа и бензольное кольцо, то ПДТ просматривает только файлы, содержащие эти группы, до тех пор, пока не будут найдены совпадающие молекулярные структуры. Если такая структура обнаружена, то ее соответствующая подцель становится новой целью. Цель переводится в форму внутреннего представления молекул, затем производится идентификация функциональных групп, и процессы поиска в сравнения повторяются. Процесс исследования альтернативных путей реакции и установления новых целей (ими становятся промежуточные соединения) повторяется до тех пор, пока все возможные реакции не будут осуществлены исходя из доступных соединений.
В этом процессе, идущем в обратном направлении (от конечных соединений к доступным исходным) и называемым химиками-органиками «ретросинтетическим анализом», специалисты по искусственному интеллекту сразу же узнают применение метода обратного построения логических цепочек. Результат такого обратного вывода – построение большого дерева решения задачи, цели или узлы которого соответствуют соединениям, а ветви – возможным путям реакции.
Достарыңызбен бөлісу: |