Предсказание ретросинтеза за один шаг путем объединения знаний химиков с моделями искусственного интеллекта

Одношаговое предсказание ретросинтеза с помощью объединения знаний химиков и моделей искусственного интеллекта

В органическом синтезе молекулы строятся через органические процессы, что делает его важной отраслью синтетической химии. Одна из самых важных задач в компьютерно-помогаемом органическом синтезе – это анализ ретросинтеза1, предлагающий возможные реакционные предшественники при заданном результате. Для нахождения наилучших возможных путей реакции из большого набора вариантов требуются точные прогнозы реагентов. Исследователи из Microsoft называют субстраты, которые предоставляют атомы для продуктовой молекулы, “реагентами” в контексте этой статьи. В статье не учитываются растворители или катализаторы, которые облегчают реакцию, но сами не вносят атомы в конечный продукт. Недавно методы, основанные на машинном обучении, показали значительный потенциал в решении этой проблемы. Многие из этих подходов характеризуются пошаговым авторегрессивным формированием выходной последовательности, и многие из них используют кодировщик-декодировщик, в котором компонент кодировщика кодирует молекулярную последовательность или граф в виде высокоразмерных векторов, а компонент декодировщика декодирует выход кодировщика.

Процесс анализа ретросинтеза был представлен как перевод из одного языка на другой, в данном случае – от результата к реагентам. С использованием вероятности, похожей на байесовскую, использовался молекулярный трансформатор для прогнозирования ретросинтетических путей с помощью исследовательских методологий. Использование хорошо разработанных глубоких нейронных сетей в обработке естественного языка становится возможным благодаря переформулированию анализа ретросинтеза как проблемы машинного перевода.

Построение выводных строк SMILES методом авторегрессии токен за токеном; в традиционных способах элементарные токены в строках SMILES обычно относятся к одиночным атомам или молекулам. Это не сразу интуитивно понятно или объяснимо для химиков, занимающихся проектированием синтеза или анализом ретросинтеза. Сталкиваясь с реальной задачей поиска маршрута, большинство синтетических химиков полагаются на свои годы обучения и опыта, чтобы разработать путь реакции, сочетая свои знания существующих путей реакции с абстрактным пониманием основных механизмов, полученных из основных принципов. Анализ ретросинтеза часто выполняется людьми, начиная с молекулярных фрагментов или подструктур, химически сходных или поддерживаемых в целевых молекулах. Эти фрагменты или подструктуры являются частями головоломки, которые, если правильно собраны, могут привести к конечному продукту через ряд химических процессов.

Исследователи предлагают использовать типичные подструктуры в органическом синтезе без применения экспертных систем или библиотек шаблонов. Эти подструктуры извлекаются из огромных наборов известных реакций и захватывают малейшие общности между реагентами и продуктами. В этом смысле они могут построить анализ ретросинтеза как проблему обучения последовательности на уровне подструктур.

Моделирование извлеченных подструктур

Молекулярные фрагменты или более маленькие строительные блоки, химически сравнимые или сохраняемые в целевых молекулах, называются “подструктурами” в органической химии. Эти подструктуры крайне важны для анализа ретросинтеза, так как они помогают прояснить, как собираются сложные молекулы.

Используя эту идею в качестве вдохновения, рамка имеет три основные части:

Если предоставить продуктовую молекулу, этот модуль найдет другие реакции, которые производят похожий продукт. Он использует память переводчика, который может быть обучен правильно расположить реагенты и продукты в высокоразмерном векторном пространстве.

Исследователи используют молекулярное отпечаткование для выделения общих подструктур между продуктовой молекулой и лучшими перекрещенными возможностями. Эти подструктуры предоставляют отображение фрагмент-фрагмент между субстратами и продуктами на уровне реакции.

Связывание между подструктурами на уровне подструктур В процессе обучения исследователи берут начальную последовательность токенов и преобразуют ее в последовательность подструктур. Строки SMILES подструктур первыми идут в новой входной последовательности, за которыми следуют строки SMILES дополнительных фрагментов, помеченные виртуальными номерами. Фрагменты, помеченные виртуальными номерами, являются выходными последовательностями. Образование связей и связующих мест обозначаются соответствующими виртуальными числами.

По сравнению с другими применяемыми и оцениваемыми методами, предложенный подход практически везде имеет такую же или более высокую точность по одному лидеру. Производительность модели значительно улучшается на подмножестве данных, из которых успешно извлечены подструктуры.

В валидационном наборе данных USPTO восемьдесят два процента продуктов успешно извлеклись подструктуры с использованием данного метода, что свидетельствует о его обобщаемости.

Чтобы сократить длину строковых представлений молекул и количество атомов, которые нужно было предсказать, нам нужно было производить только части, связанные с виртуально помеченными частицами в подструктурах.

В заключение, исследователи из Microsoft разработали способ получения универсально сохраняемых подструктур для использования в прогнозировании ретросинтеза. Без помощи людей они могут извлекать базовые структуры. В целом метод очень похож на то, как научные работники проводят анализ ретросинтеза. По сравнению с ранее опубликованными моделями текущая реализация является улучшением. Они также показывают, что улучшение процедуры извлечения базовых подструктур может помочь модели лучше выполнять прогнозирование ретросинтеза. Цель состоит в том, чтобы вызвать интерес читателей к захватывающей, междисциплинарной области прогнозирования ретросинтеза и связанных исследований.