Преобразование исследований катализаторов познакомьтесь с CatBERTa, моделью искусственного интеллекта на основе трансформеров, разработанной для прогнозирования энергии с использованием текстовых данных

Познакомьтесь с CatBERTa - моделью искусственного интеллекта, основанной на трансформерах, для прогнозирования энергии с использованием текстовых данных.

Исследование химических катализаторов – это динамичная область, где всегда ищутся новые и долговечные решения. Основа современной промышленности, катализаторы ускоряют химические реакции, не потребляясь в процессе, обеспечивая все, начиная от производства более экологически чистой энергии до создания фармацевтических препаратов. Однако поиск наилучших материалов для катализаторов был сложным и затянутым процессом, требующим сложных квантово-химических расчетов и обширных экспериментальных испытаний.

Один из ключевых компонентов создания устойчивых химических процессов – это поиск наилучших материалов для катализаторов для конкретных химических реакций. Техники, такие как функционал плотности (DFT), работают хорошо, но имеют некоторые ограничения, так как требуется много ресурсов для оценки различных катализаторов. Проблематично полностью полагаться только на расчеты DFT, поскольку один объемный катализатор может иметь множество поверхностных ориентаций, и адсорбаты могут присоединяться к разным местам на этих поверхностях.

Для решения этих проблем группа исследователей представила CatBERTa – модель, основанную на трансформере, разработанную для прогнозирования энергии с использованием текстовых данных. CatBERTa была построена на основе предварительно обученного трансформерного энкодера, типа модели глубокого обучения, которая показала исключительную производительность в задачах обработки естественного языка. Его уникальная особенность заключается в том, что он может обрабатывать текстовые данные, понятные для людей, и добавлять целевые характеристики для прогнозирования энергии адсорбции. Это позволяет исследователям представлять данные в формате, понятном людям, что улучшает удобство использования и интерпретируемость прогнозов модели.

Модель имеет тенденцию сосредотачиваться на определенных токенах во входном тексте, что является одним из основных выводов из изучения оценок внимания CatBERTa. Эти показатели имеют отношение к адсорбатам, которые являются веществами, прилипающими к поверхностям, общему составу катализатора и взаимодействиям между этими элементами. CatBERTa, кажется, способен определять и придавать важность существенным аспектам каталитической системы, влияющим на энергию адсорбции.

В этом исследовании также было подчеркнуто значение взаимодействующих атомов как полезных терминов для описания адсорбционных структур. Способ взаимодействия атомов адсорбата с атомами объемного материала является важным для катализа. Интересно отметить, что переменные, такие как длина связи и атомный состав этих взаимодействующих атомов, оказывают малое влияние на точность прогнозирования энергии адсорбции. Этот результат говорит о том, что CatBERTa может приоритезировать то, что наиболее важно для поставленной задачи и извлекать наиболее соответствующую информацию из текстового ввода.

Что касается точности, CatBERTa показала способность прогнозировать энергию адсорбции средней абсолютной ошибкой (MAE) 0,75 эВ. Этот уровень точности сравним с широко используемыми графовыми нейронными сетями (GNN), которые используются для делать прогнозы такого рода. CatBERTa также имеет преимущество в том, что для химически идентичных систем оцененные энергии от CatBERTa могут эффективно устранять систематические ошибки на 19,3%, когда они вычитаются друг из друга. Это говорит о том, что важная часть отбора и оценки реакционной способности катализаторов, ошибки в прогнозировании разности энергии, имеют потенциал для существенного снижения с помощью CatBERTa.

В заключение, CatBERTa представляет возможную альтернативу традиционным GNN. Он показал возможность повышения точности прогнозирования разности энергии, открывая дверь для более эффективных и точных процедур отбора катализаторов.