Являются ли предварительно обученные модели основы будущего молекулярного машинного обучения? Представляем беспрецедентные наборы данных и библиотеку машинного обучения Graphium.

Будущее молекулярного машинного обучения как заранее обученные модели становятся основой? Встречайте Graphium - набор данных и библиотеку с уникальными возможностями машинного обучения!

Последние результаты машинного обучения в области поиска новых препаратов в значительной степени связаны с моделями графового и геометрического глубокого обучения. Эти техники успешно применяются для моделирования атомистических взаимодействий, обучения представлению молекул, 3D и 4D ситуаций, прогнозирования активности и свойств, создания силовых полей и производства молекул. Как и другие методы глубокого обучения, для достижения высокой точности моделирования требуется большой объем обучающих данных. Однако большинство обучающих наборов данных в современной литературе по лечению имеют небольшие размеры выборки. Удивительно, что за последнее время с помощью самонадзорного обучения, базовых моделей для обработки изображений и естественного языка, а также глубокого понимания была существенно увеличена эффективность использования данных.

На самом деле, было показано, что продуктивные предварительные обучающие модели, использующие большое количество данных, значительно снижают требования данных для последующих задач, что является единоразовым затраты. После достижения этих результатов, другие исследования приступили к изучению преимуществ предварительного обучения крупных графовых нейронных сетей для моделирования молекулярных структур с низким количеством данных. Из-за отсутствия больших размеченных молекулярных наборов данных, эти исследования могут использовать только методы самонадзорного обучения, такие как контрастное обучение, автоэнкодеры или задачи устранения шума. Вместе с тем, небольшая часть прогресса, достигнутого самонадзорными моделями в области обработки естественного языка и компьютерного зрения, пока не была использована для моделирования молекулярных структур с низким количеством данных путем дообучения на этих моделях.

Поскольку поведение молекул и их конформеров зависит от окружающей среды и в основном определяется квантовой физикой, это частично объясняется недостаточностью графового представления молекул и их конформеров. Например, широко известно, что молекулы с сопоставимыми структурами могут проявлять существенно разные уровни биологической активности, что ограничивает графовое моделирование только на основе структурных данных. В соответствии с этими аргументами разработка эффективных базовых моделей для моделирования молекулярных структур требует наблюдения с обучением на основе квантово-механических описаний и биологической среды взаимодействия молекул.

Исследователи из Института искусственного интеллекта в Квебеке, Valence Labs, Университета Монреаля, Макгиллского университета, Graphcore, Института технологий Нью-Джерси, РВТХ Аахенского университета и ГЭК Монреа внесли три важных вклада в молекулярные исследования. Они начали с создания нового семейства мультитасковых наборов данных, которые значительно превосходят существующие. Во-вторых, они предлагают использовать пакет машинного обучения Graphium, который позволяет эффективно обучать модели на огромных наборах данных. В-третьих, они демонстрируют преимущества обучения на нескольких задачах с помощью различных базовых моделей. Они предоставляют три полных и тщательно поддерживаемых многолейбловых набора данных, который в настоящее время являются самыми большими, они содержат около 100 миллионов молекул и более 3000 активностей с разреженными описаниями. Эти данные объединяют описания квантовых и биологических характеристик, которые были получены с помощью симуляций и лабораторных тестов, и предназначены для обучения базовых моделей. Задачи, для которых предоставляются данные, охватывают уровеньовой анализ и анализ графов.

Многообразие предоставляемых данных упрощает приобретение навыков передачи. Это позволяет строить фундаментальные модели путем повышения универсализации таких моделей для различных задач в области моделирования молекул. Исследователи тщательно проверили и обновили имеющиеся данные, чтобы создать эти обширные базы данных. В результате описания каждой молекулы в их коллекции содержат информацию о ее квантово-механических характеристиках и биологических функциях. Величины энергии, электрические и геометрические характеристики квантово-механической части рассчитываются с использованием различных передовых техник, включая полуэмпирические методы, такие как PM6, и подходы, основанные на плотностно-функциональной теории, например B3LYP. Как показано на рисунке 1, их базы данных по биологической активности включают молекулярные подписи из токсикологического профилирования, профилирования экспрессии генов и биологических биоассеев зависимых от дозы.

Рисунок 1: Визуальный обзор предложенных коллекций молекулярных наборов данных. “Mixes” были разработаны для одновременного выполнения нескольких задач. Они включают задачи на уровне графа и уровне узлов, а также квантовые, химические и биологические аспекты, категориальные и непрерывные данные.

Одновременное моделирование квантовых и биологических эффектов способствует возможности характеризовать сложные зависящие от окружающей среды особенности молекул, которые было бы невозможно получить из часто небольших экспериментальных наборов данных. Библиотека Graphium создала полный набор инструментов машинного обучения на графах под названием Graphium, чтобы обеспечить эффективное обучение на этих огромных наборах данных с множественными задачами. Эта инновационная библиотека упрощает создание и обучение основных моделей молекулярного графа, включая ансамбли признаков и сложные взаимодействия признаков. Graphium преодолевает ограничения предыдущих рамок, прежде всего предназначенных для последовательных образцов с малым взаимодействием между характеристиками узлов, ребер и графов, рассматривая признаки и представления как важные строительные компоненты и добавляя передовые слои GNN.

Дополнительно, Graphium обрабатывает важные и обычно сложные технические работы по обучению моделей на огромных ансамблях данных простым и высоко настраиваемым способом, предлагая такие функции, как объединение наборов данных, обработка отсутствующих данных и совместное обучение. Основные результаты для предлагаемых смещений наборов данных обучили различные модели для сценариев с одним набором данных и множественными наборами данных. Это предоставляет надежные базовые значения, которые могут служить эталоном для будущих пользователей этих наборов данных и также предлагать некоторое представление о преимуществах обучения с использованием этой множественной методологии наборов данных. Результаты для этих моделей в частности демонстрируют, что обучение задач с небольшим количеством ресурсов может значительно улучшиться совместно с использованием больших наборов данных.

В заключение, данная работа предлагает самые большие 2D молекулярные наборы данных. Эти наборы данных были созданы специально для обучения основных моделей, которые могут точно понимать квантовые характеристики и биологическую гибкость молекул и таким образом быть настраиваемыми для различных прикладных областей. Кроме того, была создана библиотека Graphium для упрощения обучения этих моделей и предоставления различных базовых результатов, которые демонстрируют потенциал используемых наборов данных и библиотеки.