Эта исследовательская статья ИИ из MIT исследует масштабирование моделей глубокого обучения для химических исследований.

Масштабирование моделей глубокого обучения для химических исследований исследовательская статья ИИ от MIT

Исследователи из MIT изучили поведение масштабирования больших моделей химического языка, фокусируясь на генеративных предварительно обученных трансформерных моделях (GPT) для химии (ChemGPT) и графовых нейронных сетевых моделях силовых полей (GNN). Они представляют понятие нейро-масштабирования, где производительность моделей характеризуется эмпирическими законами масштабирования, особенно с точки зрения масштабирования потерь как степенной функции относительно количества параметров модели, размера базы данных или вычислительных ресурсов. Исследование глубоко погружается в проблемы и возможности, связанные с масштабированием больших химических моделей, с целью предоставить представление о наиболее эффективном распределении ресурсов для улучшения потерь при предварительном обучении.

Для языкового моделирования химии исследователи разработали ChemGPT, модель в стиле GPT-3, основанную на GPT-Neo, с токенизатором для самоотносящихся встроенных строковых представлений (SELFIES) молекул. Модель предварительно обучается на молекулах из PubChem, и исследование исследует влияние размера базы данных и модели на потери при предварительном обучении.

Помимо языковых моделей, статья рассматривает графовые нейронные сетевые модели силовых полей (GNN) для задач, требующих геометрии молекул и трехмерной структуры. Предлагаются четыре типа GNN, начиная с моделей с внутренними слоями, манипулирующими только E(3)-инвариантными величинами, и заканчивая моделями, использующими E(3)-эквивариантные величины с постепенно увеличивающимися физикой осознанными архитектурами моделей. Авторы оценивают возможности этих GNN, определенных в терминах глубины и ширины, в ходе экспериментов по нейро-масштабированию.

Для эффективной обработки гиперпараметров оптимизации для глубоких химических моделей статья предлагает технику, называемую Оценка Производительности Обучения (TPE), адаптируя ее из метода, используемого в архитектурах компьютерного зрения. TPE использует скорость обучения для оценки производительности в различных областях и размерах моделей/наборов данных. В статье детально описывается экспериментальная настройка, включая использование графических процессоров NVIDIA Volta V100, PyTorch и распределенного параллельного ускорения обучения модели.

В целом, исследование предоставляет всестороннее исследование нейро-масштабирования в контексте больших моделей химического языка, рассматривая как генеративные предварительно обученные трансформеры, так и графовые нейронные сетевые модели силовых полей, и представляет эффективный метод оптимизации гиперпараметров. Экспериментальные результаты и идеи способствуют пониманию ресурсной эффективности различных архитектур моделей в приложениях научного глубокого обучения.