Что дальше в проектировании белков? Исследователи Microsoft представляют EvoDiff революционный фреймворк искусственного интеллекта для инженерии белков на основе последовательности.

Исследователи Microsoft представляют EvoDiff - революционный фреймворк ИИ для инженерии белков на основе последовательности.

Глубинные генеративные модели становятся все более мощными инструментами при создании новых белков в симуляции. Диффузионные модели, класс генеративных моделей, показали недавно, что они могут генерировать физиологически правдоподобные белки, отличные от любых белков, встречающихся в природе, что позволяет получить непревзойденные возможности и контроль в дизайне новых белков. Однако существующие модели создают структуры белков, что сильно ограничивает объем используемых данных и сводит генерацию к небольшой и предвзятой доле возможного пространства дизайна белков. Исследователи из Microsoft разработали EvoDiff, общую диффузионную платформу, которая позволяет настраивать создание белков в пространстве последовательностей, объединяя эволюционно-масштабные данные с возможностями диффузионных моделей. EvoDiff позволяет создавать структурно правдоподобные белки с различными последовательностями, охватывая все возможные последовательности и функции. Универсальность последовательностной формулировки демонстрируется тем, что EvoDiff может создавать белки, недоступные для структурных моделей, такие как белки с неупорядоченными участками, а также дизайнировать опорные структуры для полезных структурных мотивов. Они надеются, что EvoDiff проложит путь к программированию последовательностей в инженерии белков, позволяя преодолеть парадигму структура-функция.

EvoDiff – это новая система генеративного моделирования для программирования создания белков только на основе последовательностей, разработанная путем объединения эволюционно-масштабных наборов данных с диффузионными моделями. Они используют дискретную диффузионную платформу, в которой прямой процесс итеративно изменяет последовательность белка, изменяя идентификаторы аминокислот, и обратный процесс, параметризованный нейронной сетью, предсказывает изменения на каждой итерации, используя естественное представление белков как последовательностей дискретных токенов языка аминокислот.

Последовательности белков могут быть созданы с нуля с помощью обратного метода. По сравнению с непрерывными диффузионными формулировками, традиционно используемыми в дизайне структуры белков, дискретная диффузионная формулировка, используемая в EvoDiff, выделяется как существенное математическое улучшение. Множественное выравнивание последовательностей (MSA) позволяет выявить закономерности сохранения и изменения последовательностей аминокислот в группах связанных белков, захватывая эволюционные связи за пределами эволюционно-масштабных наборов данных одиночных белковых последовательностей. Чтобы воспользоваться этой дополнительной глубиной эволюционной информации, они создают дискретные диффузионные модели, обученные на MSA, для генерации новых последовательностей.

Чтобы проиллюстрировать эффективность EvoDiff в настраиваемом дизайне белков, исследователи рассматривают модели последовательности и MSA (соответственно EvoDiff-Seq и EvoDiff-MSA) на протяжении спектра генерируемых последовательностей. Они начинают с демонстрации того, что EvoDiff-Seq надежно создает высококачественные разнообразные белки, которые точно отражают состав и функцию белков в природе. EvoDiff-MSA позволяет направленно развивать новые последовательности, выравнивая белки с похожими, но уникальными эволюционными историями. Наконец, они показывают, что EvoDiff может надежно генерировать белки с неупорядоченными участками, преодолевая ключевое ограничение структурных генеративных моделей, и может создавать опорные структуры для функциональных структурных мотивов без явной структурной информации, используя возможности диффузионной моделирования и универсальное пространство дизайна.

Чтобы генерировать разнообразные и новые белки с возможностью настраивать их на основе ограничений последовательностей, исследователи представляют EvoDiff, платформу диффузионного моделирования. Испытывая парадигму структурного дизайна белков, EvoDiff может безусловно генерировать разнообразие структурно правдоподобных белков, создавая внутренне неупорядоченные области и опорные структурные мотивы на основе данных о последовательностях. В эволюции последовательностей белков EvoDiff является первой глубокой моделью глубокого обучения, демонстрирующей эффективность диффузионного генеративного моделирования.

В будущих исследованиях эти возможности могут быть дополнены настройкой через руководство, в котором созданные последовательности могут быть итеративно настраиваемы для достижения желаемых качеств. Платформа EvoDiff-D3PM естественно подходит для настройки через руководство, поскольку идентификатор каждого остатка в последовательности может быть изменен на каждом шаге декодирования. Однако исследователи обнаружили, что OADM в целом превосходит D3PM в безусловной генерации, вероятно, потому что задача шумоподавления OADM легче научиться, чем задача D3PM. К сожалению, эффективность руководства снижается из-за OADM и других предварительно существующих условных моделей LRAR, таких как ProGen (54). Ожидается, что EvoDiff-D3PM с функциональными целями, такими как описанные классификаторы функций последовательности, сгенерирует новые последовательности белков.

Минимальные требования к данным EvoDiff означают, что она может быть легко адаптирована для будущих применений, что возможно только с использованием подхода на основе структуры. Исследователи показали, что EvoDiff может создавать неупорядоченные области белков через заполнение без тонкой настройки, избегая классической проблемы структурно-ориентированных прогностических и генеративных моделей. Высокая стоимость получения структур для больших наборов данных по секвенированию может помешать исследователям использовать новые биологические, медицинские или научные возможности дизайна, которые могут быть открыты с помощью настройки EvoDiff на специализированных наборах данных, таких как наборы данных отображения или масштабные экраны. Хотя AlphaFold и связанные алгоритмы могут предсказывать структуры для многих последовательностей, они испытывают трудности с точечными мутациями и могут быть слишком уверенными в указании структур для фиктивных белков.

Исследователи показали несколько грубых способов условной продукции с помощью опорных структур и заполнения пробелов; однако EvoDiff может быть условно обусловлен текстом, химической информацией или другими модальностями, чтобы обеспечить более точное управление функцией белка. В будущем этот концепт настраиваемого проектирования последовательности белка будет использоваться различными способами. Например, кондиционно разработанные транскрипционные факторы или эндонуклеазы могут использоваться для программного модулирования нуклеиновых кислот; биологически активные вещества могут быть оптимизированы для доставки и транспортировки в организме; и настройка специфичности фермента-субстрата без обучающих данных может открыть совершенно новые возможности каталитических процессов.

Наборы данных

Uniref50 – это набор данных, содержащий около 42 миллионов последовательностей белков, используемых исследователями. MSA (множественные последовательности выравнивания) получены из набора данных OpenFold, который включает 16 000 000 кластеров UniClust30 и 401,381 MSA, охватывающих 140,000 уникальных цепей PDB. Информация об IDR (внутренне неупорядоченных участках) получена из репозитория Reverse Homology на GitHub.

Исследователи используют базовые линии RFDiffusion для вызова структурных мотивов с опорой. В папке examples/scaffolding-pdbs вы найдете файлы pdb и fasta, которые можно использовать для условной генерации последовательностей. В папке examples/scaffolding-msas также содержатся файлы pdb, которые могут использоваться для создания MSA на основе определенных условий.

Текущие модели

Исследователи изучили оба варианта, чтобы определить, какая из техник прямого распространения по дискретным модальностям данных будет наиболее эффективной. Один аминокислоты преобразуется в уникальный маскирующий токен на каждом жирном шаге в порядке-агностическом авторегрессионном распределении OADM. Полная последовательность скрывается после определенного числа стадий. Группа также разработала дискретные модели вероятностной диффузии с шумоподавлением (D3PM), специально для последовательностей белков. Во время прямой фазы EvoDiff-D3PM строки испорчены выборочными мутациями в соответствии с матрицей переходов. Это продолжается до тех пор, пока последовательность нельзя отличить от равномерной выборки по аминокислотам, что происходит через несколько шагов. Во всех случаях фаза восстановления включает повторное обучение модели нейронной сети для отмены повреждений. Для EvoDiff-OADM и EvoDiff-D3PM обученная модель может создавать новые последовательности из последовательностей маскированных токенов или равномерно выбранных аминокислот. Используя архитектуру сверточной нейронной сети с расширенными связями, впервые увиденную в модели CARP для маскирования языка белка, они обучили все модели последовательностей EvoDiff на 42 миллионах последовательностей из UniRef50. Для каждой схемы прямого искажения и декодирования LRAR они разработали версии с 38 миллионами и 640 миллионами обученных параметров.

Основные особенности

  • Для генерации управляемых последовательностей белков EvoDiff объединяет данные на эволюционном масштабе с моделями диффузии.
  • EvoDiff может делать структурно правдоподобные белки разнообразными, охватывая все возможные последовательности и функции.
  • Помимо генерации белков с неупорядоченными участками и другими особенностями, недоступными для моделей на основе структуры, EvoDiff также может создавать опоры для функциональных структурных мотивов, что доказывает общую применимость последовательностей.

В заключение, ученые из Microsoft выпустили набор моделей дискретной диффузии, которые могут быть использованы в качестве основы при проведении инженерии и проектирования белков на основе последовательностей. Возможно расширение моделей EvoDiff для направленного проектирования на основе структуры или функции, а также их немедленное использование для безусловного, эволюционно-направленного и условного создания последовательностей белков. Они надеются, что, осуществляя процессы чтения и записи непосредственно на языке белков, EvoDiff откроет новые возможности в программном создании белков.