Ген ИИ для генома LLM предсказывает характеристики вариантов COVID

Ген Искусственного Интеллекта для прогнозирования свойств вариантов COVID с геномом LLM

Широко признанная модель большого языка для геномных данных продемонстрировала свою способность генерировать генные последовательности, которые тесно соответствуют реальным вариантам SARS-CoV-2, вируса, вызывающего COVID-19.

Называемая GenSLMs, эта модель, которая в прошлом году выиграла специальный приз Гордона Белла за вычислительные исследования COVID-19, основанные на вычислительной мощности, была обучена на наборе данных нуклеотидных последовательностей – строительных блоках ДНК и РНК. Она была разработана исследователями из Национальной лаборатории Аргонн, NVIDIA, Чикагского университета и множества других академических и коммерческих партнеров.

Когда исследователи взглянули на нуклеотидные последовательности, сгенерированные GenSLMs, они обнаружили, что специфические характеристики ИИ-сгенерированных последовательностей тесно соответствуют реальным подвидам Эрис и Пирола, которые были распространены в этом году, хотя ИИ был обучен только на геномах вируса COVID-19 из первого года пандемии.

“Процесс генерации нашей модели крайне наивен и лишен какой-либо конкретной информации или ограничений о том, как должен выглядеть новый вариант COVID”, – сказал ведущий исследователь проекта и вычислительный биолог в Аргонне Арвинд Раманатан. “Способность ИИ предсказывать виды генных мутаций, присутствующих в недавних штаммах COVID, несмотря на то, что он видел только Альфа и Бета варианты во время обучения, является сильной проверкой его возможностей”.

Помимо генерации собственных последовательностей, GenSLMs также может классифицировать и группировать различные геномные последовательности COVID, распознавая варианты. В скором времени в хабе NVIDIA для ускоренного программного обеспечения NGC пользователи смогут исследовать визуализацию анализа эволюционных паттернов различных белков в геноме вируса COVID, предоставленную GenSLMs.

Читаем между строк, раскрываем эволюционные паттерны

Одной из ключевых особенностей GenSLMs является ее способность интерпретировать длинные последовательности нуклеотидов – представленные последовательностями букв A, T, G и C в ДНК или A, U, G и C в РНК – так же, как модель LLM, обученная на английском тексте, интерпретировала бы предложение. Это позволяет модели понять взаимосвязи между различными областями генома, которые в коронавирусах составляют около 30 000 нуклеотидов.

В демонстрации пользователи смогут выбрать из восьми различных вариантов COVID, чтобы понять, как модель ИИ отслеживает мутации в различных белках вирусного генома. Визуализация отображает эволюционное связывание между вирусными белками, выделяя фрагменты генома, которые вероятно встретятся в данном варианте.

“Понимание того, как разные части генома совместно эволюционируют, даёт нам подсказки о том, как вирус может развивать новые уязвимости или новые формы сопротивления”, – говорит Раманатан. “Рассмотрение моделирования понимания, какие мутации являются особенно значимыми для варианта, может помочь ученым в задачах, связанных с определением способности конкретного штамма уклониться от иммунной системы человека”.

GenSLMs была обучена на более чем 110 миллионах последовательностей геномов прокариот и доведена до совершенства на глобальном наборе данных около 1,5 миллиона вирусных последовательностей COVID с использованием открытых данных из Бактериального и Вирусного биоинформационного центра. В будущем модель может быть доведена до совершенства на геномах других вирусов или бактерий для новых исследовательских приложений.

Для обучения модели исследователи использовали суперкомпьютеры на базе графического процессора Tensor Core GPU NVIDIA A100, включая систему Поларис в Аргонне, Перлмуттер Департамента энергетики США и Селене NVIDIA.

Команда исследователей GenSLMs была удостоена специального приза Гордона Белла на прошлой годовщине суперкомпьютерной конференции SC22. На этой неделе на конференции SC23 в Денвере NVIDIA делится новым рядом прорывных работ в области ускоренных вычислений. Посмотрите полное расписание и посмотрите видеозапись специального обращения NVIDIA ниже.

NVIDIA Research объединяет сотни ученых и инженеров со всего мира, чья работа сфокусирована на таких темах, как искусственный интеллект, компьютерная графика, компьютерное зрение, автономные автомобили и робототехника. Узнайте больше о исследованиях NVIDIA и подпишитесь на новости о здравоохранении от NVIDIA.

Основное изображение любезно предоставлено Бхаратом Кале из Аргоннской национальной лаборатории.

Это исследование было поддержано в рамках проекта “Exascale Computing Project” (17-SC-20-SC), совместного усилия Управления по науке Министерства энергетики США и Управления национальной ядерной безопасности США. Исследование было поддержано Министерством энергетики США через Национальную виртуальную биотехнологическую лабораторию, консорциум национальных лабораторий Министерства энергетики, который занимается реагированием на COVID-19, с финансированием от Закона о помощи в связи с коронавирусной пандемией (Coronavirus CARES Act).