Каталог генетических мутаций для определения причины заболеваний

Каталог мутаций для определения причины заболеваний

Новый инструмент искусственного интеллекта классифицирует эффекты 71 миллиона «миссенсных» мутаций

Раскрытие корневых причин болезней является одной из самых больших проблем в генетике человека. С миллионами возможных мутаций и ограниченными экспериментальными данными, до сих пор остается загадкой, какие из них могут привести к возникновению болезни. Это знание является важным для более быстрой диагностики и разработки спасающих жизни лечений.

Сегодня мы выпускаем каталог «миссенсных» мутаций, где исследователи могут узнать больше о том, какой эффект они могут оказывать. Миссенсные варианты являются генетическими мутациями, которые могут влиять на функцию человеческих белков. В некоторых случаях они могут привести к заболеваниям, таким как кистозный фиброз, сиклоклеточная анемия или рак.

Каталог AlphaMissense был разработан с использованием AlphaMissense, нашей новой модели искусственного интеллекта, которая классифицирует миссенсные варианты. В статье, опубликованной в журнале Science, мы показываем, что он классифицировал 89% всех 71 миллиона возможных миссенсных вариантов либо как вероятно патогенные, либо как вероятно безвредные. В то же время, только 0,1% были подтверждены экспертами. Искусственно интеллектуальные инструменты, способные точно предсказывать эффект вариантов, имеют возможность ускорить исследования в различных областях, от молекулярной биологии до клинической и статистической генетики. Эксперименты по выявлению вызывающих заболевания мутаций являются дорогостоящими и трудоемкими – каждый белок уникален, и каждый эксперимент должен быть разработан отдельно, что может занимать месяцы. Используя предсказания искусственного интеллекта, исследователи могут получить предварительный просмотр результатов для тысяч белков одновременно, что может помочь оптимизировать ресурсы и ускорить более сложные исследования.

Мы предоставляем все наши предсказания бесплатно исследовательскому сообществу и открыли исходный код модели AlphaMissense.

AlphaMissense предсказал патогенность всех возможных 71 миллиона миссенсных вариантов. Он классифицировал 89% - предсказывая, что 57% вероятно безвредны, а 32% вероятно патогенны.

Что такое миссенсный вариант?

Миссенсный вариант – это замена одной буквы в ДНК, что приводит к изменению аминокислоты внутри белка. Если мы представим ДНК как язык, замена одной буквы может изменить слово и полностью изменить смысл предложения. В данном случае замена меняет ту аминокислоту, которая транслируется, что может повлиять на функцию белка.

Средний человек несет более 9 000 миссенсных вариантов. Большинство из них безвредны и имеют мало или никакого эффекта, но другие являются патогенными и могут серьезно нарушить функцию белка. Миссенсные варианты могут быть использованы для диагностики редких генетических заболеваний, где несколько или даже один миссенсный вариант могут напрямую вызывать болезнь. Они также важны для изучения сложных заболеваний, таких как сахарный диабет 2 типа, который может быть вызван комбинацией множества различных типов генетических изменений.

Классификация миссенсных вариантов является важным шагом в понимании, какие из этих изменений белка могут привести к возникновению болезни. Из более чем 4 миллионов миссенсных вариантов, которые уже были обнаружены у людей, только 2% были аннотированы экспертами как патогенные или безвредные, примерно 0,1% от общего количества 71 миллиона возможных миссенсных вариантов. Остальные считаются “вариантами неизвестного значения” из-за отсутствия экспериментальных или клинических данных о их влиянии. Благодаря AlphaMissense у нас теперь есть самая четкая картина до сих пор, классифицирующая 89% вариантов с использованием порога, который дал 90% точности на базе данных известных патогенных вариантов болезни.

Патогенные или безвредные: как AlphaMissense классифицирует варианты

AlphaMissense основана на нашей прорывной модели AlphaFold, которая предсказывала структуры практически всех известных белков науке по их аминокислотным последовательностям. Наша адаптированная модель может предсказывать патогенность миссенс-вариантов, изменяющих отдельные аминокислоты белков.

Для обучения AlphaMissense мы настраивали AlphaFold на метки, различающие варианты, наблюдаемые в популяциях человека и тесно связанных приматов. Часто встречающиеся варианты рассматриваются как доброкачественные, а никогда не встречавшиеся варианты рассматриваются как патогенные. AlphaMissense не предсказывает изменение структуры белка при мутации или другие эффекты на стабильность белка. Вместо этого он использует базы данных связанных последовательностей белков и структурный контекст вариантов для генерации оценки между 0 и 1, приближенно оценивающей вероятность патогенности варианта. Непрерывная оценка позволяет пользователям выбирать порог для классификации вариантов как патогенные или доброкачественные, соответствующий их требованиям к точности.

Иллюстрация того, как AlphaMissense классифицирует миссенс-варианты человека. На вход подается миссенс-вариант, и система искусственного интеллекта оценивает его как патогенный или вероятно доброкачественный. AlphaMissense объединяет структурный контекст и моделирование языка белка и настраивается на базы данных частоты вариантов популяции человека и приматов.

AlphaMissense достигает передовых прогнозов по широкому спектру генетических и экспериментальных параметров, не тренируясь на таких данных явно. Наш инструмент превзошел другие вычислительные методы при классификации вариантов из ClinVar, публичного архива данных о связи между человеческими вариантами и болезнями. Наша модель также была самым точным методом для предсказания результатов из лаборатории, что показывает ее согласованность с различными способами измерения патогенности.

AlphaMissense превосходит другие вычислительные методы в предсказании эффектов миссенс-вариантов. Слева: сравнение производительности AlphaMissense и других методов при классификации вариантов из публичного архива ClinVar. Методы, показанные серым цветом, были обучены непосредственно на ClinVar, и их производительность по этому тесту, вероятно, завышена, так как некоторые из их обучающих вариантов содержатся в этом наборе тестов. Справа: График, сравнивающий производительность AlphaMissense и других методов в предсказании измерений биологических экспериментов.

Создание общественного ресурса

AlphaMissense развивает AlphaFold, чтобы углубить понимание белков в мире. Год назад мы выпустили 200 миллионов предсказанных структур белков с использованием AlphaFold, что помогает миллионам ученых по всему миру ускорить исследования и проложить путь к новым открытиям. Мы с нетерпением ждем, как AlphaMissense может помочь в решении открытых вопросов в геномике и биологической науке.

Мы предоставили предсказания AlphaMissense бесплатно научному сообществу. Вместе с EMBL-EBI мы также делаем их более доступными для исследователей через Ensembl Variant Effect Predictor.

В дополнение к нашей таблице пропусков аминокислот, мы поделились расширенными предсказаниями всех возможных 216 миллионов замен одиночных аминокислотных последовательностей более чем 19 000 человеческих белков. Мы также включили среднее предсказание для каждого гена, что подобно измерению эволюционного ограничения гена – это указывает на то, насколько важен ген для выживания организма.

Примеры предсказаний AlphaMissense, нанесенных на предсказанные структуры AlphaFold (красный = предсказано как патогенное, синий = предсказано как безвредное, серый = неопределенное). Красные точки представляют известные патогенные замены аминокислот, синие точки представляют известные безвредные варианты из базы данных ClinVar. Слева: белок HBB. Варианты в этом белке могут вызывать синдром сикловой анемии. Справа: белок CFTR. Варианты в этом белке могут вызывать муковисцидоз.

Ускорение исследований генетических заболеваний

Один из ключевых шагов в переводе этого исследования – сотрудничество с научным сообществом. Мы сотрудничаем с Genomics England, чтобы изучить, как эти предсказания могут помочь изучению генетики редких заболеваний. Genomics England перекрестили результаты AlphaMissense с данными о патогенности вариантов, ранее собранными с участием людей. Их оценка подтвердила, что наши предсказания точны и последовательны, что является еще одной реальной проверкой для AlphaMissense.

Хотя наши предсказания не предназначены для прямого использования в клинике и должны интерпретироваться с учетом других источников доказательств, эта работа имеет потенциал для улучшения диагностики редких генетических расстройств и помощи в открытии новых генов, вызывающих заболевания.

В конечном итоге мы надеемся, что AlphaMissense, вместе с другими инструментами, позволит исследователям лучше понять болезни и разработать новые жизнеспасающие методы лечения.

Узнайте больше о AlphaMissense:

Прочтите нашу статью в журнале Science: https://www.science.org/doi/10.1126/science.adg7492

Загрузите плагин Ensembl Variant Effect Predictor: https://www.ensembl.org/info/docs/tools/vep/script/vep_plugins.html

Загрузите код AlphaMissense: https://github.com/deepmind/alphamissense