Исследователи НЮУ создали нейронную сеть для геномики, способную объяснить, как она достигает своих прогнозов.

Команда НЮУ разработала нейронную сеть в области геномики, способную объяснить свои прогнозы новые открытия!

В мире биологических исследований модели машинного обучения делают значительные шаги вперед в продвижении нашего понимания сложных процессов, с особенным уклоном на сплайсинг RNA. Однако общим ограничением многих моделей машинного обучения в этой области является их недостаток интерпретируемости – они могут точно предсказывать результаты, но борются с объяснением, как они пришли к этим предсказаниям.

Чтобы решить эту проблему, исследователи из НЙУ предложили подход “интерпретируемый по конструкции”, который не только обеспечивает точные предсказательные результаты, но и предоставляет понимание базовых биологических процессов, в частности сплайсинга RNA. Эта инновационная модель имеет потенциал значительно улучшить наше понимание этого основного процесса.

Модели машинного обучения, такие как нейронные сети, сыграли важную роль в продвижении научных открытий и экспериментального проектирования в биологических науках. Однако их неинтерпретируемость представляет постоянную проблему. Несмотря на их высокую точность, они часто не могут прояснить принципы, лежащие в основе их предсказаний.

Новый подход “интерпретируемый по конструкции” преодолевает это ограничение путем создания нейронной сети, явно разработанной для интерпретируемости при сохранении предвидительной точности на уровне современных моделей. Этот подход меняет игру в этой области, так как он соединяет точность и интерпретируемость, обеспечивая исследователям не только правильные ответы, но и понимание того, как эти ответы были получены.

Модель была тщательно обучена с акцентом на интерпретируемость, с использованием Python 3.8 и TensorFlow 2.6. Были настроены различные гиперпараметры, и процесс обучения включал плавные шаги, чтобы постепенно внедрить обучаемые параметры. Интерпретируемость модели была дополнительно усилена через введение регуляризационных терминов, обеспечивая, что выученные особенности были лаконичны и понятны.

Одной примечательной особенностью этой модели является ее способность обобщать и давать точные предсказания на различных наборах данных из разных источников, подчеркивая ее устойчивость и ее потенциал запечатлеть существенные аспекты регулятивной логики сплайсинга. Это означает, что ее можно применять к различным биологическим контекстам, предоставляя ценные идеи в различных сценариях сплайсинга RNA.

Архитектура модели включает фильтры последовательности и структуры, которые играют важную роль в понимании сплайсинга RNA. Важно, что она назначает количественные силы этим фильтрам, проясняя величину их влияния на результаты сплайсинга. С помощью инструмента визуализации “графика баланса” исследователи могут исследовать и количественно определять, как множественные особенности RNA вносят вклад в результаты сплайсинга отдельных экзонов. Этот инструмент упрощает понимание сложного взаимодействия различных функций в процессе сплайсинга.

Более того, эта модель не только подтвердила ранее установленные особенности сплайсинга RNA, но и обнаружила две неклассифицированные особенности пропуска экзонов, связанные со структурами в виде петли и последовательностями с низким содержанием G. Эти результаты значительны и были экспериментально подтверждены, подкрепляя достоверность модели и биологическую значимость этих характеристик.

В заключение, модель машинного обучения “интерпретируемая по конструкции” представляет собой мощный инструмент в биологических науках. Она не только обладает высокой точностью предсказания, но и обеспечивает ясное и интерпретируемое понимание процессов сплайсинга RNA. Возможность модели количественно оценивать вклад конкретных особенностей в результаты сплайсинга имеет потенциал для различных применений в медицине и биотехнологии, от редактирования генома до разработки терапевтических средств на основе RNA. Такой подход не ограничивается только сплайсингом, а также может быть применен для расшифровки других сложных биологических процессов, открывая новые перспективы для научных открытий.