Доктор Серафим Батзоглу, главный офицер по данным в компании Seer – серия интервью

Dr. Serafim Batzoglu, Chief Data Officer at Seer - interview series

Серафим Батзоглу является главным научным сотрудником по данным в Seer. До присоединения к Seer Серафим работал главным научным сотрудником по данным в Insitro, руководящим машинным обучением и наукой о данных в их подходе к открытию лекарств. До Insitro он работал в качестве вице-президента по прикладной и вычислительной биологии в Illumina, руководя исследованиями и разработкой технологий искусственного интеллекта и молекулярных анализов для более интерпретируемых геномных данных в области здоровья человека.

Что изначально привлекло вас к области геномики?

Я заинтересовался областью вычислительной биологии в начале своей аспирантуры по компьютерным наукам в MIT, когда посещал курс по этой теме, преподаваемый Бонни Бергер, которая стала моим научным руководителем, и Дэвидом Гиффордом. Проект генома человека набирал обороты во время моей аспирантуры. Эрик Ландер, который возглавлял Геномный центр в MIT, стал моим со-научным руководителем и включил меня в проект. Вдохновленный проектом генома человека, я работал над сборкой полного генома и сравнительной геномикой генома человека и мыши.

Затем я переехал в Стэнфордский университет в качестве преподавателя в отделе компьютерных наук, где провел 15 лет и имел возможность сопровождать около 30 невероятно талантливых аспирантов и множество послевузовских и младших исследователей. Основной упор моей команды был сделан на применение алгоритмов, машинного обучения и создание программных инструментов для анализа крупномасштабных геномных и биомолекулярных данных. В 2016 году я ушел из Стэнфорда, чтобы возглавить команду по исследованиям и разработке технологий в Illumina. С тех пор я с удовольствием руковожу командами по исследованиям и разработке в индустрии. Я считаю, что работа в команде, деловой аспект и более прямое влияние на общество являются характерными чертами работы в индустрии по сравнению с академией. За свою карьеру я работал в инновационных компаниях: DNAnexus, которую я соосновал в 2009 году, Illumina, insitro и теперь Seer. Вычисления и машинное обучение являются неотъемлемыми элементами в технологической цепочке биотехнологии, от разработки технологий до получения данных, от интерпретации биологических данных до их применения в области здоровья человека.

За последние 20 лет секвенирование генома человека стало значительно дешевле и быстрее. Это привело к резкому росту рынка секвенирования генома и широкому применению в индустрии жизненных наук. Мы на пороге обладания достаточно большими данными о популяционной геномике, мульти-омике и фенотипической информации для значимого революционирования здравоохранения, включая профилактику, диагностику, лечение и открытие лекарств. Мы все больше и больше можем открывать молекулярные основы болезней для отдельных лиц через вычислительный анализ геномных данных, и пациенты имеют возможность получать персонализированное и целевое лечение, особенно в области онкологии и редких генетических заболеваний. Помимо очевидного использования в медицине, машинное обучение в сочетании с геномной информацией позволяет нам получать понимание и в других сферах нашей жизни, таких как генеалогия и питание. В ближайшие несколько лет персонализированная, основанная на данных здравоохранение будет распространяться, прежде всего, среди отдельных групп людей, таких как пациенты с редкими заболеваниями, а затем все больше будет доступно для широкой публики.

До вашей текущей должности вы были главным научным сотрудником по данным в Insitro, руководящим машинным обучением и наукой о данных в их подходе к открытию лекарств. Какие были некоторые из ваших ключевых выводов за это время о том, как машинное обучение можно использовать для ускорения открытия лекарств?

Традиционная парадигма открытия и разработки лекарств, основанная на “пробе и ошибке”, страдает от неэффективности и чрезвычайно длительных сроков. Для того, чтобы одно лекарство попало на рынок, может потребоваться более $1 миллиарда и более десяти лет. Включение машинного обучения в эти усилия может значительно сократить затраты и время на нескольких этапах. Один из этапов – это идентификация целевых объектов, где ген или группа генов, модулирующих фенотип болезни или возвращающих клеточное состояние болезни к более здоровому состоянию, могут быть идентифицированы через масштабные генетические и химические воздействия, а также фенотипические показатели, такие как изображения и функциональная геномика. Еще одним этапом является идентификация и оптимизация соединений, где малая молекула или другая модальность могут быть разработаны с использованием машинного обучения исходя из предсказаний в силу ин силы и витро, и, более того, желательные свойства лекарства, такие как растворимость, проницаемость, специфичность и непричинность, могут быть оптимизированы. Самым сложным и важным аспектом является, пожалуй, перевод на пациентов. Здесь выбор правильной модели – линий, полученных из индуцированных плюрипотентных стволовых клеток, против первичных линий клеток пациентов и образцов тканей против моделей на животных для правильного заболевания представляет собой невероятно важный набор компромиссов, которые в конечном итоге отражаются на способности полученных данных, а также машинного обучения, переноситься на пациентов.

Seer Bio открывает новые способы расшифровки секретов протеома для улучшения здоровья человека, для читателей, которые не знакомы с этим термином, что такое протеом?

Протеом – это изменяющийся набор белков, производимых или изменяемых организмом с течением времени и в ответ на окружающую среду, питание и состояние здоровья. Протеомика – это изучение протеома в определенном типе клеток или образце ткани. Геном человека или других организмов является статичным: за исключением соматических мутаций, геном при рождении остается неизменным на протяжении всей жизни, точно копируется в каждой клетке организма. Протеом является динамичным и меняется в течение лет, дней и даже минут. Таким образом, протеомы намного ближе к фенотипу и, в конечном счете, к состоянию здоровья, чем геномы, и, следовательно, более информативны для контроля здоровья и понимания болезни.

В Seer мы разработали новый способ доступа к протеому, который обеспечивает более глубокое понимание белков и протеоформ в сложных образцах, таких как плазма, которая представляет собой высокодоступный образец, который, к сожалению, до сих пор представлял большую проблему для традиционной протеомики методом масс-спектрометрии.

Что такое платформа Seer Proteograph™ и как она предлагает новое представление о протеоме?

Платформа Proteograph компании Seer использует библиотеку собственных инженерных наночастиц, основанную на простом, быстром и автоматизированном рабочем процессе, позволяющем осуществлять глубокое и масштабируемое исследование протеома.

Платформа Proteograph отлично справляется с исследованием плазмы и других сложных образцов, которые имеют большой динамический диапазон – разницу в много порядков между содержанием различных белков в образце, где традиционные методы масс-спектрометрии не способны обнаружить малоабундантную часть протеома. Наночастицы Seer спроектированы с настраиваемыми физико-химическими свойствами, которые собирают белки вне зависимости от динамического диапазона. В типичных образцах плазмы наша технология позволяет обнаружить в 5-8 раз больше белков, чем при обработке чистой плазмы без использования Proteograph. В результате, от подготовки образца до использования инструментов и анализа данных, наша продуктовая линейка Proteograph помогает ученым находить сигнатуры заболеваний протеома, которые в противном случае были бы недоступны. Мы любим говорить, что в Seer мы открываем новые возможности в изучении протеома.

Кроме того, мы позволяем ученым легко проводить масштабные протеогеномные исследования. Протеогеномика – это объединение геномных данных с протеомными данными для идентификации и количественного определения вариантов белков, связывания геномных вариантов с уровнями содержания белков и, в конечном счете, связывания генома и протеома с фенотипом и заболеванием, а также начала разделения причинных и последующих генетических путей, связанных с заболеванием.

Можете ли вы обсудить некоторые технологии машинного обучения, которые в настоящее время используются в Seer Bio?

Seer использует машинное обучение на всех этапах, начиная от разработки технологии до последующего анализа данных. Эти этапы включают: (1) разработку наших собственных наночастиц, где машинное обучение помогает определить физико-химические свойства и сочетания наночастиц, которые будут работать с конкретными линиями продуктов и анализами; (2) обнаружение и количественное определение пептидов, белков, вариантов и протеоформ из данных, полученных с приборов масс-спектрометрии; (3) последующий протеомный и протеогеномный анализ в крупных популяционных когортах.

В прошлом году мы опубликовали статью в журнале Advanced Materials, в которой объединили методы протеомики, наноинженерии и машинного обучения для совершенствования нашего понимания механизмов формирования белковой короны. Эта статья раскрыла нано-био взаимодействия и помогает Seer в создании улучшенных будущих наночастиц и продуктов.

Помимо разработки наночастиц, мы разрабатываем новые алгоритмы для идентификации вариантных пептидов и посттрансляционных модификаций (ПТМ). Недавно мы разработали метод для обнаружения локусов, связанных с количественным содержанием белков (pQTL), который устойчив к вариантам белков, что является известным помеховым фактором для аффинно-основанной протеомики. Мы расширяем эту работу, чтобы непосредственно идентифицировать эти пептиды из исходных спектров с использованием методов глубокого обучения на основе де-ново секвенирования, что позволяет проводить поиск без увеличения размера спектральных библиотек.

Наша команда также разрабатывает методы, которые позволяют ученым без глубоких знаний в области машинного обучения оптимально настраивать и использовать модели машинного обучения в своих исследованиях. Это достигается с помощью Seer ML фреймворка на основе инструмента AutoML, который позволяет эффективное настройку гиперпараметров с помощью байесовской оптимизации.

Наконец, мы разрабатываем методы для уменьшения пакетного эффекта и повышения качественной точности считывания масс-спектров путем моделирования измеренных количественных значений для максимизации ожидаемых показателей, таких как корреляция интенсивности значений между пептидами в группе белков.

Галлюцинации являются распространенной проблемой при использовании LLM-моделей, какие есть решения для предотвращения или смягчения этой проблемы?

LLM-модели – это генеративные методы, которые получают большой корпус текста и обучаются генерировать похожий текст. Они улавливают статистические свойства текста, на котором они обучаются, от простых локальных свойств, таких как частота встречаемости определенных комбинаций слов (или токенов), до более высокоуровневых свойств, которые эмулируют понимание контекста и смысла.

Однако LLM-модели не обучаются в первую очередь быть правильными. Обучение с подкреплением с помощью обратной связи от человека (RLHF) и другие техники помогают обучать их на желательные свойства, включая правильность, но они не всегда полностью успешны. При заданном запросе LLM-модели будут генерировать текст, который наиболее точно соответствует статистическим свойствам обучающих данных. Часто этот текст также будет правильным. Например, если спросить “когда родился Александр Великий”, правильным ответом будет 356 год до нашей эры, и LLM-модель скорее всего даст этот ответ, потому что в обучающих данных часто встречается эта дата. Однако, если спросить “когда родилась императрица Регинелла”, вымышленного персонажа, отсутствующего в корпусе обучающих данных, LLM-модель скорее всего создаст галлюцинацию и придумает историю ее рождения. Аналогично, когда задается вопрос, на который LLM-модель не может получить правильный ответ (потому что правильного ответа не существует или по другим статистическим причинам), она скорее всего придумает ответ, как будто знает. Это создает галлюцинации, которые являются очевидной проблемой для серьезных приложений, таких как “как можно лечить такой-то рак”.

До сих пор не существует идеальных решений для галлюцинаций. Они являются неотъемлемой частью конструкции LLM. Одно из частичных решений – правильные подсказки, такие как просьба LLM “подумать внимательно, шаг за шагом” и т. Д. Это увеличивает вероятность того, что LLM не придумает истории. Более сложный подход, который разрабатывается, – это использование графов знаний. Графы знаний предоставляют структурированные данные: сущности в графе знаний связаны с другими сущностями предопределенным логическим способом. Конструирование графа знаний для определенной предметной области, конечно, является сложной задачей, но выполнимой с помощью комбинации автоматических и статистических методов и курирования. Со встроенным графом знаний LLMs могут проверять утверждения, которые они генерируют, по структурированному набору известных фактов, и могут быть ограничены в генерации утверждений, которые противоречат или не поддерживаются графом знаний.

Из-за фундаментальной проблемы галлюцинаций и, вероятно, из-за их недостаточной способности к рассуждению и суждению, LLMs сегодня мощны для извлечения, связывания и конденсации информации, но не могут заменить человеческих экспертов в таких серьезных областях, как медицинская диагностика или юридические консультации. Тем не менее, они могут значительно повысить эффективность и возможности человеческих экспертов в этих областях.

Можете ли вы поделиться своим видением будущего, в котором биология будет руководиться данными, а не гипотезами?

Традиционный гипотезно-ориентированный подход, который включает в себя поиск паттернов и разработку гипотез, проведение экспериментов или исследований для их проверки, а затем уточнение теорий на основе данных, все больше заменяется новой парадигмой, основанной на моделировании на основе данных.

В этой новой парадигме исследователи начинают с гипотезно-свободной генерации данных большого масштаба. Затем они обучают модель машинного обучения, такую ​​как LLM, с целью точной реконструкции скрытых данных, сильной регрессии или классификации в ряде последующих задач. Когда модель машинного обучения может точно предсказывать данные и достигает достоверности, сравнимой с сходством между экспериментальными повторами, исследователи могут исследовать модель, чтобы извлечь понимание о биологической системе и выявить основные биологические принципы.

LLMs оказываются особенно хорошими в моделировании биомолекулярных данных и направлены на сдвиг от гипотезно-ориентированного к данным-ориентированному биологическому открытию. Этот сдвиг станет все более заметным в ближайшие 10 лет и позволит точное моделирование биомолекулярных систем с детализацией, превосходящей возможности человека.

Каков потенциал для диагностики заболеваний и поиска лекарств?

Я считаю, что LLM и генеративное искусственное интеллект (AI) приведут к значительным изменениям в индустрии жизненных наук. Одной областью, которая получит большую пользу от LLMs, является клиническая диагностика, особенно для редких, труднодиагностируемых заболеваний и подтипов рака. У нас есть огромное количество всесторонней информации о пациентах, которую мы можем использовать – от геномных профилей, реакций на лечение, медицинских записей и семейной истории -, чтобы обеспечить точную и своевременную диагностику. Если мы сможем найти способ объединить все эти данные так, чтобы они были легко доступны и не отделены индивидуальными организациями здравоохранения, мы сможем значительно повысить точность диагностики. Это не означает, что модели машинного обучения, включая LLMs, смогут автономно работать в диагностике. Из-за их технических ограничений в предсказуемом будущем они не будут автономными, а вместо этого они будут дополнять человеческих экспертов. Они будут мощными инструментами, которые помогут врачу предоставить информированные оценки и диагнозы в долю времени, необходимого до сих пор, и правильно документировать и коммуницировать свои диагнозы пациенту, а также всей сети провайдеров здравоохранения, связанных через систему машинного обучения.

Индустрия уже использует машинное обучение для открытия и разработки лекарств, превознося его способность сократить затраты и сроки по сравнению с традиционной парадигмой. LLMs дополняют имеющийся набор инструментов и предоставляют отличные рамки для моделирования данных большого масштаба биомолекулярных систем, включая геномы, протеомы, функциональные геномные и эпигеномные данные, данные одиночных клеток и многое другое. В предсказуемом будущем базовые LLMs, несомненно, будут связываться по всем этим модальностям данных и по большим группам лиц, данные о геноме, протеоме и здоровье которых собираются. Такие LLMs помогут создавать многообещающие цели лекарств, определять вероятные зоны активности белков, связанных с биологической функцией и заболеваниями, или предлагать пути и более сложные клеточные функции, которые можно регулировать определенным образом с помощью небольших молекул или других модальностей лекарств. Мы также можем использовать LLMs для определения реагентов и нереагентов на лекарства на основе генетической предрасположенности или для повторного использования лекарств в других показаниях. Многие из существующих инновационных компаний, занимающихся открытием лекарств на основе искусственного интеллекта, несомненно, уже начинают думать и развиваться в этом направлении, и мы должны ожидать создания дополнительных компаний, а также публичных усилий, направленных на внедрение LLMs в области здоровья человека и открытия лекарств.

Спасибо за подробное интервью, читатели, желающие узнать больше, могут посетить Seer.