Алекс Ратнер, генеральный директор и сооснователь компании Snorkel AI – серия интервью

Алекс Ратнер, генеральный директор и сооснователь компании Snorkel AI захватывающая серия интервью

Алекс Ратнер является Генеральным директором и Сооснователем компании Snorkel AI, компанией, родившейся в лаборатории искусственного интеллекта Стэнфордского университета.

Snorkel AI делает разработку искусственного интеллекта быстрой и практичной, превращая ручные процессы разработки искусственного интеллекта в программные решения. Snorkel AI позволяет предприятиям разрабатывать искусственный интеллект, который работает для их уникальных рабочих нагрузок, используя их собственные данные и знания 10-100 раз быстрее.

Что изначально привлекло вас к компьютерной науке?

В компьютерной науке есть два очень увлекательных аспекта, когда вы молоды. Во-первых, вы можете учиться так быстро, как хотите, экспериментируя и создавая, получая мгновенную обратную связь, а не должны ждать учителя. Во-вторых, вы можете делать многое без разрешения от кого-либо!

Я начал программировать в детстве по этих причинам. Мне также нравилась требующаяся точность. Мне нравился процесс абстрагирования сложных процессов и рутин, а затем их кодирование в модульном виде.

Позже, будучи взрослым, я вернулся к компьютерной науке профессионально, работая консультантом, где мне было поручено написание скриптов для базового анализа патентного корпуса. Меня увлекло то, как много знаний человечества – все, что кто-либо когда-либо считал патентоспособным – было легко доступно, но так недоступно из-за сложности даже простого анализа сложного технического текста и многомодальных данных.

Это то, что привело меня обратно в учебу и, в конечном итоге, в аспирантуру в Стэнфорд, специализирующуюся на обработке естественного языка, которая является областью применения Машинного Обучения/Искусственного Интеллекта на естественном языке.

Вы первоначально начали и возглавляли проект Snorkel с открытым исходным кодом, находясь в Стэнфорде. Можете ли вы рассказать нам о пути развития этой идеи в ранние дни проекта?

В то время мы, как и многие в индустрии, концентрировались на разработке новых алгоритмов и, точнее, на всей “умной” машинном обучении, которое исследовали и издавали статьи сообщество.

Однако мы всегда были очень заинтересованы в прикладных задачах – в основном с врачами и учеными из Стэнфорда. Но каждый раз, когда мы предлагали новую модель или алгоритм, ответ был: “конечно, мы попробуем это, но нам потребуется все это помеченное тренировочное множество данных, на создание которого у нас нет времени!”

Мы понимали, что большая необозримая проблема заключается в процессе маркировки и курирования этих тренировочных данных, поэтому мы сдвинули все свое внимание на это, именно так родился проект Snorkel и идея “датоцентричного искусственного интеллекта”.

У Snorkel датоцентрический подход в разработке искусственного интеллекта. Можете ли вы объяснить, что это означает и в чем отличие от модельно-ориентированной разработки искусственного интеллекта?

Датоцентрический искусственный интеллект означает уделять внимание созданию лучших данных для построения лучших моделей.

Это противопоставляется, но тесно связано с модельно-ориентированным искусственным интеллектом. В модельно-ориентированном искусственном интеллекте ученые-данные или исследователи предполагают, что данные статичны, и направляют свою энергию на настройку архитектуры и параметров модели для достижения лучших результатов.

Исследователи все еще делают отличную работу в модельно-ориентированном искусственном интеллекте, но модели “из коробки” и автоматические методы машинного обучения улучшились настолько, что выбор модели стал коммодитизированным на этапе внедрения. В таком случае, лучший способ улучшить эти модели – это обеспечить их более и лучшими данными.

Каковы основные принципы датоцентрического подхода в искусственном интеллекте?

Основной принцип датоцентрического искусственного интеллекта прост: лучшие данные создают лучшие модели.

В нашей научной работе мы называем это “программированием данных”. Идея заключается в том, что если вы питаете достаточно прочную модель достаточным количеством примеров входных и выходных данных, модель научится повторять эти шаблоны.

Это представляет собой большой вызов, чем вы могли бы подумать. Большинство данных не имеют меток – или по крайней мере, нет полезных меток для вашего приложения. Маркировка этих данных вручную требует утомительности, времени и человеческого труда.

Наличие помеченного набора данных также не гарантирует его качество. Человеческая ошибка проникает везде. Каждый неправильный пример в ваших исходных данных повлияет на производительность окончательной модели. Ни одна настройка параметров не сможет исправить эту проблему. Исследователи даже нашли неправильно помеченные записи в основных наборах данных с открытым исходным кодом.

Можете дополнить, что означает, что Data-Centric AI является программным?

Ручная маркировка данных представляет серьезные проблемы. Для этого требуется множество человеческих часов, и иногда эти часы могут быть дорогими. Медицинские документы, например, могут быть помечены только врачами.

Кроме того, ручная разметка часто приводит к созданию проектов с одноразовым использованием. Разметчики аннотируют данные в соответствии с жесткой схемой. Если потребности бизнеса изменяются и требуют нового набора меток, разметчики должны начать сначала.

Программные подходы к данным в центре внимания искусственного интеллекта минимизируют оба этих проблемы. Программная система разметки Snorkel AI включает различные сигналы – от наследственных моделей до существующих меток и внешних баз знаний – для разработки вероятностных меток в масштабе. Наш основной источник сигнала идет от специалистов по предметной области, которые сотрудничают с учеными в области данных, чтобы создавать разметочные функции. Они кодируют свою экспертную оценку в масштабируемые правила, позволяя усилиям, вложенным в одно решение, влиять на десятки или сотни точек данных.

Эта система также гибкая. Вместо того чтобы начинать сначала при изменении потребностей бизнеса, пользователи добавляют, удаляют и корректируют разметочные функции, чтобы применить новые метки в течение нескольких часов, а не дней.

Как этот подход, основанный на данных, обеспечивает быстрое масштабирование непомеченных данных?

Наш программный подход к данным-ориентированному искусственному интеллекту обеспечивает быстрое масштабирование непомеченных данных, увеличивая влияние каждого выбора. Когда эксперты по предметной области устанавливают начальный набор независимой истины, они начинают сотрудничать с учеными в области данных для быстрой итерации. Они определяют несколько разметочных функций, обучают быструю модель, анализируют влияние своих разметочных функций, а затем добавляют, удаляют или корректируют разметочные функции по мере необходимости.

Каждый цикл улучшает производительность модели до тех пор, пока она не достигает или превышает цели проекта. Это позволяет сократить месяцы работы по разметке данных до нескольких часов. В одном исследовательском проекте Snorkel наши два исследователя разметили 20 000 документов за один день – объем, который за manual labelers занял бы десять недель или дольше.

Snorkel предлагает несколько решений в области искусственного интеллекта, включая Snorkel Flow, Snorkel GenGlow и Snorkel Foundry. В чем разница между этими предложениями?

Пакет Snorkel AI позволяет пользователям создавать разметочные функции (например, поиск ключевых слов или шаблонов в документах), чтобы программно размечать миллионы точек данных за несколько минут, а не вручную маркировать одну точку данных за раз.

Это сокращает время, необходимое для перевода собственных данных компании в модели, готовые к внедрению, и начинать извлекать из них значение. Snorkel AI позволяет предприятиям масштабировать подходы с привлечением людей, эффективно включая экспертное мнение и знания по предметной области.

Это приводит к более прозрачному и объяснимому искусственному интеллекту, что позволяет предприятиям управлять предубеждениями и достигать ответственных результатов.

Дойдя до сути, Snorkels AI позволяет предприятиям Fortune 500:

  • Разрабатывать высококачественные размеченные данные для обучения моделей или улучшения RAG;
  • Настроить LLM с помощью тонкой настройки;
  • Конденсировать LLM в специализированные модели, которые меньше и дешевле в эксплуатации;
  • Создавать предметно-ориентированные LLM с предварительным обучением.

Вы написали несколько прорывных статей, какую из них, по вашему мнению, можно считать самой важной?

Одной из ключевых статей была первоначальная статья о программировании данных (программная разметка обучающих данных) и статья о Snorkel.

Какова ваша визия будущего Snorkel?

Я вижу Snorkel в партнере для всех крупных предприятий, которые серьезно относятся к искусственному интеллекту.

Snorkel Flow должен стать всепроникающим инструментом для команд по науке о данных в крупных предприятиях, будь то настройка пользовательских моделей большого языка для их организаций, создание моделей классификации изображений или создание простых развертываемых моделей логистической регрессии.

Независимо от того, какие модели нужны бизнесу, им понадобятся высококачественные размеченные данные для их обучения.

Спасибо за отличное интервью, читатели, которые хотят узнать больше, могут посетить Snorkel AI,