Вне промежутка подводные камни манипуляции метриками в гонках за продвижением искусственного интеллекта

Раскрываем тайны манипуляций метриками в гонке за продвижением искусственного интеллекта

Одна из моих любимых предупреждающих историй о несоответствии стимулов – это городская легенда о советском гвоздяном заводе. По сюжету, во время нехватки гвоздей в эпоху Ленина советским фабрикам были даны бонусы за количество произведенных гвоздей. Узнав об этом, фабрики начали производить крошечные, бесполезные гвозди, чтобы увеличить свою продукцию. Затем режим переключился на выплату бонусов в зависимости от тоннажа гвоздей, отправленных в месяц, и фабрики просто начали производить гигантские, чрезмерно тяжелые гвозди, которые были также бесполезны. Эта забавная, но многозначительная история долгие годы была рассказывается как иллюстрация того, как централизованные плановые системы могут оторваться от рыночного спроса. Однако, основываясь на собственном опыте работы с технологическими стартапами, я обнаружил, что это общая опасность для любой организации. Как и советские бюрократы, запутавшиеся в складах, полных бесполезными крошечными гвоздями, разрыв между показателями эффективности и реальной ценностью продукта – это вызов, с которым мы до сих пор продолжаем бороться.

Вы получаете то, что проверяете. Не то, что ожидаете

Раньше я работал в стартапе, который продавал цифровое рекламное пространство отделам маркетинга технологических компаний B2B. Наша платформа позволяла технологическим поставщикам достичь миллионов ИТ-специалистов малых и средних предприятий по всему миру. У этих маркетологов были квартальные задачи по генерации большего количества контактов для своих продажных команд. Чтобы достичь своих целей, они создавали кампании, направленные на заполнение форм и загрузку таких ресурсов, как белые книги.

Идея заключалась в том, что эти “качественные маркетинговые контакты” представляют собой перспективных потенциальных покупателей, отобранных и готовых для продажи. Однако в одной важной исследовательской сессии мы сели вместе с продажной командой крупного технологического поставщика, занявшего место в списке Fortune 50. Продавцы рассказали нам, что маркетинговые контакты практически бесполезны для их целей, и они просто их игнорируют.

Маркетинговый отдел столкнулся с давлением на повышение количества текущих контактов каждый квартал. Поэтому они оптимизировали кампании исключительно с целью максимального заполнения форм. Это напоминало гвоздяной завод из моей начальной истории, сосредоточенный исключительно на одном показателе, измеряемом центральными плановщиками, а не на реальных потребностях клиентов.

Метрики-игры: сомнительные победы в битве LLM

Просматривая недавние объявления и покрытие, похваляющие новую языковую модель Google “Gemini”, я не мог не вспомнить ранние предупреждающие истории о заблуждениях связанных с метриками. На странице продукта Gemini громко заявляется, что она достигла 90% рейтинга по метрике MMLU в сравнении со значением 86,4% для GPT-4. Однако мелкий шрифт раскрывает, что Google тестировало Gemini с использованием другого подхода к подсказке, который не применялся к результатам GPT-4. Анализируя фактическую научную статью, можно увидеть, что GPT-4 немного опережает Gemini, соотношением 86,4% к 83,7% при использовании той же 5-ти промпта для более честного сравнения.

Сайт Gemini показывает, что Gemini Ultra лучше, чем GPT-4.
Модель Gemini Pro, доступная сегодня, показывает результат хуже, чем GPT-4

Такой подход сравнения на выбор придает возможность объявлять ту рекламу, которая лучше всего подходит к желаемому повествованию. Флагманская модель Gemini-Ultra, набравшая наивысший балл, даже не будет доступна до следующего года. Вместо значимого прогресса похоже, что ботовый бой больше похож на турнир технологических блогов. Когда метрики становятся целями, возникает риск оптимизации за счет прогресса.

Перенос планок: Игра на смещение бенчмарков

По мере роста инвестиций в проекты AI возрастает давление продемонстрировать “реальные результаты”, часто поощряя игры с бенчмарками. Рассмотрим BloombergGPT – в 2022 году Bloomberg использовал защищенные наборы данных для обучения модели с 50 миллиардами параметров, предназначенной для выполнения задач в области финансовых услуг.

Приятным открытием была презентация Дэвида Розенберга, руководителя отдела машинного обучения Bloomberg, в которой он рассказал о техническом процессе. Его команде был установлен жесткий срок к концу 2022 года и ограниченный бюджет в 1,3 миллиона часов GPU. Они начали с амбициозных 710 миллиардов токенов обучающих данных, приблизительно половина из исключительных корпусов Bloomberg. На основе базовой модели BLOOM с открытым исходным кодом команда начала обучать модель с нуля. Однако обучение модели – это сложно. Первые две попытки не удалось, пока третья не показала потенциал. После 42 дней стабильного обучения производительность модели ухудшилась, и команда Розенберга оказалась в сложном положении, так как бюджет и сроки исчерпались. В конечном итоге они зафиксировали результат, назвав полученную модель “BloombergGPT”.

Но как она себя проявила? В общих бенчмарках NLP BloombergGPT показала результаты, схожие с BLOOM. Однако в технической статье заявлялись значительные прогрессивные достижения в специализированных “финансовых задачах”. Однако более подробный анализ показал, что эти сравнения были проведены только с более старыми моделями с открытым исходным кодом, исключая современные GPT-3. Через год, без последующего обучения, BloombergGPT, вероятно, значительно отстает от лидеров, таких как GPT-4 и Gemini.

Сравнение BloombergGPT по задачам в финансовой сфере. Где модель SOTA GPT-3?

От советских фабрик по производству гвоздей до современных лабораторий искусственного интеллекта, давление на оптимизацию метрик в ущерб реальной ценности остается. Это напоминает закон Гудхарта: когда мера становится целью, она перестает быть хорошей мерой. К сожалению, это означает, что нам всем приходится более пристально вглядываться, чтобы понять, что на самом деле происходит.