Олимпиада ИИ Оценка систем машинного обучения

Олимпиада ИИ оценка систем машинного обучения

Как создаются прорывы через бенчмарки?

Вы не можете улучшить то, что не измеряете. — Питер Друкер

Кольца Олимпиады. Изображение создано автором.

Четырехминутная миля: бенчмарк, переопределивший бег

В течение многих лет пробежка мили за четыре минуты считалась не только трудным испытанием, но и невозможным достижением. Это был психологический и физический бенчмарк, который многие считали недостижимым. Врачи и спортивные эксперты предполагали, что человеческое тело не способно бегать так быстро так долго. Это убеждение было настолько укоренившимся, что некоторые даже предлагали, что попытка такого бега может быть фатальной.

Сэр Роджер Бэннистер, британский бегун средней дистанции и студент медицины, думал иначе. Он признал вызов, но считал, что преграда более психологическая, чем физиологическая. Бэннистер подошел к тренировкам научно, разбивая милю на отрезки и тщательно замеряя время каждого из них. Он также использовал строгую систему тренировок на основе интервальных тренировок и устанавливал для себя меньшие бенчмарки в подготовке к попытке установить рекорд.

6 мая 1954 года на беговой дорожке в Оксфорде, Англия, с помощью его друзей Криса Брэшера и Криса Чатавея в качестве пэйсмейкеров, Бэннистер попытался преодолеть четырехминутную границу. Он пробежал милю за 3 минуты 59,4 секунды, разбив порог и вошел в историю.

Роджер Бэннистер бежит во время гонки. Источник изображения: Norske Leksikon (CC-BY 4.0).

Последствия достижения Бэннистера были неожиданно высокими. Рекорд Гундера Хэгга (4 минуты 1,4 секунды), установленный в 1945 году, продержался почти десять лет, прежде чем появился Бэннистер. Однако, как только был разбит бенчмарк четырехминутной мили, за ним последовали другие. Через 46 дней после забега Бэннистера Джон Лэнди пробежал милю за 3 минуты 57,9 секунды. В течение следующих десяти лет рекорд был улучшен еще 5 раз. Текущий рекорд, установленный Хишамом Эль-Герружом, составляет 3 минуты 43,1 секунды.

Мировые рекорды на милю за период с 1900 по 2000 год. Обратите внимание на разрыв между 1945 и 1954 годом до того, как Роджер Бэннистер разбил четырехминутный бенчмарк мили — в остальном тренд практически линейный. Изображение создано автором.

Достижение Бэннистера иллюстрирует силу бенчмарков, не только как показателей производительности, но и как мотиваторов для изменений. После того, как был разбит “четырехминутный бенчмарк”, он переопределил то, во что верили спортсмены. Преграда была как в уме, так и на дорожке.

Четырехминутная миля воплощает трансформационную силу бенчмарков в различных областях. Бенчмарки предоставляют способ измерить улучшение производительности для конкретных задач, позволяя нам сравнивать себя с другими. Это является основой для спортивных соревнований, таких как Олимпийские игры. Однако бенчмарки полезны только в том случае, если сообщество, в которое они включены, может определить общую цель, которую следует преследовать.

В области машинного обучения и компьютерных наук бенчмарки служат своего рода “Олимпиадой” — великой ареной, где алгоритмы, системы и методологии соревнуются, не за медали, а за гордость прогресса и стремление к инновациям. Так же, как спортсмены тренируются много лет, чтобы сократить миллисекунды с их времени в поисках олимпийского золота, разработчики и исследователи оптимизируют свои модели и системы для улучшения производительности, стремясь превзойти установленные бенчмарки.

Искусство и наука бенчмаркинга заключаются в установлении этой общей цели. Здесь речь идет не только о постановке задачи, но и о том, чтобы она отражала суть вызовов реального мира, расширяя границы того, что возможно, при этом оставаясь актуальной и применимой. Неправильно выбранные бенчмарки могут ввести исследователей в заблуждение, оптимизируя задачи, которые не переносятся на улучшение в реальных приложениях. Хорошо разработанный бенчмарк может направить всё сообщество на прорывы, переопределяющие отрасль.

Таким образом, хотя бенчмарки являются инструментами для сравнения и конкуренции, их истинная ценность заключается в их способности объединить сообщество вокруг общего видения. Подобно тому, как бег Бэннистера не просто побил рекорд, но переопределил атлетический потенциал, хорошо продуманный бенчмарк может поднять на новый уровень всю дисциплину, изменить парадигмы и открыть новые эры инноваций.

В этой статье мы рассмотрим важную роль бенчмаркинга в развитии компьютерных наук и машинного обучения, пройдясь по истории, обсудим последние тенденции в бенчмаркинге систем машинного обучения и посмотрим, как он стимулирует инновации в секторе аппаратного обеспечения.

Бенчмаркинг вычислительных систем: SPEC

В 1980-х годах, когда началась революция персональных компьютеров, возникла необходимость в стандартизированных показателях для сравнения производительности различных компьютерных систем: бенчмарк. До стандартизированных бенчмарков производители часто разрабатывали и использовали собственные пользовательские бенчмарки. Эти бенчмарки обычно подчеркивали сильные стороны их машин, при этом преуменьшая их слабости. Стало понятно, что для сравнения требуется нейтральный, всеми признаваемый бенчмарк.

Для решения этой проблемы была создана организация System Performance Evaluation Cooperative (SPEC). Членами этой организации стали производители аппаратного обеспечения, исследователи и другие заинтересованные стороны, стремящиеся создать универсальный стандарт для бенчмаркинга центральных процессорных устройств (ЦПУ), также известных как “чипы”.

Первым крупным вкладом SPEC стал набор бенчмарков SPEC89, который был новаторским в том, что он был одной из первых попыток создания отраслевого стандарта для бенчмарков ЦПУ. Бенчмарки SPEC фокусировались на приложениях и вычислительных задачах реального мира, стремясь предоставить метрики, которые важны для конечных пользователей, а не эзотерические или узкоспециализированные измерения.

Однако с развитием бенчмарка возникло интересное явление – так называемый “эффект бенчмарка”. Поскольку бенчмарки SPEC стали золотым стандартом для измерения производительности ЦПУ, производители ЦПУ начали оптимизировать свои конструкции под бенчмарки SPEC. По сути, поскольку отрасль пришла к выводу, что бенчмарки SPEC являются мерилом общей производительности, производителям было сильное стимулирующее воздействие, чтобы обеспечить выдающуюся производительность своих ЦПУ в этих тестах – даже если это могло потенциально привести к снижению производительности в не-СПЕЦ задачах.

Это не всегда было намерением SPEC и вызвало оживленное обсуждение в сообществе компьютерных ученых. Действительно ли бенчмарки достоверно отражают производительность в реальном мире? Или они способствуют формированию туннельного видения, когда бенчмарки становятся самоцелью, а не средством достижения цели?

Учитывая эти сложности, SPEC постоянно обновлял свои бенчмарки, чтобы быть впереди и предотвращать излишнюю оптимизацию. Их наборы бенчмарков расширились и охватывают различные области, от целочисленных и чисел с плавающей запятой до более областно-специфичных задач в графике, файловых системах и др.

История SPEC и его бенчмарков подчеркивает глубокое влияние, которое бенчмаркинг может оказать на направление всей отрасли. Бенчмарки не только измеряли производительность – они влияли на нее. Это свидетельство силы стандартизации, но также предостережение о непредвиденных последствиях, которые могут возникнуть, когда одна метрика становится главной целью оптимизации.

В настоящее время бенчмарки SPEC, а также другие бенчмарки, продолжают играть важную роль в формировании индустрии компьютерного оборудования и помогать потребителям и предприятиям в принятии решений о покупке.

Бенчмаркинг глубокого обучения: ImageNet

В конце 2000-х годов, компьютерное зрение, подразделение искусственного интеллекта, сосредоточенное на возможности машин интерпретировать и принимать решения на основе визуальных данных, стало испытывать трудности в своем развитии. Традиционные методы добились некоторого прогресса, но на многих задачах достигли предела производительности. Техники, доступные на тот момент, в значительной степени зависели от ручного создания функций, требуя от экспертов тщательно разрабатывать и выбирать специфические функции для каждой задачи. Это был трудоемкий процесс с множеством ограничений.

Затем был выпущен ImageNet – масштабная визуальная база данных, инициированная доктором Фэй-Фэй Ли и ее командой. ImageNet предоставляет миллионы помеченных изображений, охватывающих тысячи категорий. Объем этого набора данных был беспрецедентным и был возможен только благодаря возможности привлечения пользователей для разметки данных через облачные подходы, такие как Amazon Mechanical Turk. ImageNet стал одним из первых бенчмарков датасетов – с момента его выпуска статья ImageNet была процитирована более 50 000 раз.

A visual compilation of ImageNet images. Image source: Gluon (CC-BY 4.0).

Но сбор набора данных был только началом. В 2010 году был запущен ImageNet Large Scale Visual Recognition Challenge (ILSVRC). Цель этого испытания была проста, но ее масштаб оказался огромным: автоматически классифицировать изображение в одну из 1000 категорий. Этот испытательный стенд предоставил объективную оценку прогресса в компьютерном зрении на масштабе, превышающем предыдущие попытки.

Первые годы принесли постепенные улучшения по сравнению с традиционными методами. Однако в 2012 году произошло трансформационное событие. Команда из Университета Торонто во главе с Алексом Крижевским, Ильей Суцкевером и Джеффри Хинтоном представила глубокую сверточную нейронную сеть (CNN) под названием “AlexNet”. Их модель достигла погрешности в 15,3%, что сократило ошибку предыдущего года практически наполовину!

Error rates on the ImageNet Large-Scale Visual Recognition Challenge. Accuracy dramatically improved with the introduction of deep learning in 2012 and continued to improve thereafter. Humans perform with an error rate of approximately 5%. Image source: 2018 NIH/RSNA/ACR/The Academy Workshop. This image has been reproduced in accordance with the Creative Commons Attribution 4.0 International License (CC BY 4.0).

Что сделало это возможным? Глубокое обучение, а особенно CNN, имели возможность изучать признаки непосредственно из сырых пикселей, устраняя необходимость в ручной настройке признаков. При наличии достаточного количества данных и вычислительной мощности эти сети могли обнаруживать сложные паттерны, которые находились далеко за пределами возможностей традиционных методов.

Успех AlexNet стал переломным моментом в развитии искусственного интеллекта. В последующие годы глубинные методы обучения начали доминировать в испытании ImageNet, снижая частоту ошибок все больше и больше. Ясное сообщение от бенчмарков было неоспоримо: глубокое обучение, ранее нишевая область в машинном обучении, готово революционизировать компьютерное зрение.

И оно сделало больше, чем просто это. Успех ILSVRC стал катализатором, привлекая внимание к глубокому обучению и в других областях искусственного интеллекта, от обработки естественного языка до игр. Этот вызов подчеркнул потенциал глубокого обучения, привлекая исследователей, финансирование и фокус на эту область.

Установив ясный и сложный бенчмарк, испытание ImageNet сыграло ключевую роль в изменении траектории исследований в области искусственного интеллекта, приводя к сегодняшнему ренессансу глубинного обучения, который мы наблюдаем сейчас.

Бенчмаркирование систем машинного обучения: MLPerf

Трансформационное воздействие бенчмарков, таких как SPEC и ImageNet, естественно вызывает вопрос: что дальше? По мере увеличения сложности моделей глубокого обучения возросли их вычислительные требования. Это привлекло внимание к другому важному компоненту – аппаратному обеспечению, которое поддерживало эти модели. Вот где появляется MLPerf.

MLPerf стал результатом сотрудничества гигантов индустрии и академических учреждений с миссией создания стандартного набора бенчмарков для измерения производительности аппаратного обеспечения, программного обеспечения и облачных платформ машинного обучения. Как следует из названия, MLPerf фокусируется исключительно на машинном обучении и охватывает широкий спектр задач от классификации изображений до обучения с подкреплением. Цель была ясна – обеспечить ясность в области, где утверждения о “лучшей производительности” становились обычными, но часто основывались на несогласованных критериях или отобранных метриках.

Введение MLPerf предоставило технической индустрии долгожданный единый стандарт. Для академической среды это предоставило четкую цель производительности, способствуя созданию среды, где инновации в алгоритмах могут быть легко измерены и сравнены. Для промышленности, особенно производителей аппаратного обеспечения, это представляло собой и вызов, и возможность. Больше нельзя было запустить новый чип с неопределенными утверждениями о его производительности в машинном обучении – существовал теперь всеобщий бенчмарк, который проверит такие утверждения.

И, подобно тому, как SPEC повлияла на разработку ЦП, MLPerf начало формировать направление развития аппаратного обеспечения искусственного интеллекта. Компании начали оптимизировать свои дизайны с учетом бенчмарков MLPerf, и здесь дело не только в сырой производительности. Бенчмарки также включают метрики эффективности, поощряя инновации, которые обеспечивают не только скорость, но и энергоэффективность – важная проблема в эпоху гигантских трансформерных моделей и экологического сознания. Эти бенчмарки регулярно используются крупными технологическими компаниями, такими как Nvidia и AMD, для демонстрации своего нового аппаратного обеспечения.

Нормализованные показатели производительности Nvidia H100 на MLPerf Inference v3.0 Datacenter по сравнению с предыдущей системой Nvidia A100. Как видно, H100 обеспечивает ускорение в 4 раза на полномасштабной модели BERT по сравнению с предыдущим поколением чипа. Источник изображения: MLCommons и Nvidia Blogs. Изображение воспроизводится с разрешения MLCommons.

На сегодняшний день существует десятки аналогичных MLPerf бенчмарков, управляемых MLCommons, включая:

  • MLPerf Training. Для оценки производительности системы при обучении модели машинного обучения (более актуально для исследователей).
  • MLPerf Inference. Для оценки производительности системы при выполнении вывода модели машинного обучения (более актуально для компаний, предоставляющих модели через облачные сервисы). Существуют несколько версий MLPerf Inference, ориентированных на дата-центры, мобильные устройства, устройства края сети и маленькие устройства машинного обучения.
  • MLPerf Training HPC. Для оценки рабочих нагрузок, связанных с высокопроизводительными вычислительными системами.
  • MLPerf Storage. Для оценки рабочих нагрузок, связанных с системами хранения данных.

Однако MLPerf не обходится без критики. Как и в случае любого бенчмарка, ставшего популярным, существуют опасения о “переобучении” на бенчмарках, когда разработки чрезмерно оптимизируются для тестов бенчмарка за счет возможной потери применимости в реальных условиях. Более того, всегда присутствует вызов в обеспечении актуальности бенчмарков, обновлении их, чтобы отразить быстрый прогресс в области машинного обучения.

Тем не менее, история MLPerf, подобно предшественникам, подчеркивает фундаментальную истину: бенчмарки способствуют прогрессу. Они не только измеряют уровень современных достижений, но и формируют его. Устанавливая ясные и сложные цели, они сосредоточивают коллективные усилия, способствуют развитию отраслей и исследовательских сообществ, позволяют проложить новые пути. И в мире, где искусственный интеллект продолжает переопределять возможности, обладание компасом для навигации по его сложностям становится не просто желательным, но и необходимым.

Проблема бенчмаркинга генеративного искусственного интеллекта

Помимо аппаратных средств искусственного интеллекта, большое внимание в бенчмаркинге уделяется моделям больших языковых моделей, являющихся формой генеративного искусственного интеллекта. Под общим названием фундаментальные модели эти модели более сложны для бенчмаркинга, чем аппаратное обеспечение или многие другие типы моделей машинного обучения.

Это обусловлено тем, что успех языковой модели зависит не только от вычислительной скорости или точности в узко определенных задачах. Он основан на способности модели генерировать последовательные, контекстуально связанные и информативные ответы на широкий спектр запросов и контекстов. Кроме того, оценка “качества” ответа является субъективной и может варьироваться в зависимости от применения или предрассудков оценщика. Учитывая сложности, бенчмарки для языковых моделей, таких как GPT-3 или BERT, должны быть более разнообразными и многофакторными, чем традиционные бенчмарки.

Один из самых известных бенчмарков для языковых моделей – это General Language Understanding Evaluation (GLUE), разработанный в 2018 году. GLUE не был просто одной задачей; это была коллекция из девяти различных языковых задач, включая анализ настроения и текстовую увязку. Идея заключалась в обеспечении всесторонней оценки, чтобы модели не только превосходили в одной задаче, но и действительно могли понимать язык в различных ситуациях.

Воздействие GLUE было немедленным и глубоким. Впервые появился ясный и последовательный бенчмарк, по которому можно было оценивать языковые модели. Скоро в нем начали участвовать как крупные технологические компании, так и академическое сообщество, каждое стремясь занять лидирующие позиции в рейтинге GLUE.

Когда GPT-2 впервые был оценен по бенчмарку GLUE, он получил впечатляющий результат, превосходящий многие модели. Это было не только подтверждением мастерства GPT-2, но и подчеркивало ценность GLUE в предоставлении четкого инструмента для измерения. Возможность заявить о “состоянии искусства на GLUE” стала заветной целью в сообществе.

Однако успех GLUE имел и обратную сторону. К концу 2019 года многие модели начали насыщать рейтинги GLUE, достигая близости к базовым показателям человека. Это насыщение подчеркнуло еще один важный аспект бенчмаркинга: необходимость развития бенчмарков вместе с отраслью. Для решения этой проблемы та же команда представила SuperGLUE – более сложный бенчмарк, который был разработан для преодоления границ.

Бенчмарки, такие как GLUE, SuperGLUE и SQuAD, используются для оценки моделей на конкретных задачах, таких как анализ тональности и ответы на вопросы. Но эти бенчмарки лишь касаются поверхности того, что стремятся достичь основные модели. Помимо точности для конкретных задач, появились другие измерения для оценки этих моделей:

  1. Стабильность. Насколько хорошо модель справляется с крайними случаями или вводом, созданным для ее запутывания или введения в заблуждение? Бенчмарки на стойкость ставят модели перед вызовом ввода, созданного для их запутывания или введения в заблуждение, и оценивают их устойчивость к вредоносным действующим лицам или неожиданным сценариям.
  2. Обобщение и перенос обучения. Ожидается, что основные модели будут хорошо справляться с задачами, для которых они не были явно обучены. Оценка возможностей нулевого или небольшого обучения модели, когда ей предоставляются задачи с минимальным или без предварительных примеров, крайне важна для понимания ее гибкости и приспособляемости.
  3. Взаимодействие и связность. Для приложений, таких как чат-боты или виртуальные помощники, важно, насколько последовательно и связно модель отвечает на продолжительные взаимодействия. Бенчмарки в этой области могут включать длинные диалоги или поддержание контекста в течение нескольких обменов.
  4. Безопасность и управляемость. С увеличением размеров моделей эти бенчмарки гарантируют, что модели не производят вредных, неуместных или бессмысленных результатов.
  5. Настраиваемость. По мере распространения основных моделей возникает все большая потребность в их настройке под конкретные области или приложения. Бенчмарки в этой области могут оценивать, насколько хорошо модель может быть дообучена на новом наборе данных или адаптирована к специфическому жаргону и нюансам отрасли.

Интересным развитием является то, что по мере того, как производительность языковых моделей приближается к человеческой производительности, тесты, которые исторически использовались для оценки человеческой производительности, теперь используются в качестве бенчмарков для языковых моделей. Например, GPT-4 был протестирован на экзаменах, таких как SAT, LSAT и медицинских экзаменах. На SAT он набрал 1410 баллов, занимая место в топ-6% по всей стране. GPT-4 даже смог пройти все версии медицинских экзаменов со средним баллом 80,7%. Однако на LSAT он получил меньший балл – 148 и 157, что соответствует 37-му и 70-му процентилю.

Производительность GPT на академических и профессиональных экзаменах. Рисунок из «Технического отчета GPT-4». Источник изображения: OpenAI (CC-BY 4.0).

Будет интересно увидеть, как будут развиваться подходы к бенчмаркингу для языковых моделей, поскольку они начинают превосходить человеческую производительность во многих областях.

Будущее бенчмаркинга

Будущее бенчмаркинга быстро развивается, разнообразиваясь для решения широкого спектра новых технологий и приложений. Вот несколько примеров новых областей, в которых внедряется бенчмаркинг:

  • RobotPerf: По мере того, как робототехника становится все более интегрированной в нашу повседневную жизнь, создаются бенчмарки, такие как RobotPerf, чтобы специально измерять и ускорять робототехнические приложения, обеспечивая соответствие эффективности и стандартам безопасности.
  • NeuroBench: В области вычислений, вдохновленных мозгом, NeuroBench пионерит в оценке нейроморфных систем, предлагая понимание того, насколько эти архитектуры приближаются к нейронным процессам.
  • XRBench: Секторы виртуальной и дополненной реальности вновь оживают с появлением нового оборудования от Meta и Apple. В этой связи был разработан XRBench для фокусировки на приложениях расширенной реальности (XR), необходимых для погружного и безупречного пользовательского впечатления.
  • MAVBench: По мере того, как беспилотники становятся все более коммерчески значимыми благодаря прогрессу в многоразовых системах и технологии аккумуляторов, бенчмарки, такие как MAVbench, будут играть важную роль в оптимизации производительности этих систем.

Сообщество компьютерных наук и машинного обучения очень хорошо осознает важность бенчмаркинга для прогресса в своих областях. Теперь даже конференция NeurIPS, одна из ведущих конференций по искусственному интеллекту, выделила отдельную секцию для наборов данных и бенчмарков. В третий год существования эта секция набирает огромный популярность, что отражается в ошеломляющем числе близко к 1 000 поданных заявок только в этом году. Этот тренд показывает, что по мере продолжения неудержимого марша технологий бенчмарки будут продолжать направлять и формировать его траекторию в реальном времени, как это уже было раньше.

Заключительные мысли

Роль бенчмарков в формировании прогресса, будь то в спорте или искусственном интеллекте, нельзя недооценивать. Они действуют как зеркала, отражая текущее положение дел, и окна, предлагая представление о будущих возможностях. Поскольку искусственный интеллект продолжает влиять на различные области и промышленности, от здравоохранения до финансов, наличие надежных бенчмарков становится критически важным. Они гарантируют, что прогресс не только быстрый, но и значимый, направляя усилия на решение важных проблем. Как показал нам Сэр Роджер Бэннистер со своим четырехминутным милем, иногда самые сложные бенчмарки, однажды преодоленные, могут разбудить волны инноваций и вдохновения на годы вперед. В мире машинного обучения и вычислений гонка далеко не окончена.