Не такие большие языковые модели хорошие данные свергают Голиафа

Маленькие языковые модели могут победить Голиафа с хорошими данными.

(Изображение, созданное DALL·E)

Как создать языковую модель миллионного размера, превосходящую модель миллиардного размера

В этой статье мы рассмотрим, как языковые модели (LM) могут сосредоточиться на лучших данных и стратегиях обучения, а не только на размере, чтобы достичь результатов, сопоставимых с LLM (а иногда даже лучше), и как люди уже успешно и демократически это делают.

Большие языковые модели (LLM) претерпели значительные изменения. Они обладают замечательными возможностями, от генерации текста, подобного человеческому, до понимания сложных контекстов. В то время как первоначальный энтузиазм был связан с моделями с огромным количеством параметров, недавние разработки свидетельствуют о том, что размер не является единственным важным аспектом. В последнее время появилась новая концепция, называемая моделями малого размера (SLM), которая возникла с целью развивать языковые модели более интеллектуально.

Возрастание больших моделей

Когда LLM появились на сцене, история была проста — чем больше, тем лучше. Модели с большим количеством параметров ожидались способными лучше понимать контекст, делать меньше ошибок и давать более точные ответы. Но по мере роста моделей, возрос их потребность в вычислительных ресурсах. Обучение этих гигантов стало дорогой задачей, которую не все готовы (или способны) оплатить.

Акцент на качестве и эффективности

Признавая несостоятельность и убывающий эффект от простого увеличения количества параметров, исследователи начали пересматривать стратегии. Вместо того, чтобы просто вкладывать деньги в облачный огонь (добавлять еще миллиард параметров), некоторые исследователи переключились на использование лучших данных и более эффективных стратегий обучения. Идея заключается в следующем: хорошо обученная модель меньшего размера может превзойти плохо обученную модель большего размера. Но возможно ли это?

Чинчилла и оптимальная точка обучения LLM

Статья “Чинчилла” [1], важный вклад в область, предлагает интересные идеи относительно обучения LLM. Эксперименты показывают, что существует “оптимальная точка” при обучении LLM. За этой точкой дополнительные ресурсы, в виде большего количества параметров, не обязательно приводят к пропорциональному увеличению производительности. В статье подчеркивается, что производительность модели определяется не только ее размером, но и качеством данных и количеством используемых данных. Авторы пришли к выводу, что для оптимального вычисления при обучении модель размером и число обучающих токенов должны быть масштабированы одинаково: при удвоении размера модели должно также удваиваться количество обучающих токенов.

Они проверяют это, обучая Чинчиллу, модель с 70 миллиардами параметров, обученную на 1,4 триллионах токенов. Несмотря на свой меньший размер, Чинчилла превосходит Gopher почти во всех оценках, включая языковое моделирование, ответы на вопросы, задачи здравого смысла и т. д.

Размер Чинчиллы и количество обучающих токенов по сравнению с SOTA LLMs. (Источник: [1])

Даже с уменьшенным размером Чинчилла показывает лучшие результаты, чем его аналоги SOTA в различных задачах:

Massive Multitask Language Understanding (MMLU). Reporting the average 5-shot accuracy over 57 tasks with model and human accuracy comparisons taken from [2], and the average prediction for SOTA accuracy in June 2022/2023 made by 73 competitive human forecasters in [3]. (Source: [1])

Чтение и автоматическое рассуждение – это стандартные задачи, на которых обычно тестируется языковая модель. Она проверяет способность модели понимать широкий контекст текста. В нашем случае это может быть проиллюстрировано предсказанием слов, которые можно ожидать только если модель может понять связь между этим словом и контекстом, который предшествовал ему (иногда далеко от позиции этого слова). Обычно это оценивается с использованием таких показателей и наборов данных, как RACE-h, RACE-m [4] и LAMBADA [5]. Чинчилла превосходит гораздо более крупные модели даже в таких сложно определимых и тестовых задачах.

При чтении понимания, Чинчилла значительно повышает производительность по сравнению с Гофером. (Источник: [1])

И Чинчилла – одна из многих языковых моделей, показывающих многообещающие результаты, несмотря на то, что не сосредоточивается на увеличении размера.

LLaMA

LLaMA[6] идет еще дальше. Авторы представляют более маленькие базовые языковые модели объемом от 7 млрд до 65 млрд параметров. Они обучены на более чем 1 триллионе токенов, используя только общедоступные данные, что делает их совместимыми с открытым исходным кодом.

LLaMA-13B превосходит гораздо большую модель GPT-3 с 175 млрд параметрами по большинству показателей, при этом она в 10 раз меньше. Авторы утверждают, что при заданном уровне производительности более маленькие модели, обученные дольше, предпочтительнее более крупных моделей для заданного вычислительного бюджета из-за лучшей эффективности вывода.

Нулевая производительность LLaMA на задачах здравого смысла. (Источник: [6])

Некоторые проекты даже смогли запустить LLaMA (или, скорее, его версию) на бюджетных смартфонах на платформе Android, что еще раз доказывает, что мы на верном пути к демократизации доступа к производительным языковым моделям с использованием низких вычислительных ресурсов (LLaMA.c [7]).

LLaMA-65B (Я знаю, уже не такая маленькая, но все же…) конкурентна современным моделям, таким как PaLM-540B, которые используют собственные наборы данных. Это ясно указывает на то, что хорошие данные не только улучшают производительность модели, но также могут сделать ее демократичной. Инженеру по машинному обучению не понадобятся огромные бюджеты для получения хорошей модели на хорошем наборе данных.

Хорошие данные превосходят Голиафа

Дальнейшее подтверждение того, что языковым моделям необязательно быть гигантскими, чтобы хорошо работать, представляет проект TinyStories [8], который представляет синтетический набор данных историй, содержащих только слова, которые могут понять маленькие дети (до четырех лет). Он может быть использован для обучения небольших языковых моделей (SLM) с менее чем 10 миллионами параметров, которые могут генерировать многоабзацные истории с хорошей грамматикой, рассуждением и связностью. Это противоречит предыдущим работам, в которых модели с более чем 125 млн параметров, такие как GPT-Neo (маленький) и GPT-2 (маленький), боролись с производством связного текста.

Модель, обученная с помощью TinyStories, может производить результаты, сравнимые с моделью, которая в два раза больше по размеру. (Источник: [8])

Один из захватывающих аспектов TinyStories заключается в том, что сам набор данных был создан GPT-3.5 и GPT-4. Авторы также представляют новую парадигму оценки SLM с использованием GPT-4 для “оценки” сгенерированных историй по таким параметрам, как грамматика, сюжет и креативность. Это позволяет преодолеть ограничения стандартных показателей, требующих ограниченных результатов.

Заключение

Путь языковых моделей демонстрирует ключевой урок в области искусственного интеллекта: больше не всегда значит лучше. По мере того, как сообщество продолжает развиваться и инновировать, осознается, что эффективность, качество данных и оптимизированные стратегии обучения являются ключом к будущему машинного обучения.

Основные выводы

  • Chinchilla доказывает, что существует оптимальная точка при обучении языковых моделей с точки зрения количества токенов и качества используемых тренировочных данных. Это так же важно, как (или даже важнее) определение количества параметров модели;
  • LLaMa показывает, что результаты, подобные Chinchilla, достижимы с использованием только публично доступных данных, демонстрируя доступность этой стратегии для всех;
  • Наборы данных, такие как TinyStories, могут использоваться для обучения небольших языковых моделей (менее 100 миллионов), превосходящих модели размером в миллиарды на конкретных задачах.

Ссылки

[1] Hoffmann, Jordan и др. “Training compute-optimal large language models.” arXiv preprint arXiv:2203.15556 (2022).

[2] D. Hendrycks и др. “Measuring massive multitask language understanding.” arXiv preprint arXiv:2009.03300 (2020).

[3] J. Steinhardt. Обновления и уроки из прогнозирования искусственного интеллекта, 2021. URL https://bounded-regret.ghost.io/ai-forecasting/.

[4] Lai, Guokun и др. “RACE: Large-scale ReAding Comprehension Dataset From Examinations.” В Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, страницы 785–794, Копенгаген, Дания. Association for Computational Linguistics.

[5] Paperno и др., 2016 “The LAMBADA dataset: Word prediction requiring a broad discourse context.” arXiv:1606.06031 (2016).

[6] Touvron, Hugo и др. “LLaMA: Open and Efficient Foundation Language Models.” ArXiv abs/2302.13971 (2023)

[7] https://github.com/karpathy/llama2.c

[8] Eldan, Ronen и Yuan-Fang Li. “TinyStories: How Small Can Language Models Be and Still Speak Coherent English?” ArXiv abs/2305.07759 (2023)