История открытых LLM имитация и согласование (Часть Третья)

История раскрытия истинной сущности имитаций и согласования LLM (Часть третья)

Открытые LLMs нуждаются в выравнивании, чтобы стать поистине замечательными…

(Фото: Joanna Kosinska на Unsplash)

Большинство предыдущих исследований по открытым большим языковым моделям (LLM) было сосредоточено на создании предварительно обученных базовых моделей. Однако эти модели не прошли дополнительную настройку, поэтому они не соответствуют качеству лучших закрытых LLMs (например, ChatGPT или Claude) из-за их недостатка согласованности. Платные модели подвергаются обширной настройке с использованием техник, таких как SFT и RLHF, что значительно повышает их удобство. В сравнении с этим, открытые модели обычно дополнительно настраиваются в меньшей степени с использованием небольших публичных наборов данных. В этом обзоре мы, однако, рассмотрим недавние исследования, направленные на улучшение качества открытых LLMs путем более полной настройки и согласования.

(из [1, 2, 12])

Этот обзор является третьей (и последней) частью моей серии о истории открытых LLMs. В первой части серии мы рассмотрели первые попытки создания открытых языковых моделей. Хотя эти первоначальные предварительно обученные LLMs показали слабые результаты, их быстро сменили гораздо лучшие открытые базовые модели, о которых мы рассказывали во второй части этой серии. Теперь мы рассмотрим, как эти лучшие открытые модели могут быть подвергнуты дополнительной настройке/согласованию для улучшения их качества и сокращения разрыва в производительности между открытыми и частными LLMs, завершая путь от начальных моделей, таких как OPT, до невероятно эффективных открытых LLMs, которые у нас есть сегодня (например, LLaMA-2-Chat).

(из [17, 18])

Процесс согласования. В этом обзоре будет изучаться процесс дополнительной настройки и согласования для открытых LLMs. Прежде чем изучать исследования в этой области, однако, нам нужно понять, что такое согласование, и как он осуществляется. Мы должны помнить, что процесс обучения для языковых моделей проходит в несколько этапов. Как показано выше, мы начинаем с предварительного обучения, за которым следуют несколько шагов дополнительной настройки. После предварительного обучения LLM может точно выполнять следующее…