Исследователи компании NVIDIA представляют Retro 48B самую большую предварительно обученную модель на базе LLM с извлечением до настройки инструкций.

Новейшая модель NVIDIA Retro 48B крупнейшая предварительно обученная модель на базе LLM с возможностью настройки инструкций

Исследователи из Nvidia и Университета Иллинойса в Урбане-Шампейне представляют Retro 48B – существенно более крупную языковую модель, чем предыдущие модели с усилением поиска, такие как Retro (7,5 миллиарда параметров). Retro 48B предварительно обучается с использованием поиска на обширном корпусе, что приводит к улучшению непонятности. Энкодер в InstructRetro может быть исключен, что подразумевает, что продолжение предварительного обучения с усилением поиска улучшает работу декодера в ответах на вопросы.

Модели языка с усилением поиска хорошо зарекомендовали себя в ответах на вопросы в открытой области, что полезно как во время предварительного обучения, так и во время вывода. Их подход снижает непонятность модели, улучшает достоверность фактов и повышает производительность задачи после тонкой настройки. Существующие модели с усилением поиска ограничены по размерам в сравнении с моделями только декодера, что ограничивает их потенциал нулевой обобщаемости после настройки по инструкции. Настройка по инструкции, важная для понимания естественного языка, получила поддержку от качественных наборов данных, таких как FLAN, OpenAssistant и Dolly, что позволяет достигать высокой производительности в чате и задачах вопрос-ответ.

Предварительное обучение языковых моделей с использованием поиска, например, Retro, показало свою эффективность в снижении непонятности и повышении достоверности. Однако существующим моделям с усилением поиска требуются больше параметров и данных для обучения, что влияет на их производительность в настройке по инструкции и других типичных задачах крупных языковых моделей. В их исследовании представлена Retro 48B, наиболее крупная модель с усилением поиска, продолжающая предварительное обучение 43B GPT-модели с дополнительными токенами. InstructRetro, полученная в результате этого процесса, значительно улучшает нулевой ответ на вопросы по сравнению с традиционными моделями GPT. Декодер InstructRetro достигает аналогичных результатов при исключении энкодера, что демонстрирует эффективность предварительного обучения с усилением поиска при включении контекста в задачи ответов на вопросы.

Их исследование исследует обширный процесс, включающий предварительное обучение модели GPT для создания Retro 48B, инструкции, чтобы улучшить ее способность к нулевым ответам на вопросы, и оценку ее производительности в различных задачах. Внедрение новой модели с усилением поиска размером 48B, InstructRetro, значительно превосходит стандартную модель GPT в нулевых задачах ответов на вопросы после настройки по инструкции. Этот подход масштабирования демонстрирует потенциал более крупных моделей с усилением поиска в понимании естественного языка.

Retro 48B, языковая модель, предварительно обученная с использованием поиска, превосходит оригинальную модель GPT по непонятности. После настройки по инструкции, известной как InstructRetro, она значительно улучшает отвечающие на вопросы с нулевым результатом, среднее улучшение составляет 7% для задач с короткими ответами и 10% для задач с длинными ответами по сравнению с аналогичными задачами для модели GPT. Удивительно, декодер InstructRetro сам по себе показывает сравнимые результаты, что указывает на эффективность предварительного обучения на основе поиска в контекстное включение для ответов на вопросы.

Представление InstructRetro 48B, наиболее крупной модели с усилением поиска, значительно улучшает точность нулевых ответов в широком диапазоне открытых задач вопрос-ответ по сравнению с моделью GPT. Предварительное обучение с использованием извлечения с помощью метода Retro улучшило непонятность. Результаты их исследования позволяют предположить, что продолжение предварительного обучения с восстановлением перед настройкой по инструкции предлагает перспективное направление для повышения производительности GPT-декодеров в задачах вопрос-ответ. Удивительно, декодер достигает сравнимой точности, демонстрируя эффективность предварительного обучения для контекстного включения. InstructRetro превосходит в задачах вопрос-ответ с длинными ответами, подчеркивая потенциал предварительного обучения с усилением поиска для сложных задач.