Исследователи Университета Цинхуа представляют OpenChat Новый искусственный интеллект AI Framework, улучшающий языковые модели с открытым исходным кодом с помощью данных разного качества.

Ученые Университета Цинхуа представляют OpenChat Новый фреймворк искусственного интеллекта AI, обогащающий открытые модели обработки языка с использованием данных различного качества.

В быстроразвивающейся области обработки естественного языка возможности больших языковых моделей выросли в геометрической прогрессии. Исследователи и организации по всему миру продолжают расширять границы этих моделей, чтобы повысить их производительность в различных задачах понимания и генерации естественного языка. Одним из ключевых аспектов развития этих моделей является качество тренировочных данных, на которых они основаны. В этой статье мы погрузимся в исследовательскую работу, которая решает задачу усовершенствования языковых моделей с открытым исходным кодом с использованием смешанных тренировочных данных. В этом исследовании исследуется предложенный метод, технология и последствия для обработки естественного языка.

Смешанные тренировочные данные, включая данные, сгенерированные экспертами, и неоптимальные данные, представляют собой значительную сложность в обучении языковых моделей. Экспертные данные, сгенерированные современными моделями, такими как GPT-4, обычно имеют высокое качество и служат стандартом золотого стандарта для обучения. С другой стороны, неоптимальные данные, происходящие от более старых моделей, таких как GPT-3.5, могут иметь более низкое качество и создавать проблемы во время тренировки. Данное исследование признает данную ситуацию смешанных тренировочных данных и стремится улучшить способности следовать инструкциям у языковых моделей с открытым исходным кодом.

Прежде чем рассмотреть предложенный метод, давайте кратко коснемся текущих методов и инструментов, используемых в обучении языковых моделей. Одним из распространенных подходов к улучшению этих моделей является применение супервизионного дообучения (SFT). В SFT модели обучаются на задачах следования инструкциям с использованием высококачественных данных, сгенерированных экспертами, что помогает генерировать правильные ответы. Кроме того, получила популярность методика дообучения с использованием обучения с подкреплением (RLFT). RLFT включает сбор обратной связи предпочтений от людей и обучение моделей максимизировать вознаграждения на основе этих предпочтений.

Тсинхуа Университет предложил инновационный метод в своей исследовательской статье – OpenChat. OpenChat – это новаторская структура, которая улучшает языковые модели с открытым исходным кодом с помощью смешанных тренировочных данных. В основе лежит метод обучения Conditioned Reinforcement Learning Fine-Tuning (C-RLFT), который упрощает процесс тренировки и снижает зависимость от моделей вознаграждения.

C-RLFT обогащает входную информацию для языковых моделей, различая различные источники данных по их качеству. Это достигается с помощью внедрения класс-условной политики. Политика помогает модели различать между экспертными данными (высокое качество) и неоптимальными данными (низкое качество). Таким образом, C-RLFT предоставляет явные сигналы модели, позволяя ей улучшить возможности следовать инструкциям.

Производительность OpenChat, в частности модели open chat-13 b, была оценена по различным критериям. Одним из значимых использованных критериев является AlpacaEval, где проверяются возможности модели следовать инструкциям. Openchat-13b показывает замечательные результаты, превосходящие другие 13-миллиардовых моделей с открытым исходным кодом, такие как LLaMA-2. Она достигает более высоких побед и более высокой производительности в задачах следования инструкциям, что демонстрирует эффективность метода C-RLFT.

Значимость качества данных – это важный аспект, подчеркнутый исследовательской группой. Несмотря на ограниченное количество, экспертные данные играют важную роль в улучшении производительности языковых моделей. Возможность различать между экспертными и неоптимальными данными, в сочетании с методом C-RLFT, приводит к существенному улучшению производительности модели. Это исследование подчеркивает важность формирования тренировочных данных высокого качества для обеспечения успеха обучения языковых моделей.

Выводы и дальнейшие исследования

Каркас OpenChat и метод C-RLFT обещают будущее в области обработки естественного языка. Этот подход открывает новые возможности для исследования и разработки, упрощая процесс обучения и сокращая зависимость от сложных моделей вознаграждения. Он также решает проблему смешанного качества данных, делая их более доступными для эффективного использования разнообразных наборов обучающих данных.

В заключение, OpenChat представляет инновационное решение для улучшения языковых моделей с открытым исходным кодом с использованием данных смешанного качества. Внедрение метода C-RLFT позволяет достичь превосходных навыков следования инструкциям, что подтверждается его результатами в качестве эталонов. С развитием обработки естественного языка инновационные техники, подобные OpenChat, открывают путь к более эффективному и эффективному обучению языковых моделей.