Обучающий курс RLHF для LLM с использованием Huggingface 🤗

Популярный онлайн-курс RLHF для LLM, основанный на Huggingface 🤗

Фото автора Jongsun Lee на Unsplash

Узнайте, как разработать свой собственный доменно-специфичный ЛЛМ с помощью этого практического руководства по Python

Авторы

Этот блог написали Marcello Politi и Vijayasri Iyer.

Введение

К настоящему времени все говорят о генеративном искусственном интеллекте и больших языковых моделях. Модели, такие как ChatGPT и Grok, стали хорошо известными сегодня, и многие люди хотят использовать решения, основанные на этих технологиях, чтобы улучшить свой бизнес.

Тем не менее, стоит сказать, что, несмотря на впечатляюще развитые языковые возможности этих моделей, они все равно далеки от идеальных, и у нас все еще есть много основных проблем, которые мы не можем решить.

Языковые модели, как и все модели машинного/глубокого обучения, учатся на данных. Поэтому нет способа избежать правила “мусор в мусор” – если мы обучаем модели на данных низкого качества, то качество вывода во время вывода будет также низким.

Это представляет главную причину того, почему в разговорах с языковыми моделями возникают ответы с предубеждениями (или предрассудками).

Однако есть техники, которые позволяют нам более контролировать вывод этих моделей, чтобы обеспечить их соответствие, так чтобы ответы модели были не только точными и последовательными, но и безопасными, этичными и желательными с точки зрения разработчиков и пользователей. Наиболее распространенная техника, применяемая в наши дни, это использование обучения с подкреплением.

Обучение с подкреплением с помощью обратной связи человека

Изображение от авторов

Обучение с подкреплением с использованием обратной связи человека (RLHF), которое недавно привлекло много внимания, начало новую революцию в применении техник обучения с подкреплением в области NLP, особенно для больших языковых моделей (LLM). В этом блоге мы узнаем полную тренировочную цепочку RLHF для LLM с использованием библиотеки Huggingface.

Цепочка RLHF состоит из 3 фаз:

  • Предварительное обучение для конкретной области: Настройте предварительно обученную LLM на необработанный текст с причинным…