Сила генерации с увеличенным востановлением Сравнение базовых LLM-моделей с Llama2

Мощь генерации с увеличенным восстановлением Сравнение базовых моделей LLM с Llama2

Глубокое погружение в настройку предварительно обученных LLM-моделей для настраиваемых сценариев с использованием подхода RAG, с интеграцией LangChain и Hugging Face

Этот пост был написан совместно с Рафаелем Гедесом.

Введение

С момента выпуска ChatGPT в ноябре 2022 года, модели на основе больших языковых моделей (LLM) стали горячей темой в сообществе искусственного интеллекта благодаря их возможностям в понимании и генерации текста, приближаясь к возможностям обработки естественного языка (NLP).

LLM-модели показали свою универсальность, решая различные задачи в разных отраслях, поскольку они не ограничены определенной задачей. Их можно адаптировать к различным предметным областям, что делает их привлекательными для организаций и научного сообщества. Были исследованы несколько приложений с использованием LLM-моделей, таких как генерация контента, чат-боты, генерация кода, творческое письмо, виртуальные помощники и многое другое.

Еще одной характеристикой, делающей LLM-модели столь привлекательными, является то, что существуют бесплатные варианты с открытым исходным кодом. Компании, такие как Meta, предоставляют доступ к своей предварительно обученной LLM модели (Llama2 🦙) в репозиториях, например, в Hugging Face 🤗. Но подходят ли эти предварительно обученные LLM-модели для включения в конкретные сценарии использования компаний? Конечно, нет.

Организации могут обучать LLM-модель с нуля с использованием собственных данных. Однако подавляющее большинство из них (практически все) не обладает достаточными данными или мощностями вычисления для выполнения этой задачи. Это требует наборов данных с триллионами токенов, тысяч графических процессоров и нескольких месяцев. Другой вариант – использовать предварительно обученную LLM-модель и настроить ее для конкретного сценария использования. Существует два основных подхода: дообучение и RAG (Retrieval Augmented Generation).

В этой статье мы сравним производительность изолированной предварительно обученной Llama2 с предварительно обученной Llama2, интегрированной в систему RAG, чтобы ответить на вопросы о последних новостях от OpenAI. Мы начнем с объяснения работы RAG и архитектуры его подмодулей (ретривера и генератора). Затем мы завершим пошаговую реализацию того, как мы можем создать систему RAG для любого сценария использования с использованием LangChain 🦜️ и Hugging Face.