Языковые модели и их друзья Горилла, HuggingGPT, TaskMatrix и другие

Language models and their friends Gorilla, HuggingGPT, TaskMatrix, and others

Что происходит, когда мы даем ЛЛМ доступ к тысячам моделей глубокого обучения?

(Фото Майка Арни на Unsplash)

Недавно мы стали свидетелями роста популярности базовых моделей в глубоком обучении. Предобученные модели большого размера (ЛЛМ) привели к появлению новой парадигмы, в рамках которой одна модель может использоваться – с удивительным успехом – для решения множества разных проблем. Несмотря на популярность общих ЛЛМ, модели, настроенные для конкретных задач, как правило, превосходят подходы, основанные на базовых моделях. Проще говоря, специализированные модели все еще очень трудно побить! С этим в виду, мы можем задаться вопросом, можно ли объединить возможности базовых моделей и специализированных моделей глубокого обучения. В рамках этого обзора мы изучим недавние исследования, которые интегрируют ЛЛМ с другими специализированными моделями глубокого обучения, обучая их вызывать связанные с ними API. Результирующая рамка использует языковую модель в качестве централизованного контроллера, который формирует план для решения сложных задач, связанных с искусственным интеллектом, и делегирует специализированные части процесса решения более подходящим моделям.

“Предоставляя только описания моделей, HuggingGPT может непрерывно и удобно интегрировать различные экспертные модели из сообществ искусственного интеллекта, не изменяя структуру или настройки подсказки. Этот открытый и непрерывный подход приносит нас на шаг ближе к реализации искусственного общего интеллекта.” – из [2]

(из [2, 3])

Основные понятия

Прежде чем исследовать, как языковые модели могут быть интегрированы с другими моделями глубокого обучения, нам нужно рассмотреть несколько основных идей, таких как инструменты ЛЛМ, информационный поиск и самообучение [11]. Для получения более общей информации о языковых моделях, ознакомьтесь с следующими ресурсами.

  • Основы языкового моделирования (GPT и GPT-2) [ссылка]
  • Важность масштаба для языковых моделей (GPT-3) [ссылка]
  • Современные [ссылка] и специализированные [ссылка] ЛЛМ
  • Основная [ссылка] и продвинутая [ссылка] инженерия подсказки

Использование инструментов с…