ToolFormer Руководство моделями искусственного интеллекта по использованию внешних инструментов
Руководство использования внешних инструментов ToolFormer для моделей искусственного интеллекта
Мета LLM учится вызывать внешние API самостоятельно
![Изображение, созданное автором с использованием Midjourney](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*aG77cCmXmL2IWV-TkJ8hlg.png)
Сейчас, когда пыль осела, известны слабые места LLM.
Даже мощный GPT-4 испытывает трудности с математическими операциями.
Кроме того, ограничение по времени обучения является внутренней слабостью каждого LLM. Они терпят неудачу в ответах на запросы о новых вещах.
Решением проблемы является использование внешних плагинов (например, плагинов ChatGPT). Однако пользователю приходится вручную указывать некоторые действия, а эти плагины иногда ненадежны.
- От данных к инсайтам действующая AI/ML на основе Kubernetes
- 7 платформ для получения высокооплачиваемых вакансий в области науки о данных
- «LLMOps – следующий этап развития MLOps»
Что, если бы существовала модель, которая знала свои слабые места и была обучена вызывать оптимальное внешнее средство при неуверенности?
Именно это сделала Meta, создав ToolFormer[1]. В этой статье мы обсудим:
- Что такое ToolFormer и почему это прорыв?
- Как работает модель.
- Как методологию ToolFormer можно применить к любому LLM.
- Почему исследования в области искусственного интеллекта идут в направлении ToolFormer.
Погрузимся в детали.
Слабые места больших языковых моделей
Прежде чем описывать ToolFormer, давайте рассмотрим, с какими проблемами сталкиваются современные LLM:
- Время: У каждого LLM есть дата окончания обучения. Следовательно, они не могут получать актуальную информацию и недавние события.
- Неправильные факты: LLM-ы печально известны в придумывании фактов, мест, событий, продуктов и даже научных статей.
- Арифметические операции: LLM-ы испытывают трудности с математическими вычислениями.
- Редкие языки: LLM-ы не могут обрабатывать языки с низкими ресурсами, обычно из-за отсутствия обучающих данных.
Очевидно, эти проблемы не имеют отношения к языковой механике. Идеальным решением было бы объединение генерации текста с внешними инструментами.
И вот появляется ToolFormer.
Что такое ToolFormer?
ToolFormer – это LLM, обученный решать, какие API вызывать, когда их вызывать и какие аргументы передавать для их вызова.