ToolFormer Руководство моделями искусственного интеллекта по использованию внешних инструментов

Руководство использования внешних инструментов ToolFormer для моделей искусственного интеллекта

Мета LLM учится вызывать внешние API самостоятельно

Изображение, созданное автором с использованием Midjourney

Сейчас, когда пыль осела, известны слабые места LLM.

Даже мощный GPT-4 испытывает трудности с математическими операциями.

Кроме того, ограничение по времени обучения является внутренней слабостью каждого LLM. Они терпят неудачу в ответах на запросы о новых вещах.

Решением проблемы является использование внешних плагинов (например, плагинов ChatGPT). Однако пользователю приходится вручную указывать некоторые действия, а эти плагины иногда ненадежны.

Что, если бы существовала модель, которая знала свои слабые места и была обучена вызывать оптимальное внешнее средство при неуверенности?

Именно это сделала Meta, создав ToolFormer[1]. В этой статье мы обсудим:

  • Что такое ToolFormer и почему это прорыв?
  • Как работает модель.
  • Как методологию ToolFormer можно применить к любому LLM.
  • Почему исследования в области искусственного интеллекта идут в направлении ToolFormer.

Погрузимся в детали.

Слабые места больших языковых моделей

Прежде чем описывать ToolFormer, давайте рассмотрим, с какими проблемами сталкиваются современные LLM:

  • Время: У каждого LLM есть дата окончания обучения. Следовательно, они не могут получать актуальную информацию и недавние события.
  • Неправильные факты: LLM-ы печально известны в придумывании фактов, мест, событий, продуктов и даже научных статей.
  • Арифметические операции: LLM-ы испытывают трудности с математическими вычислениями.
  • Редкие языки: LLM-ы не могут обрабатывать языки с низкими ресурсами, обычно из-за отсутствия обучающих данных.

Очевидно, эти проблемы не имеют отношения к языковой механике. Идеальным решением было бы объединение генерации текста с внешними инструментами.

И вот появляется ToolFormer.

Что такое ToolFormer?

ToolFormer – это LLM, обученный решать, какие API вызывать, когда их вызывать и какие аргументы передавать для их вызова.