Эта AI-статья раскрывает секрет контекстного обучения Как языковые модели кодируют функции в векторную магию
Расшифровка контекстного обучения как языковые модели превращают функции в векторную магию – уникальная AI-статья
В моделях языка с авторегрессивными трансформерами обнаруживается нейронный механизм, который представляет функцию ввода-вывода в виде компактного вектора, известного как функциональный вектор (FV). Применяется анализ причинности посредничества для различных задач в контексте обучения, позволяющий установить, что небольшое количество внимательных головок переносят FV, которые остаются стабильными в различных контекстах, обеспечивая выполнение задач в режиме zero-shot и естественной текстовой среде. FV содержат информацию о пространстве вывода функций и могут быть объединены для выполнения новых сложных задач, что указывает на наличие внутренних абстракций для универсальных функций в LLMs.
Исследователи из Нортвестернского университета расширяют исследование контекстного обучения (ICL) в LLMs и изучают трансформеры, чтобы выявить наличие FV. Они ссылается на множество связанных исследований, включая работы о формах ICL-подсказок, моделях метаобучения и байесовском выводе задач, а также использует результаты исследований декодированного словаря трансформеров. Также проводятся анализы поведения на копирование в контексте и применяются методы анализа причинности посредничества, разработанные Перлом и другими, для выделения FV.
Исследование исследует наличие FV в больших моделях языка с авторегрессивными трансформерами, обученных на обширных данных естественного текста. Оно расширяет концепцию ICL и изучает основные механизмы трансформеров, приводящие к возникновению FV. Предыдущие исследования ICL, включая формы подсказок и масштабирование, служат основой для данного исследования. FV представляются в виде компактных векторных представлений для ввода-вывода задач. Анализ причинности посредничества выявляет FV и понимает их характеристики, включая устойчивость к изменениям контекста и потенциал семантической композиции.
- Туринговская мельница суперкомпьютер ИИ активизирует экономический двигатель Великобритании
- Овладение выполнением корутин отдача управления, поток и практические примеры использования в Unity
- Jina AI представляет «jina-embeddings-v2» первые в мире 8k модели встраивания текста с открытым исходным кодом
Метод применяет анализ причинности посредничества для изучения FV в моделях языка с авторегрессивными трансформерами. Проводятся тесты для оценки того, кодируют ли скрытые состояния задачи и оцениваются возможности переносимости в естественном тексте путем измерения точности генерации вывода. Создается более 40 задач для тестирования извлечения FV в различных настройках, с акцентом на шесть представительных задач. В работе ссылается на предыдущие исследования ICL и представления функций в языковых моделях.
Современные исследования с помощью анализа причинности посредничества выявляют FV в моделях языка с авторегрессивными трансформерами. FV служат компактными представлениями задач, устойчивыми к контексту и способными активировать определенные процедуры в различных настройках. Они демонстрируют сильные причинные эффекты в средних слоях и подходят для семантической композиции векторов для выполнения сложных задач. Подход превосходит альтернативные методы, подчеркивая, что LLM обладает универсальными внутренними абстракциями функций, применимыми в различных контекстах.
Предложенный подход успешно выявляет наличие FV в моделях языка с авторегрессивными трансформерами с помощью анализа причинности посредничества. Эти компактные представления ввода-вывода задач проявляют устойчивость в разных контекстах и обладают сильными причинными эффектами в средних слоях языковых моделей. Хотя FV зачастую содержат информацию, кодирующую пространство вывода функции, их реконструкция более сложна. Кроме того, FV могут быть объединены для выполнения новых сложных задач, что свидетельствует о потенциале семантической композиции векторов. Полученные результаты свидетельствуют о наличии внутренних абстракций универсальных функций в различных контекстах.
В дальнейших исследованиях целесообразно изучить внутреннюю структуру FV для определения закодированной информации и вклада в выполнение задач, их полезность для сложных задач и потенциал для композиции. Важно исследовать обобщаемость FV на различные модели, задачи и слои. Требуются сравнительные исследования с другими методами построения FV и исследования их взаимосвязи с техниками представления задач. Кроме того, стоит продолжить исследования применения FV в задачах обработки естественного языка, таких как генерация текста и ответы на вопросы.