Знакомьтесь с YaRN вычислительно эффективным методом расширения контекстного окна языковых моделей на основе трансформеров, требующим в 10 раз меньше токенов и в 2,5 раза меньше шагов обучения, чем предыдущие методы.
Познакомьтесь с YaRN - эффективным методом расширения контекстного окна языковых моделей на основе трансформеров. Он требует в 10 раз меньше токенов и в 2,5 раза меньше шагов обучения, чем предыдущие методы.
Большие языковые модели, такие как чат GPT, могут учитывать более широкий контекст в тексте, что позволяет им понимать и генерировать более связные и контекстуально значимые ответы. Это особенно полезно в задачах, таких как заполнение текста, где понимание всего контекста документа критично.
Эти модели могут улавливать сложные взаимосвязи и зависимости внутри документа, даже если они охватывают множество токенов. Расширение контекстного окна в контексте больших языковых моделей, таких как GPT-3 или GPT-4, относится к диапазону текста или токенов, который модель учитывает при генерации или понимании языка. Это ценно для задач, таких как резюмирование документов, где резюме должно быть основано на всестороннем понимании документа.
Встраивание позиционного вращения (RoPE) улучшает способность моделей обрабатывать последовательные данные и улавливать позиционную информацию внутри последовательностей. Однако эти модели должны обобщаться за пределы длины последовательности, на которой они были обучены. Исследователи из Nous Research, Eleuther AI и Университета Женевы представляют YaRN (Yet another RoPE extension method), который может вычислять эффективные способы расширения контекстного окна таких моделей.
- Тензорная квантование не рассказанная история
- Как на самом деле работает Устойчивая диффузия? Интуитивное объяснение
- Лучшие практики и шаблоны проектирования для построения рабочих процессов машинного обучения с использованием конвейеров Amazon SageMaker
RoPE использует вращения комплексных чисел как встраивание позиционного вращения, позволяющее модели эффективно кодировать позиционную информацию, не полагаясь исключительно на фиксированные встраивания позиций. Это поможет модели точнее улавливать долгосрочные зависимости. Параметры, управляющие вращениями, обучаются в процессе обучения модели. Модель может адаптивно настраивать вращения, чтобы лучше улавливать позиционные взаимосвязи между токенами.
Использованный ими метод – это компрессивные трансформеры, которые используют механизмы внешней памяти для расширения контекстного окна. Они сохраняют и извлекают информацию из внешнего банка памяти, что позволяет им получать доступ к контексту за пределами их стандартного размера окна. Были разработаны расширения архитектуры трансформера, включающие компоненты памяти, позволяющие модели сохранять и использовать информацию из предыдущих токенов или примеров.
Их эксперименты показывают, что YaRN успешно достигает расширения контекстного окна LLMs всего за 400 обучающих шагов, что составляет 0,1% от изначального корпуса предварительного обучения модели, снижение в 10 раз от 25 и сокращение количества обучающих шагов в 2,5 раза от 7. Это делает его высокоэффективным с вычислительной точки зрения для обучения без дополнительных затрат на вывод.
В целом, YaRN улучшает все существующие методы интерполяции RoPE и заменяет PI без негативных последствий и минимальных усилий по реализации. Файнтюнинговые модели сохраняют свои первоначальные возможности на множестве показателей, в то время как способны обрабатывать очень больший контекст. Будущие исследования могут включать увеличение памяти, которое может быть объединено с традиционными моделями NLP. Модель на основе трансформера может включать внешние банки памяти для хранения контекстуально значимой информации для последующих задач, таких как вопросно-ответная система или машинный перевод.