Список достижений искусственного интеллекта ИИ, полученных некоммерческими исследователями

Отличия Искусственного интеллекта ИИ, достигнутые некоммерческими исследователями

В конце прошлого и начале этого года, 2023 было отличным временем для людей, работающих с ИИ, чтобы создавать приложения ИИ, и это стало возможным благодаря ряду достижений в области ИИ, сделанных некоммерческими исследователями. Вот их список:

ALiBi

ALiBi – это метод, который эффективно решает проблему экстраполяции текста в контексте трансформеров, что позволяет экстраполировать текстовые последовательности при выводе, которые длиннее того, на чем они были обучены. ALiBi – это простой в реализации метод, который не влияет на время работы и не требует дополнительных параметров, и позволяет моделям экстраполировать, просто изменив несколько строк существующего кода трансформера.

Масштабные законы экстраполяции на основе RoPE

Этот метод является фреймворком, повышающим возможности экстраполяции трансформеров. Исследователи обнаружили, что настройка Rotary Position Embedding (RoPe) на основе LLM с меньшей или большей длиной окна может привести к более высокой производительности.

FlashAttention

Трансформеры – это мощные модели, способные обрабатывать текстовую информацию. Однако они требуют большого количества памяти при работе с большими текстовыми последовательностями. FlashAttention – это алгоритм IO-ускорителя, который обучает трансформеры быстрее, чем существующие основные модели.

Branchformer

Conformer (вариант трансформера) очень эффективен при обработке речи. Он использует последовательно сверточный и самовнимательный слои, что делает его архитектуру сложной для интерпретации. Branchformer – это альтернативный кодировщик, который является гибким и интерпретируемым, и имеет параллельные ветви для моделирования зависимостей в задачах обработки речи от конца до конца.

Латентная диффузия

Хотя модели диффузии достигают передовых результатов в множестве задач обработки изображений, они вычислительно очень дорогостоящие, часто требующие сотен дней GPU. Латентные модели диффузии – это вариант моделей диффузии, которые могут достигать высокой производительности в различных задачах на основе изображений, требуя значительно меньше ресурсов.

CLIP-Guidance

CLIP-Guidance – это новый метод для генерации 3D изображений из текста, который не требует больших наборов размеченных данных. Он работает, используя предобученную модель визуально-языковой связи, такую как CLIP, которая может научиться связывать текстовые описания с изображениями. Исследователи используют ее для генерации изображений на основе текстовых описаний 3D объектов.

GPT-NeoX

GPT-NeoX – это модель авторегрессии языка с 20 миллиардами параметров. Она показывает хорошие результаты в различных задачах, связанных с знаниями и математикой. Веса модели были общедоступно предоставлены для поощрения исследований в широком диапазоне областей.

QLoRA

QLoRA – это подход к дообучению, который эффективно снижает использование памяти, позволяя дообучать модель с 65 миллиардами параметров на одном GPU объемом 48 ГБ с сохранением оптимальной производительности задач с полной точностью 16-битной арифметики. Благодаря дообучению с использованием QLoRA, модели способны достигать передовых результатов, превосходя предыдущие модели SoTA, даже имея более компактную архитектуру.

RMKV

Модель Receptance Weighted Key Value (RMKV) – это новаторская архитектура, которая объединяет преимущества трансформеров и рекуррентных нейронных сетей (RNNs), и при этом обходит их основные недостатки. RMKV обеспечивает сравнимую производительность с трансформерами аналогичного размера, что открывает путь для разработки более эффективных моделей в будущем.