Список достижений искусственного интеллекта ИИ, полученных некоммерческими исследователями
Отличия Искусственного интеллекта ИИ, достигнутые некоммерческими исследователями
В конце прошлого и начале этого года, 2023 было отличным временем для людей, работающих с ИИ, чтобы создавать приложения ИИ, и это стало возможным благодаря ряду достижений в области ИИ, сделанных некоммерческими исследователями. Вот их список:
ALiBi – это метод, который эффективно решает проблему экстраполяции текста в контексте трансформеров, что позволяет экстраполировать текстовые последовательности при выводе, которые длиннее того, на чем они были обучены. ALiBi – это простой в реализации метод, который не влияет на время работы и не требует дополнительных параметров, и позволяет моделям экстраполировать, просто изменив несколько строк существующего кода трансформера.
- Исследователи университета Цинхуа предлагают модели скрытого согласования (LCMs) следующее поколение моделей ИИ-генераторов после моделей латентного распространения (LDMs).
- Исследователи из Yale и Google DeepMind разблокировали успех в решении математических задач с помощью передовых техник точной настройки на больших языковых моделях.
- Исследователи из Университета Вашингтона и NVIDIA предлагают агентов-гуманоидов платформу искусственного интеллекта для человекоподобных симуляций создателей.
Масштабные законы экстраполяции на основе RoPE
Этот метод является фреймворком, повышающим возможности экстраполяции трансформеров. Исследователи обнаружили, что настройка Rotary Position Embedding (RoPe) на основе LLM с меньшей или большей длиной окна может привести к более высокой производительности.
Трансформеры – это мощные модели, способные обрабатывать текстовую информацию. Однако они требуют большого количества памяти при работе с большими текстовыми последовательностями. FlashAttention – это алгоритм IO-ускорителя, который обучает трансформеры быстрее, чем существующие основные модели.
Conformer (вариант трансформера) очень эффективен при обработке речи. Он использует последовательно сверточный и самовнимательный слои, что делает его архитектуру сложной для интерпретации. Branchformer – это альтернативный кодировщик, который является гибким и интерпретируемым, и имеет параллельные ветви для моделирования зависимостей в задачах обработки речи от конца до конца.
Хотя модели диффузии достигают передовых результатов в множестве задач обработки изображений, они вычислительно очень дорогостоящие, часто требующие сотен дней GPU. Латентные модели диффузии – это вариант моделей диффузии, которые могут достигать высокой производительности в различных задачах на основе изображений, требуя значительно меньше ресурсов.
CLIP-Guidance – это новый метод для генерации 3D изображений из текста, который не требует больших наборов размеченных данных. Он работает, используя предобученную модель визуально-языковой связи, такую как CLIP, которая может научиться связывать текстовые описания с изображениями. Исследователи используют ее для генерации изображений на основе текстовых описаний 3D объектов.
GPT-NeoX – это модель авторегрессии языка с 20 миллиардами параметров. Она показывает хорошие результаты в различных задачах, связанных с знаниями и математикой. Веса модели были общедоступно предоставлены для поощрения исследований в широком диапазоне областей.
QLoRA – это подход к дообучению, который эффективно снижает использование памяти, позволяя дообучать модель с 65 миллиардами параметров на одном GPU объемом 48 ГБ с сохранением оптимальной производительности задач с полной точностью 16-битной арифметики. Благодаря дообучению с использованием QLoRA, модели способны достигать передовых результатов, превосходя предыдущие модели SoTA, даже имея более компактную архитектуру.
Модель Receptance Weighted Key Value (RMKV) – это новаторская архитектура, которая объединяет преимущества трансформеров и рекуррентных нейронных сетей (RNNs), и при этом обходит их основные недостатки. RMKV обеспечивает сравнимую производительность с трансформерами аналогичного размера, что открывает путь для разработки более эффективных моделей в будущем.