Исследователи из Университета Амстердама и Qualcomm AI представляют VeRA новый метод AI донастройки, который сокращает количество обучаемых параметров в 10 раз по сравнению с LoRA.

Ученые из Университета Амстердама и Qualcomm AI представляют VeRA – новый метод AI донастройки, сокращающий количество обучаемых параметров в 10 раз по сравнению с LoRA.

С расширением области применения приложений для обработки естественного языка появился растущий спрос на модели, которые могут эффективно понимать и действовать в соответствии с конкретными инструкциями при минимальной вычислительной сложности и требованиях к памяти. В данном исследовании подчеркиваются ограничения существующих методов и представляется новый подход, известный как VeRA, целью которого является значительная оптимизация процессов настройки инструкций.

Языковые модели часто нуждаются в помощи в памяти и вычислительных требованиях, что делает их менее эффективными для применения в реальных приложениях. Для решения этой проблемы исследователи представляют VeRA, новый метод, который позволяет модели Llama2 7B эффективно следовать инструкциям, используя только 1,4 миллиона обучаемых параметров. Это значительное продвижение по сравнению с ранее использованным методом LoRA, который требовал значительно большего количества параметров – 159,9 миллиона и имел ранг 64, как предложено Dettmers и др. Значительное снижение количества параметров при сохранении уровня производительности демонстрирует эффективность и перспективы подхода VeRA.

Успех метода VeRA можно объяснить его комплексной стратегией тонкой настройки, в основном сосредоточенной на всех линейных слоях, кроме верхнего. Кроме того, использование методов квантования для обучения на одном графическом процессоре и использование очищенной версии набора данных Alpaca оказались важными для демонстрации возможностей VeRA. Исследовательская группа провела обучение на поднаборе из 10 000 примеров из набора данных Alpaca, предшествовавшее всестороннему определению оптимальной скорости обучения. Такой тщательный подход к выбору данных и методологии обучения подчеркивает надежность и надежность результатов исследования.

В этапе оценки исследовательская группа использовала подход, аналогичный подходу Chiang и др., генерируя модельные ответы на предопределенный набор из 80 вопросов и оценивая эти ответы с помощью GPT-4. Результаты, представленные в таблице 4, подчеркивают превосходную производительность метода VeRA, что подтверждается более высокими общими баллами по сравнению с традиционным подходом LoRA. Это значительное достижение подчеркивает эффективность подхода VeRA в обеспечении улучшенных возможностей следования инструкциям при сохранении оптимальной эффективности.

Влияние метода VeRA выходит за пределы его непосредственного применения, сигнализируя о сдвиге парадигмы в настройке инструкций и оптимизации языковой модели. За счет существенного снижения числа обучаемых параметров VeRA эффективно решает критическое препятствие при применении языковых моделей, открывая путь к более эффективным и доступным сервисам искусственного интеллекта. Этот прорыв имеет огромный потенциал для различных отраслей и секторов, основанных на решениях, управляемых искусственным интеллектом, предлагая практический и эффективный подход к настройке инструкций для различных приложений.

В заключение, появление метода VeRA является значительным вехой в эволюции языковых моделей и методологий настройки инструкций. Его успех является свидетельством возможности достижения оптимальной производительности при минимальной вычислительной сложности и требованиях к памяти. По мере роста спроса на эффективные и практичные решения искусственного интеллекта, метод VeRA служит свидетельством текущих достижений в исследованиях ИИ и его потенциала для преобразования различных отраслей и секторов. Результаты исследовательской группы являются значительным шагом вперед в стремлении к более доступным и упрощенным решениям ИИ, создавая основу для будущих инноваций и разработок в области обработки естественного языка и методике настройки инструкций.