Исследователи Microsoft представляют LoRAShear новый эффективный подход искусственного интеллекта для структурной подрезки LLM и восстановления знаний.

Исследователи Microsoft представляют LoRAShear новый эффективный подход искусственного интеллекта для украшения стрижек и восстановления волос.

LLM-ы могут обрабатывать огромные объемы текстовых данных и быстро извлекать актуальную информацию. Это находит применение в поисковых системах, системах вопросов и ответов и анализе данных, помогая пользователям легче находить необходимую информацию. LLM-ы могут усиливать человеческие знания, предоставляя мгновенный доступ к огромным базам данных информации, что может быть ценным для исследователей, специалистов и лиц, ищущих знания в различных областях.

Восстановление знаний является одной из самых важных задач в LLM. Один из общих способов восстановления знаний в LLM-ах – это тонкая настройка. Разработчики могут взять предварительно обученную модель и тонко настроить ее на определенном наборе данных, чтобы обновить ее знания. Если вы хотите, чтобы модель была знающей о последних событиях или специализированных областях, тонкая настройка с соответствующими данными может помочь. Исследователи и организации, поддерживающие LLM-ы, периодически обновляют их новой информацией, что включает повторное обучение модели с более новым набором данных или конкретной процедурой обновления знаний.

Исследователи из Microsoft разработали новый эффективный подход для сокращения LLM и структурного восстановления знаний. Они называют его “LoRAShear”. Структурное сокращение означает удаление или уменьшение определенных компонентов или элементов архитектуры нейронной сети, чтобы она стала более эффективной, компактной и требующей меньшего вычислительного ресурса. Они предлагают Lora Half-Space Projected Gradient (LHSPG), чтобы обеспечить прогрессивное структурированное сокращение с встроенным передачей знаний через модули LoRA и динамическим этапом восстановления знаний для выполнения многоступенчатой тонкой настройки как предварительного обучения, так и инструктивной тонкой настройки.

Исследователи говорят, что LoRAShear может применяться к общим LLM-ам путем анализа графов зависимостей по модулям LoRA в LLM-ах. Их подход уникальным образом определяет алгоритм создания графов зависимостей для исходного LLM и модулей LoRA. Они также вводят структурированный алгоритм оптимизации разреженности, который использует информацию от модулей LoRA для обновления весов, что повышает сохранение знаний.

LoRAPrune интегрирует LoRA с итерационным структурированным сокращением, достигая эффективной тонкой настройки параметров и прямого аппаратного ускорения. Они говорят, что этот подход является эффективным по памяти, поскольку он полагается только на веса и градиенты LoRA для критериев сокращения. По данному LLM они строят трассирующий граф и устанавливают группы узлов, которые должны быть сжаты. Они разбивают обучаемые переменные на структуры с минимальным удалением, изменяют группу обучаемых переменных и возвращают его обратно в LLM.

Они демонстрируют его эффективность, реализовав его на открытом исходном коде LLAMAv1. Они обнаружили, что 20% усеченный LLAMAv1 теряет 1% производительности, а 50% усеченная модель сохраняет 82% производительности по оценочным показателям. Однако его применение к LLM-ам сталкивается с серьезными проблемами из-за требований огромных вычислительных ресурсов и недоступных наборов данных для обучения как предварительного обучения, так и инструктивной тонкой настройки, и в дальнейшей работе потребуется разрешить эти проблемы.