Что такое слияние моделей?

Модельное слияние – волшебство или реальность?

Слияние моделей относится к процессу объединения нескольких отдельных моделей, каждая из которых разработана для выполнения отдельных задач или решения разных проблем, в одну унифицированную модель без дополнительного обучения. В зависимости от конкретной техники и цели, слияние моделей может также называться ансамблевым обучением, смешиванием моделей или стекингом моделей. Эта техника направлена на создание более универсальной и всесторонней модели машинного обучения, способной одновременно выполнять различные задачи.

В контексте LLM (языковых моделей с длительной памятью) слияние моделей может включать объединение LLM с разными инициализациями, архитектурами или обучением на разных задачах. Основная цель заключается в использовании преимуществ каждой отдельной модели и создании многозадачной LLM, способной решать более широкий круг задач. Такой подход может значительно улучшить производительность и эффективность, позволяя объединенной модели использовать знания и возможности каждой составляющей модели.

Почему объединять модели машинного обучения?

Слияние моделей машинного обучения предлагает несколько преимуществ, таких как снижение изменчивости и предвзятости прогноза путем усреднения или голосования между разными моделями. Использование сложных паттернов и особенностей из различных источников данных и моделей может повысить точность и адаптивность прогнозирования. Более того, слияние моделей может улучшить разнообразие и надежность прогноза за счет снижения зависимости от одного набора данных или алгоритма.

Слияние моделей приводит к улучшению производительности, улучшению эффективности и расширению области применения, что делает его ценной стратегией для использования преимуществ разных моделей искусственного интеллекта без необходимости дополнительного обучения.

Стратегии объединения LLM

Одним из общих подходов является объединение моделей путем усреднения их весов или параметров. В результате получается объединенная модель, которая использует знания и экспертизу, заложенные в каждой изначальной модели. Слияние моделей может также включать интеграцию признаков из каждой модели. Это особенно полезно, когда модели обучаются на задачах с определенными требованиями, которые имеют ценность для общей производительности объединенной модели.

Некоторые техники слияния моделей позволяют объединять модели до определенного слоя, создавая многоголовую модель. Такой подход может быть полезен, когда разные модели специализируются в разных аспектах задачи.

Некоторые недавние исследовательские работы по слиянию моделей

Слияние тонко настроенных моделей для лучшего предварительного обучения

В этом исследовании авторы отмечают, что предварительно обученные модели широко используются как отправная точка для задач обработки естественного языка, но их создание может быть дорогостоящим. Они предлагают новый подход слияния нескольких существующих тонко настроенных моделей с использованием среднего значения их весов. Эта объединенная модель постоянно превосходит предварительно обученные модели и часто превосходит интеробучение, при котором базовая модель настраивается на другую задачу. Процесс слияния менее зависит от целевой задачи и остается эффективным даже при уменьшении весов, обеспечивая более экономически эффективный и ресурсоэффективный метод для улучшения инициализации модели в обработке естественного языка.

Разрешение интерференции при слиянии моделей

Передача знаний, которая включает дополнительную настройку предварительно обученной модели для последующих задач, предлагает улучшенную производительность, более быструю сходимость и эффективность использования выборки. Однако модели, настроенные на конкретные задачи, часто не могут эффективно сотрудничать. Для решения этой проблемы использованы методы слияния моделей, но они часто не учитывают интерференцию между параметрами разных моделей, что приводит к снижению производительности. В ответ на это авторы предлагают метод TIES-MERGING, который разрешает проблемы интерференции путем сброса параметров, разрешения конфликтов знаков и слияния только совместимых параметров. TIES-MERGING превосходит существующие методы в различных условиях, подчеркивая важность учета интерференции при слиянии моделей для улучшения производительности и универсальности.

ZipIt! Слияние моделей разных задач без обучения

Это исследование решает проблему объединения отдельных моделей с разными инициализациями, каждой из которых обучена на отдельной задаче, в одну многозадачную модель без дополнительного обучения. В то время как предыдущие методы слияния моделей работали для моделей, обученных на одной задаче, они были неэффективными при слитии моделей, обученных на разных задачах. Авторы представляют “ZipIt”, общий метод слияния моделей с одной и той же архитектурой, чтобы преодолеть эту ограниченность. ZipIt включает две ключевые стратегии: во-первых, он позволяет сливать признаки в каждой модели для учета необъединенных признаков, а во-вторых, он поддерживает частичное слияние до определенного слоя, создавая многоголовую модель. Эти новации приводят к существенному улучшению на 20-60% по сравнению с предыдущими методами, обеспечивая эффективное слияние моделей, обученных на различных задачах.