Google AI представляет CHITA оптимизационный подход для обрезки предварительно обученных нейронных сетей в масштабе

Google AI представляет CHITA - оптимизационный подход для обрезки нейронных сетей в масштабе

“`html

Результаты сегодняшних нейронных сетей в таких различных областях, как язык, математика и зрение, впечатляющи. Однако эти сети обычно используют сложные структуры, которые требуют больших вычислительных ресурсов. При работе с ограниченными ресурсами, такими как носимые устройства и смартфоны, доставка таких моделей пользователям может быть непрактичной. Обрезка предварительно обученных сетей включает удаление части их весов, при этом убеждаясь, что снижение полезности незначительно, чтобы снизить их стоимость вывода. Каждый вес в типичной нейронной сети определяет связь между двумя нейронами. После сокращения последствий вход будет проходить через более управляемое подмножество связей, сокращая время обработки, необходимое для этого.

CHITA (Combinatorial Hessian-free Iterative Thresholding Algorithm) – это эффективный оптимизационный подход для обрезки крупномасштабных сетей, разработанный группой исследователей из MIT и Google. Этот метод основан на предыдущих исследованиях, которые аппроксимировали функцию потерь с использованием локальной квадратичной функции второго порядка гессиана. В отличие от других подходов, они используют простую, но важную идею, которая позволяет им решать задачу оптимизации без вычисления и хранения матрицы гессиана (отсюда и название “Hessian-free” в CHITA) и эффективно обрабатывать массовые сети.

Для дальнейшего сокращения регрессионной реформуляции они предлагают новый метод, который использует стратегии активных множеств, улучшенный выбор шага и другие техники для ускорения сходимости к выбранной поддержке. По сравнению с широко используемыми в литературе о разреженном обучении методами итеративного жесткого порога, предложенная методология дает существенные преимущества. Этот фреймворк может сократить размер сетей с числом параметров до 4,2 млн. на 20%.

Вот краткое изложение вкладов:

На основе локальных квадратичных аппроксимаций функции потерь исследователи представляют CHITA – оптимизационный фреймворк для обрезки сетей.

Они предлагают ограниченную регрессионную реформулировку для устранения памяти, связанной с хранением большой плотной гессианской матрицы.

CHITA сильно полагается на новый метод на основе IHT для получения качественных решений для разреженной регрессии. Используя структуру проблемы, они предлагают решения для ускорения сходимости и повышения производительности обрезки, такие как новая и эффективная стратегия выбора шага и быстрые обновления весов поддержки. По сравнению со стандартными алгоритмами обрезки сетей, это может улучшить производительность на порядок тысячи.

Исследователи также продемонстрировали улучшения в производительности модели и набора данных.

Эффективная формулировка обрезки для вычисления

Путем сохранения только некоторых весов из исходной сети можно получить различные варианты обрезки. Пусть k представляет собой набор параметров удерживаемых весов, указанных пользователем. Среди всех потенциальных вариантов обрезки (т.е. подмножеств весов, с сохранением только k весов), выбирается вариант с наименьшей потерей. Это логическая формулировка обрезки как задачи выбора лучшего подмножества (BSS).

CHITA избегает явного вычисления матрицы гессиана, одновременно используя всю ее информацию, применяя переформулированную версию проблемы обрезки (BSS с квадратичной потерей). Это становится возможным благодаря факту, что эмпирическая матрица информации Фишера является матрицей низкого ранга. Эта новая форма может рассматриваться как задача разреженной линейной регрессии, где веса нейронов в сети представляют собой коэффициенты регрессии.

Алгоритмы оптимизации, масштабирующиеся хорошо

С учетом условия разреженности, при котором не более k коэффициентов регрессии могут быть нулевыми, CHITA преобразует обрезку в задачу линейной регрессии. Исследователи задумываются об изменении популярной техники итеративного жесткого порога (IHT) для решения этой проблемы. Все коэффициенты регрессии, не входящие в Топ-k (т.е. k коэффициентов с наибольшим абсолютным значением), обнуляются после каждого обновления в градиентном спуске IHT. В большинстве случаев IHT дает удовлетворительный ответ, оптимизируя веса и итеративно рассматривая возможные варианты обрезки.

В заключение, исследователи представили CHITA – уникальную формулировку ограниченной регрессии без гессиана и базирующуюся на комбинаторной оптимизации методику обрезки сетей. Этот одноэтапный подход значительно улучшает время выполнения и использование памяти, сохраняя при этом результаты, сравнимые с предыдущими методами. Кроме того, многоэтапная стратегия может повысить точность модели, так как она основана на одноэтапной методологии. Исследователи также показали, что с помощью техник обрезки можно достичь разреженных сетей с высокой точностью, сохраняя при этом современные методы постепенной обрезки.

“`