Исследователи Университета Калифорнии в Беркли предлагают CRATE новый белый ящик-трансформер для эффективного сжатия данных и разрежения в глубоком обучении

Команда исследователей Университета Калифорнии в Беркли разработала новый белый ящик-трансформер CRATE для эффективного сжатия данных и разрежения в глубоком обучении

Практический успех глубинного обучения в обработке и моделировании больших объемов высокомерных и многомодальных данных растет экспоненциально в последние годы. Большая часть этого достижения может быть объяснена способностью глубинных сетей находить сжимаемые маломерные структуры данных и в последующем преобразовывать эти открытия в компактное и структурированное представление. Такое представление упрощает многие последующие задачи, включая видение, классификацию, распознавание и сегментацию, а также генерацию.

Чтобы научиться организованным и сжатым представлениям, исследователи из Университета Калифорнии в Беркли, Тойота Технологического института в Чикаго, Шанхайского технологического университета, Университета Джонса Хопкинса, Университета Иллинойса и Гонконгского университета предлагают одну цель: принципиальную меру хорошести. В своей работе исследователи утверждают, что одна из самых распространенных целей обучения представления – уменьшение размерности пространства, в котором хранятся представления данных (в данном случае, наборы токенов), путем подгонки их к гауссовой смеси, которую затем поддерживают несогласованные подпространства. Благотворность такого представления можно оценить с использованием принципиальной меры, называемой снижением разреженности, одновременно оптимизирующей внутренний прирост информации и внешнюю разреженность изученного представления. Итерационные подходы для максимизации этой метрики можно рассматривать как то, что популярные конструкции глубоких сетей, такие как трансформаторы. В частности, чередование оптимизации по различным аспектам этой цели позволяет получить блок трансформатора: сначала оператор многоголового самовнимания сжимает представление с помощью приближенного шага градиентного спуска по кодировочному коэффициенту признаков, а затем последующий многослойный перцептрон указывает функции.

Это привело их к проектированию глубинной сети, похожей на трансформатор, которая является полностью “белым ящиком” в том смысле, что ее цель оптимизации, операторы сети и изученное представление полностью интерпретируются математически. Они называют этот тип глубокой архитектуры “ящиком” или “ящик-трансформатором”, что является сокращением от “кодировочного” трансформатора. Команда также предоставляет строгие математические доказательства того, что эти инкрементные отображения обратимы в смысле распределения, а обратные состоят из той же семейного оператора. Поэтому кодеры, декодеры и автоэнкодеры все могут быть реализованы с использованием примерно одинаковой конструкции ящика.

Чтобы показать, что этот фреймворк действительно может преодолеть разрыв между теорией и практикой, исследователи провели обширные эксперименты как на изображениях, так и на текстовых данных, чтобы оценить практическую производительность модели ящика на широком спектре задач обучения и настроек, на которых показали высокую производительность обычные трансформаторы, такие как ViT, MAE, DINO, BERT и GPT2. Удивительно, что ящик показал конкурентоспособную производительность по сравнению с аналогичными чёрными ящиками на всех задачах и настройках, включая классификацию изображений с помощью обучения с учителем, самоучительное маскирование для изображений и текстовых данных, а также обучение признаков без учителя для изображений. Кроме того, модель ящика обладает многими полезными характеристиками. Она обладает семантическим значением, легко сегментирует объект от фона и разбивает его на общие части. Каждый слой и оператор сети имеют статистическое и геометрическое значение. Они считают, что предложенная вычислительная парадигма обладает огромным потенциалом для связывания теории и практики глубинного обучения с единой точки зрения сжатия данных.

Команда отмечает, что при ограниченных ресурсах они не стремятся к передовой производительности по всем вышеперечисленным задачам, для которых требуется сложная инженерная работа или значительная настройка, и они также не могут строить и тестировать свои модели в настоящий момент в промышленных масштабах. Разработанные ими решения для этих задач являются обычно общими и лишены задаче специфической гибкости. Однако они считают, что эти исследования недвусмысленно доказали, что модель глубокой сети с белым ящиком, построенная на этих данных, является всесильной и предоставляет надежную основу для будущих исследований и разработок.

На крупномасштабных реальных (изображениях или текстовых) наборах данных и задачах (дискриминационных и генеративных), в контролируемых, неконтролируемых и самостоятельных ситуациях, эти сети показывают производительность, сопоставимую с опытными трансформаторами, несмотря на то, что они, возможно, являются самыми простыми среди всех доступных архитектур. Они считают, что эта работа предлагает новую перспективу, которая может пролить свет на все возможности текущих систем искусственного интеллекта, которые часто основаны на глубинных сетях, таких как трансформатор.