Google Research представляет Генеративные бесконечно-словарные трансформеры (GIVT) Революционные последовательности векторов с реальными значениями в искусственном интеллекте

Google Research представляет Генеративные бесконечно-словарные трансформеры (GIVT) Революционный прогресс в искусственном интеллекте с последовательностями векторов реальных значений

Трансформаторы впервые были введены и быстро стали основной архитектурой в обработке естественного языка. Недавно они также завоевали огромную популярность в компьютерном зрении. Досовитский и др. показали, как создавать эффективные классификаторы изображений, превосходящие архитектуры на основе сверточных нейронных сетей при высоком масштабе модели и данных путем разделения изображений на последовательности патчей, линейного вложения этих патчей и последующего подачи результирующей последовательности признаков в трансформер-кодировщик. Для многих дискриминативных задач в области компьютерного зрения, таких как сегментация, обнаружение и классификация, этот подход является нормой. Однако, поскольку декодеры генеративных трансформеров потребляют и предсказывают дискретные токены из заранее определенного ограниченного словаря, отображение изображения в последовательность (неквантованных) признаковых векторов не подходит для производства картинок на основе трансформеров.

Подобная структура естественно подходит для естественного языка, и модели, использующие только декодеры, позволяют эффективно обучаться с помощью обучения с учителем и сильной последовательной генеративной моделирования. Недавние исследования использовали двухэтапный подход для отображения изображений в последовательность дискретных токенов с использованием векторного квантового вариационного автокодировщика (VQ-VAE), а затем обучали декодер трансформера для моделирования латентного распределения дискретных токенов. Этот подход стремится использовать эти возможности для изображений. Просто объединив словари различных модальностей, включая текст и изображения, такая токенизация изображений на основе VQ-VAE также позволяет создавать перекрещивающиеся мультимодальные генеративные модели. Хотя этот двухэтапный метод хорошо справляется с созданием изображений и мультимодального контента, у него есть несколько проблем.

Сколько данных может быть хранено в последовательности латентного кодирования и какую часть визуальной моделированием обрабатывает декодер VQ-VAE, зависит от размера словаря в VQ-VAE. Короткий словарь может упростить моделирование латентных пространств, но также снижает информативность латентного кода, что затрудняет управление деталями в формировании изображения и влияет на качество приложений, использующих токены для плотных прогностических или низкоуровневых дискриминативных задач. Увеличение размера словаря может помочь решить эту проблему, но это может привести к плохому использованию словаря, вынуждая качественные настройки VQ-VAE полагаться на различные изощренные методы, такие как потери энтропии или разделение кодовой книги. Более того, огромные словари приводят к огромным матрицам вложений, которые занимают много памяти, что может быть проблематично в мультимодальных сценариях, когда словари разных модальностей смешиваются. Члены исследовательской группы предлагают изменить декодерные трансформеры, чтобы избавиться от необходимости в дискретных токенах и, таким образом, фиксированных, ограниченных словарей, чтобы избежать этих проблем.

В частности, исследовательская группа из Google DeepMind и Google Research предлагает генеративный декодер трансформера, который работает с векторными последовательностями вещественных значений. Исследовательская группа называет это Генеративным Трансформером Безлимитного Словаря (GIVT), поскольку вещественные векторы могут рассматриваться как неограниченный словарь. Как видно на рис. 1, исследовательская группа внесла небольшие изменения в конструкцию декодера трансформера. 1) На входе исследовательская группа линейно встраивает последовательность вещественных векторов вместо поиска ограниченного словаря вложений с использованием серии дискретных токенов; 2) на выходе исследовательская группа предсказывает параметры непрерывного распределения вещественных векторов вместо предсказания параметров категориального распределения по ограниченному словарю (через логиты). Исследовательская группа обучила эту модель с использованием обучения с учителем и маски причинного внимания, точно как типичные декодеры трансформера. Кроме того, исследовательская группа исследовала быструю прогрессивную двунаправленную модель, аналогичную MaskGIT.

Рисунок 1 использует тот же дизайн только-декодера для сравнения непрерывного варианта с бесконечным словарем (GIVT, справа) с типичным декодером, генерирующим дискретные токены (слева). GIVT заменяет дискретные токены при вводе на последовательность вещественных векторов, которые линейно встраиваются. Вместо предсказания категориального распределения по ограниченному словарю, GIVT предсказывает параметры непрерывного распределения вещественных векторов при выводе.

Серия пикселей RGB, созданных путем сглаживания высокоразрешающего изображения, является примером последовательности, которую сложно непосредственно моделировать, хотя теоретически GIVT может быть применен к любой последовательности векторов признаков. Он также может быть чрезмерно длинным или иметь сложное распределение. Поэтому исследовательская команда сначала обучает пространство скрытых переменных меньшей размерности, используя Гауссовскую априори VAE, а затем моделирует его с помощью GIVT, что подобно двухэтапной технике с VQ-VAE и аналогично двухэтапному подходу моделей с латентной диффузией. Исследовательская команда также перенесла несколько стратегий вывода (например, сэмплирование по температуре и ведение без классификатора) из литературы по моделированию последовательностей.

Замечательно, что, опираясь только на действительные токены, это создает модель, которая является либо превосходящей, либо эквивалентной VQ-основанным методам. Далее кратко описываются их основные вклады:

1. С использованием UViM исследовательская команда показывает, что GIVT достигает такой же или лучшей производительности, чем типичный дискретный трансформерный декодер, на задачах плотного прогнозирования, включая семантическую сегментацию и оценку глубины, а также синтез изображений.

2. Исследовательская команда получила и доказала эффективность вариаций традиционных методов сэмплирования для непрерывного случая, включая сэмплирование по температуре, поиск лучей и ведение без классификатора (CFG).

3. С использованием взвешивания KL-термов исследовательская команда исследует связь между уровнем регуляризации пространства скрытых переменных VAE и характеристиками, проявляющимися в GIVT. Исследовательская команда подчеркивает, что сложные методы обучения из литературы по VQ-VAE, такие как вспомогательные потери на скрытом представлении, реинициализация кодовой книги или специализированные алгоритмы оптимизации, не используются в обучении VAE и GIVT; они полагаются просто на обычные подходы нормальных инструментов глубокого обучения.