Введение в самую мощную мультимодальную модель Gemini от Google технический аспект

Глубинное погружение в самую мощную мультимодальную модель Gemini от Google технический аспект

6 декабря 2023 года Google выпустил свою самую большую и мощную мультимодальную модель Gemini.

Через мультимодальное предварительное обучение Gemini достигает понимания и выводов различных входных данных. Она является первой моделью, превосходящей своими возможностями человеческих экспертов по мультимодальным задачам и демонстрирующей выдающуюся производительность в понимании и генерации кода и других задач.

Технический отчёт Google[1] состоит из 62 страниц, большая часть которых посвящена оценке модели, ссылкам и списку участников. Детали технической реализации здесь мало обсуждаются.

Эта статья предоставляет краткое введение в эту отличную мультимодальную модель на основе ценных сведений из технического отчёта.

Семейство моделей

Gemini включает в себя три модели различного масштаба, в настоящее время не доступные в открытом доступе:

  • Ultra: Самая мощная модель, обеспечивающая передовую производительность в различных сложных задачах, включая вывод и мультимодальные задачи.
  • Pro: Модель, оптимизированная по производительности, с учетом стоимости и задержек, предлагающая значительное улучшение производительности в различных задачах.
  • Nano: Самая эффективная модель, разработанная для запуска на устройствах. Nano имеет две версии, Nano-1 с 1,8 миллиарда параметров и Nano-2 с 3,25 миллиарда параметров, ориентированные на устройства с низким и высоким объемом памяти соответственно. Nano создается путем сжатия исходных моделей Gemini и их квантования до 4 бит. Почему создавать модель nano, а не использовать облачную модель Ultra непосредственно? Я думаю, что это, вероятно, связано с защитой конфиденциальности пользователей, чтобы устройства, такие как смартфоны, не отправляли данные пользователей в облако. Кроме того, это снижает коммуникационные затраты, перемещая расчёт вывода с облака на устройство.

Архитектура модели

Детали архитектуры модели не указаны в техническом отчёте, они лишь кратко описаны на полстраницы. Резюме следующее:

  • Основана на структуре декодера Transformer[2].
  • Поддерживает текстовый ввод, пересекающийся с различными аудио- и видео-входами, как показано на рис. 1, такими как естественные изображения, диаграммы, снимки экрана, PDF-файлы и видео.
  • Модель может выводить и изображения, и текст