Введение в самую мощную мультимодальную модель Gemini от Google технический аспект

Глубинное погружение в самую мощную мультимодальную модель Gemini от Google технический аспект

6 декабря 2023 года Google выпустил свою самую большую и мощную мультимодальную модель Gemini.

Через мультимодальное предварительное обучение Gemini достигает понимания и выводов различных входных данных. Она является первой моделью, превосходящей своими возможностями человеческих экспертов по мультимодальным задачам и демонстрирующей выдающуюся производительность в понимании и генерации кода и других задач.

Технический отчёт Google[1] состоит из 62 страниц, большая часть которых посвящена оценке модели, ссылкам и списку участников. Детали технической реализации здесь мало обсуждаются.

Эта статья предоставляет краткое введение в эту отличную мультимодальную модель на основе ценных сведений из технического отчёта.

Семейство моделей

Gemini включает в себя три модели различного масштаба, в настоящее время не доступные в открытом доступе:

Ultra: Самая мощная модель, обеспечивающая передовую производительность в различных сложных задачах, включая вывод и мультимодальные задачи.
Pro: Модель, оптимизированная по производительности, с учетом стоимости и задержек, предлагающая значительное улучшение производительности в различных задачах.
Nano: Самая эффективная модель, разработанная для запуска на устройствах. Nano имеет две версии, Nano-1 с 1,8 миллиарда параметров и Nano-2 с 3,25 миллиарда параметров, ориентированные на устройства с низким и высоким объемом памяти соответственно. Nano создается путем сжатия исходных моделей Gemini и их квантования до 4 бит. Почему создавать модель nano, а не использовать облачную модель Ultra непосредственно? Я думаю, что это, вероятно, связано с защитой конфиденциальности пользователей, чтобы устройства, такие как смартфоны, не отправляли данные пользователей в облако. Кроме того, это снижает коммуникационные затраты, перемещая расчёт вывода с облака на устройство.

Архитектура модели

Детали архитектуры модели не указаны в техническом отчёте, они лишь кратко описаны на полстраницы. Резюме следующее:

Основана на структуре декодера Transformer[2].
Поддерживает текстовый ввод, пересекающийся с различными аудио- и видео-входами, как показано на рис. 1, такими как естественные изображения, диаграммы, снимки экрана, PDF-файлы и видео.
Модель может выводить и изображения, и текст

Введение в самую мощную мультимодальную модель Gemini от Google технический аспект

Глубинное погружение в самую мощную мультимодальную модель Gemini от Google технический аспект

6 декабря 2023 года Google выпустил свою самую большую и мощную мультимодальную модель Gemini.

Семейство моделей

Архитектура модели

Эволюция в ETL Как пропуск трансформации улучшает управление данными

Mistral AI (8x7b) выпускает первую в истории открытую модель Model Of Experts (MoE) модели.

Девиз этой А.И. Субкультуры Вперед, вперед,...

ЕС принял исторические правила по искусстве...

Подход к квантовым вычислениям использует е...

Инженеры разрабатывают робототехническую ко...

Год, когда искусственный интеллект поглотил...

Блокировка Beeper Mini в iMessage от Apple ...

Новости о ИИ