Введение в самую мощную мультимодальную модель Gemini от Google технический аспект
Глубинное погружение в самую мощную мультимодальную модель Gemini от Google технический аспект
6 декабря 2023 года Google выпустил свою самую большую и мощную мультимодальную модель Gemini.
Через мультимодальное предварительное обучение Gemini достигает понимания и выводов различных входных данных. Она является первой моделью, превосходящей своими возможностями человеческих экспертов по мультимодальным задачам и демонстрирующей выдающуюся производительность в понимании и генерации кода и других задач.
Технический отчёт Google[1] состоит из 62 страниц, большая часть которых посвящена оценке модели, ссылкам и списку участников. Детали технической реализации здесь мало обсуждаются.
Эта статья предоставляет краткое введение в эту отличную мультимодальную модель на основе ценных сведений из технического отчёта.
Семейство моделей
Gemini включает в себя три модели различного масштаба, в настоящее время не доступные в открытом доступе:
- Microsoft присоединяется к американским профсоюзам для обсуждения трудовой силы в области искусственного интеллекта
- Windows 12 с магией искусственного интеллекта взгляд в будущее технологий
- Предварительное соглашение ЕС о регулировании искусственного интеллекта последствия для ChatGPT
- Ultra: Самая мощная модель, обеспечивающая передовую производительность в различных сложных задачах, включая вывод и мультимодальные задачи.
- Pro: Модель, оптимизированная по производительности, с учетом стоимости и задержек, предлагающая значительное улучшение производительности в различных задачах.
- Nano: Самая эффективная модель, разработанная для запуска на устройствах. Nano имеет две версии, Nano-1 с 1,8 миллиарда параметров и Nano-2 с 3,25 миллиарда параметров, ориентированные на устройства с низким и высоким объемом памяти соответственно. Nano создается путем сжатия исходных моделей Gemini и их квантования до 4 бит. Почему создавать модель nano, а не использовать облачную модель Ultra непосредственно? Я думаю, что это, вероятно, связано с защитой конфиденциальности пользователей, чтобы устройства, такие как смартфоны, не отправляли данные пользователей в облако. Кроме того, это снижает коммуникационные затраты, перемещая расчёт вывода с облака на устройство.
Архитектура модели
Детали архитектуры модели не указаны в техническом отчёте, они лишь кратко описаны на полстраницы. Резюме следующее:
- Основана на структуре декодера Transformer[2].
- Поддерживает текстовый ввод, пересекающийся с различными аудио- и видео-входами, как показано на рис. 1, такими как естественные изображения, диаграммы, снимки экрана, PDF-файлы и видео.
- Модель может выводить и изображения, и текст