Google AI представляет PaLI-3 меньшую, более быстродействующую и более мощную модель Vision Language (VLM), которая сравнима с аналогичными моделями, которые в 10 раз больше.

Google AI представляет PaLI-3 новую модель Vision Language (VLM), более компактную, быстродействующую и мощную, сравнимую с моделями, размером в 10 раз больше.

Модель языка зрения (VLM) – это передовая система искусственного интеллекта, которая объединяет понимание естественного языка с возможностями распознавания изображений. Как и CLIP от OpenAI и BigGAN от Google, VLM может понимать текстовые описания и интерпретировать изображения, что позволяет использовать их в различных областях, таких как компьютерное зрение, генерация контента и взаимодействие человек-компьютер. Они продемонстрировали впечатляющие способности в понимании и генерации текста в контексте визуального контента, что делает их ключевой технологией в области искусственного интеллекта.

Исследователи из Google Research, Google DeepMind и Google Cloud сравнивают модели Vision Transformer (ViT), предварительно обученные с задачами классификации и контрастного кодирования, причем модели, предварительно обученные с контрастным подходом, особенно на основе SigLIP, превосходят в задачах многомодального обучения, в том числе локализации и понимания текста. Исследователи масштабировали кодировщик изображений SigLIP до 2 миллиардов параметров, достигнув нового уровня в мультиязычной перекрестно-модальной выборке. Их исследование призывает к предварительному обучению визуальных кодировщиков на масштабе всего Интернета с использованием данных изображений и текста, а не на данных классификации. Их подход показывает преимущества масштабирования предварительно обученных кодировщиков изображений для задач больших моделей языка зрения.

Их исследование касается масштабирования модели VLM и акцентирует важность моделей меньшего масштаба для практики и эффективных исследований. Они представляют PaLI-3, модель VLM с 5 миллиардами параметров и конкурентоспособными результатами. Процесс обучения PaLI-3 включает контрастное предварительное обучение кодировщика изображений на данных масштаба всего Интернета, улучшенное сочетание данных и обучение с использованием изображений более высокого разрешения. Введена мультиязычная контрастная модель зрения с 2 миллиардами параметров. Исследуется преимущество контрастно предварительно обученных моделей в задачах локализации и понимания текста, особенно на основе визуального контента.

В их подходе в качестве кодировщика изображений используется предварительно обученная модель ViT, именно ViT-G14, с использованием методики обучения SigLIP. ViT-G14 имеет около 2 миллиардов параметров и служит визионным основанием для PaLI-3. Контрастное предварительное обучение включает встраивание изображений и текстов по отдельности и классификацию их соответствия. Визуальные токены из выхода ViT проецируются и комбинируются с текстовыми токенами. Затем эти входные данные обрабатываются кодировщиком-декодером UL2 с 3-миллиардными параметрами для генерации текста, обычно основываясь на задаче, например, вопросах VQA.

PaLI-3 превосходит большие модели, особенно в локализации и понимании текста в визуальной среде. Модель PaLI, основанная на контрастном кодировщике изображений, предварительно обученном на данных, устанавливает новую мультиязычную перекрестно-модальную выборку. Полная модель PaLI-3 превосходит state-of-the-art в сегментации выражений ссылающихся на объекты и имеет низкий уровень ошибок в задачах обнаружения для разных подгрупп. Контрастное предварительное обучение оказывается более эффективным для задач локализации. Кодировщик изображений ViT-G в PaLI-3 превосходит в задачах многоклассовой классификации и перекрестной выборки модальностей.

В заключение их исследования акцентирует внимание на преимуществах контрастного предварительного обучения, продемонстрированных подходом на основе SigLIP, для улучшения и эффективности моделей VLM. Модель PaLI-3 с 5 миллиардами параметров, основанная на SigLIP, превосходит по результатам модели большего масштаба в задачах локализации и понимания текста на разнообразных многомодальных бенчмарках. Контрастное предварительное обучение кодировщика изображений в PaLI-3 также позволяет достичь нового уровня в мультиязычной перекрестной выборке модальностей. Их исследование подчеркивает необходимость всестороннего изучения различных аспектов обучения моделей VLM, помимо предварительного обучения кодировщиков изображений, для дальнейшего улучшения их производительности.