Google AI представляет Mirasol3B Мультимодельная авторегрессионная модель для обучения с учетом аудио, видео и текстовых модальностей.

Google AI представляет Mirasol3B мультимодельная авторегрессионная модель с учетом аудио, видео и текстовых данных для обучения

В обширной области машинного обучения расшифровка сложностей, заложенных в различных модальностях – аудио, видео и тексте – представляет собой серьезную преграду. Занимаясь сложной синхронизацией модальностей, синхронизированных по времени и несинхронизированных модальностей, а также огромным объемом данных в видео и аудио сигналах, исследователи ищут инновационные решения этой проблемы. Вот появилась Mirasol3B, гениальная мультимодальная авторегрессионная модель, разработанная преданным командой Google. Эта модель справляется с вызовами различных модальностей и превосходит в обработке более длительных видео.

Прежде чем углубиться в инновации Mirasol3B, необходимо понять сложности мультимодального машинного обучения. Существующие методы борются с синхронизацией модальностей, синхронизированных по времени, таких как аудио и видео, с несинхронизированными модальностями, такими как текст. Эта проблема синхронизации осложняется обширным объемом данных, присутствующих в видео и аудио, что часто требует сжатия. Необходимость создания эффективных моделей, способных беспрепятственно обрабатывать более длительные видео, становится все более ощутимой.

Mirasol3B обозначает смену парадигмы в решении этих проблем. В отличие от традиционных моделей, он использует мультимодальную авторегрессионную архитектуру, которая отделяет моделирование синхронизированных по времени и контекстуальных модальностей. Включая авторегрессионный компонент для модальностей, синхронизированных по времени (аудио и видео), и отдельный компонент для несинхронизированных модальностей, таких как текстовая информация, Mirasol3B привносит новую перспективу.

Успех Mirasol3B зависит от искусного взаимодействия синхронизированных по времени и контекстуальных модальностей. Видео, аудио и текст обладают различными характеристиками; видео, например, является пространственно-временным визуальным сигналом с высокой частотой кадров, в то время как аудио является одномерным временным сигналом с более высокой частотой. Чтобы преодолеть различия между этими модальностями, Mirasol3B использует механизмы кросс-внимания, обеспечивающие обмен информацией между авторегрессионными компонентами. Это позволяет модели полноценно понимать отношения между различными модальностями без необходимости точной синхронизации.

Инновационность Mirasol3B заключается в применении авторегрессионного моделирования к синхронизированным по времени модальностям, что позволяет сохранить важную временную информацию, особенно в длинных видео. Видео вводится в интеллектуальные блоки, каждый из которых содержит управляемое количество кадров. Комбайнер, модуль обучения, обрабатывает эти блоки, создавая совместное представление характеристик аудио и видео. Такая авторегрессионная стратегия позволяет модели учиться распознавать отдельные блоки и их временные отношения, что является критическим аспектом для смыслового понимания.

Комбайнер является ключевым элементом успеха Mirasol3B, модуль обучения, разработанный для эффективного согласования видео и аудио сигналов. Этот модуль решает проблему обработки больших объемов данных, выбирая меньшее количество выходных характеристик, что позволяет эффективно уменьшить размерность. Комбайнер может быть различным по стилю, от простого подхода на основе Transformer до памятьного комбайнера, такого как Token Turing Machine (TTM), который поддерживает дифференцируемый модуль памяти. Оба стиля способствуют способности модели эффективно обрабатывать обширные видео и аудио входы.

Производительность Mirasol3B впечатляет. Модель постоянно превосходит современные методы оценки на различных показателях, включая MSRVTT-QA, ActivityNet-QA и NeXT-QA. Даже по сравнению с гораздо более объемными моделями, такими как Flamingo с 80 миллиардами параметров, Mirasol3B проявляет превосходные возможности с компактными 3 миллиардами параметров. Особое внимание заслуживает отличная работа модели в настройках генерации открытого текста, демонстрируя ее способность к обобщению и созданию точных ответов.

В заключение, Mirasol3B представляет собой значительный прорыв в решении проблем мульти-модального машинного обучения. Его инновационный подход, объединяющий авторегрессионное моделирование, стратегическое разделение временно-синхронизированных модальностей и эффективный Комбайнер, устанавливает новые стандарты в данной области. Возможность исследовательской команды оптимизировать производительность с помощью относительно небольшой модели, не теряя точности, позволяет рассматривать Mirasol3B как многообещающее решение для приложений реального мира, требующих надежного мульти-модального понимания. В поисках ИИ-моделей, способных понять сложность нашего мира, Mirasol3B является символом прогресса в мульти-модальном ландшафте.