EPFL и исследователи Apple делают открытым исходный код 4M фреймворк искусственного интеллекта для обучения многомодальных моделей основы с использованием десятков модалей и задач.

EPFL и исследователи Apple открывают исходный код 4M фреймворка искусственного интеллекта для обучения многомодальных моделей базовые принципы, десятки моделей и задач.

Тренировка больших языковых моделей (LLMs), способных естественно решать различные задачи без особых корректировок, стала более популярной в области обработки естественного языка (NLP). Однако все еще существует необходимость создания таких же гибких и масштабируемых моделей для зрения, несмотря на то, что эти модели показали выдающийся успех в NLP. Возможность управлять множеством входных модальностей и выходных задач является ключевой для масштабируемости и гибкости зрения.

Модели зрения должны работать с различными сенсорными входами, включая изображения, 3D и текст, и выполнять различные задачи. В отношении зрения тренировка на RGB изображениях с единственной целью не дала таких же результатов, как языковое моделирование на исходном тексте, что привело к возможности многозадачности в обработке естественного языка. В результате тренировка должна использовать различные модальности и задачи.

Данные, архитектура и цель тренировки – три критических фактора масштабируемости, которые следует принять во внимание при построении модели с необходимыми атрибутами базовой модели зрения. Масштабируемость данных означает возможность использования большего количества обучающих примеров для улучшения производительности. В архитектурном плане масштабируемость означает, что производительность улучшается с увеличением размера модели и остается стабильной при обучении на больших размерах. Наконец, масштабируемая цель тренировки должна эффективно справляться с увеличением количества модальностей, не приводя к резкому росту вычислительных затрат.

Новые исследования Швейцарского федерального технологического института Лозанны (EPFL) и Apple нацелены на достижение масштабируемости во всех трех областях и совместимости с различными типами входных данных.

Для преодоления этих преград команда предлагает стратегию, которая включает тренировку единственного интегрированного кодировщика-декодера Transformer с многомодальной маскированной моделью. 4M означает “Massively Multimodal Masked Modeling”, подчеркивая возможность поддержки нескольких разнообразных модальностей. Этот подход сочетает в себе лучшие черты маскированного моделирования и многомодального обучения:

  1. Сильные возможности перекрестного модального предсказательного кодирования и общие представления сцены;
  2. Итеративное выборочное решение позволяет использовать модели для генеративных задач;
  3. Предварительная тренировка имеет цель эффективно изучить богатые представления.

Важно отметить, что 4M объединяет эти преимущества, сохраняя при этом эффективность через множество процессов. С помощью модально-специфических токенайзеров модальности могут быть преобразованы с различными форматами в наборы или последовательности дискретных токенов, что позволяет обучать единственный Transformer на тексте, ограничивающих рамках, изображениях или функциях нейронных сетей, среди других. Это обединяет их представительные области. Поскольку больше не требуются модально-специфические кодировщики и головы, Transformer может использоваться с любой модальностью и сохранять полное параметрическое совместное использование функций благодаря этому токенизированному подходу, улучшая совместимость, масштабируемость и совместное использование.

Кроме того, 4M может эффективно тренироваться, используя маскирование входных и целевых данных, даже если оно оперирует с большой коллекцией модальностей. Это требует выбора небольшого подмножества токенов случайным образом из всех модальностей для использования в качестве входных данных модели и другого небольшого подмножества в качестве целей. Для достижения масштабируемой цели тренировки необходимо отделить количество входных и целевых токенов от количества модальностей. Это предотвращает резкий рост вычислительных затрат с увеличением количества модальностей. С использованием CC12M и других доступных одномодальных наборов данных или текстово-изображенческих пар, они создают модально-выровненные связующие данные с использованием мощных сетей псевдомаркировки.

Благодаря этому методу псевдомаркировки возможно тренировать на различных и масштабных наборах данных без необходимости в мультимодальных/многозадачных аннотациях. Кроме того, 4M-модели, не требующие дополнительной настройки для различных входных модальностей, могут быть доведены до рemarkable результатов на неожиданных последующих задачах и модальностях ввода.

Кроме того, для тренировки стабильных генеративных моделей, которые могут быть управляемыми с помощью любой модальности, необходимо использовать маскированную мультимодальную модель цели. Это позволяет разнообразно выражать намерения пользователя и выполнять различные задачи по редактированию модальностей. Затем изучаются параметры, влияющие на производительность 4M, в рамках всестороннего анализа отказа от некоторых элементов. Этот всесторонний анализ, в сочетании с простотой и универсальностью данного метода, подтверждает, что 4M имеет большие перспективы для множества задач зрения и будущих разработок.