Исследователи CMU представляют MultiModal Graph Learning (MMGL) новую рамку искусственного интеллекта для захвата информации от множества многообразных соседей с реляционными структурами между ними.

Исследователи CMU представляют MultiModal Graph Learning (MMGL) - новую рамку искусственного интеллекта для охвата информации от множества разнообразных соседей с реляционными структурами между ними.


Мультимодальное обучение графов – это междисциплинарная область, объединяющая концепции машинного обучения, теории графов и объединения данных для решения сложных проблем, связанных с разнообразными источниками данных и их взаимосвязями. Мультимодальное обучение графов может создавать описательные подписи для изображений, объединяя визуальные данные с текстовой информацией. Оно способно повысить точность извлечения соответствующих изображений или текстовых документов в зависимости от запросов. Мультимодальное обучение графов также применяется в автономных транспортных средствах для объединения данных с различных датчиков, таких как камеры, лидар, радар и GPS, для улучшения восприятия и принятия осмысленных решений при вождении.

Существующие модели опираются на генерацию изображений/текста на основе предварительно обученных кодеров изображений и языковых моделей. Они используют метод парных модальностей с ясным единичным отображением в качестве входных данных. В контексте мультимодального обучения графов, модальности относятся к различным типам или режимам данных и источников информации. Каждая модальность представляет определенную категорию или аспект данных и может принимать различные формы. Проблема возникает при применении этих моделей к соответствиям многие-ко-многим среди модальностей.

Исследователи из Университета Карнеги-Меллон предлагают общую и систематическую концепцию мультимодального обучения графов для задач генерации. Их метод включает захват информации из нескольких много-модальных соседей с реляционными структурами между ними. Они предлагают представить сложные отношения в виде графов для захвата данных с любым количеством модальностей и сложными отношениями между модальностями, которые могут гибко варьироваться от одного образца к другому.

Их модель извлекает кодировки соседей и объединяет их с графовой структурой, затем оптимизирует модель с помощью эффективного настройки параметров. На понимание многие-ко-многим отображениям, команда исследовала модели кодирования соседей, такие как само-внимание с текстом и вложениями, само-внимание только с вложениями и перекрестное внимание с вложениями. Они использовали кодировку позиции собственного вектора Лапласиана (LPE) и кодировку графовых нейронных сетей (GNN) для сравнения последовательных кодировок позиций.

Настройка модели часто требует значительного количества размеченных данных, относящихся к целевой задаче. Если у вас уже есть соответствующий набор данных или вы можете получить его по разумной цене, настройка может быть экономически выгодной по сравнению с обучением модели с нуля. Исследователи используют префиксную настройку и LoRA для само-внимания с текстом и вложениями (SA-TE), и настройку в стиле «Фламинго» для моделей кросс-внимания с вложениями(CA-E). Они обнаружили, что префиксная настройка использует примерно в четыре раза меньше параметров с кодировкой соседей SA-TE, что снижает стоимость.

Их исследовательская работа представляет собой всесторонний анализ, заложивший основу для будущих исследований и исследования в области мульти-модального обучения графов. Исследователи говорят, что будущий потенциал мультимодального обучения графов обещает значительно расшириться, под влиянием прогресса в области машинного обучения, сбора данных и растущей потребности в обработке сложных мультимодальных данных в различных приложениях.