Мультимодальный искусственный интеллект соединяет цифровые точки

Мультимодальный искусственный интеллект связывая цифровые точки

Многомодальный ИИ объединяет различные типы данных (такие как изображения, текст, речь и числовые данные) с несколькими алгоритмами обработки интеллекта для достижения более высокой производительности. ¶ Кредит: Enterra Solutions

Прогресс в области искусственного интеллекта (ИИ) пришел с захватывающей скоростью за последние несколько лет. Компьютерное зрение стало актуальным, робототехника шагнула вперед, и генеративный ИИ прочно вошел в основной поток общества.

Тем не менее, из всех достижений выделяется тревожная правда: большинство существующих сетей ИИ до сих пор остаются относительно разобщенными. В большинстве случаев они функционируют как отдельные острова автоматизации ИИ, лишенные ключевых возможностей из-за невозможности обмена данными и взаимодействия с другими компонентами ИИ.

Инженеры, исследователи и другие люди обращают на это внимание. Они активно исследуют способы создания развитых многомодальных систем. Путем соединения отдельных компонентов ИИ и потоков данных можно создавать более умные системы, которые ближе соответствуют человеку.

“Цель заключается в использовании различных систем и источников данных для обеспечения более расширенного функционала”, – говорит Мартиал Хеберт, профессор и декан Школы компьютерных наук в Карнеги-Меллонском университете.

Юн Ким, доцент отделения электротехники и компьютерных наук в Массачусетском технологическом институте (MIT), добавляет: “Люди уже являются многомодальными. Наша способность создавать воплощенные модели ИИ, которые могут видеть, слышать, понимать язык и выполнять другие сенсорные задачи, является важной для разработки значительно более совершенной технологии.”

Переход к умному ИИ

Привлекательность многомодального ИИ заключается в его возможности использования дополняющих, но разделенных каналов данных, их объединения и декодирования, а также в поиске сигналов и узоров, которые в противном случае остались бы незамеченными. Легаси-базы данных, крупные модели языка (LLMs), датчики Интернета вещей, программные приложения и различные устройства могут служить топливом для многомодального ИИ.

Например, сервисный робот, включающий многомодальный ИИ, может обрабатывать изображения, звук, осязание и другие ощущения более схожим образом с человеком и реагировать соответствующим образом. Медицинское диагностическое приложение может объединять изображения, клинический текст и другие данные для получения более точного результата. Многомодальный ИИ также делает возможным для людей – врачей, юристов, ученых, бизнес-аналитиков и других – более интуитивное общение и взаимодействие с данными через приложение.

Многомодальный ИИ быстро развивается. ChatGPT-4 от Open AI недавно получил возможность видеть, слышать и говорить. Широко используемая система генеративного ИИ может напрямую загружать изображения и отвечать пользователю. Люди с проблемами со зрением или другими ограничениями могут использовать приложение для iOS и Android под названием Be My Eyes для лучшей ориентации в окружающей среде.

В то же время Microsoft интегрирует свою платформу Copilot в широкий набор инструментов и приложений компании, включая бизнес-аналитику и анализ данных. Copilot разработан для создания презентаций на ходу, предоставления кратких сводок по темам, координации расписания и других административных задач, а также использования генеративного ИИ с голосом или текстом для создания и обмена текстом, аудио-, изображениями и видео в различных приложениях.

Доступ к огромным объемам данных в облаке питает многомодальный ИИ, говорит Хоифунг Пун, генеральный директор Microsoft Health Futures. Пун говорит: “Большие части дигитализированного человеческого знания и данных могут легко собираться и использоваться для обучения крупных многомодальных моделей (LMMs) для широкого спектра приложений”. Общий знаменатель – это текст, “который включает основную часть человеческого знания и может быть потенциально использован как ‘межъязыковая’ основа для всех модальностей”, – говорит он.

Архитектура глубокого обучения Transformer привела к прогрессу в мультимодальных технологиях. Она отлично справляется с обнаружением математических закономерностей и связей во всех модальностях – от текста и речи до изображений и молекул. Кроме того, благодаря синергии с графическими процессорами, Transformer опережает сверточные и рекуррентные нейронные сети (CNN и RNN). Современные модели на базе Transformer могут развивать понимание контента и проводить логические рассуждения и беседы.

«На практике это означает, что мультимодальные системы искусственного интеллекта гораздо лучше оснащены для работы с различными формами выходных данных, такими как текст, изображения и аудио», – говорит Ким. Он предсказывает, что мультимодальные системы будут продвигаться на порядок выше в ближайшие несколько лет, включая способность отвечать на произвольные и относительно абстрактные вопросы, генерировать сложные изображения и презентации, а также поддерживать передовые системы восприятия и управления для машин, таких как роботы.

Прогресс в жестком кодировании

Несмотря на огромный прогресс в этой области, разработка высокотехнологичных мультимодальных систем требует дальнейшего развития. В настоящее время одной из преград может быть низкое качество или плохая обученность наборов данных, которые дают размытые, предвзятые или даже сильно неточные результаты. Это может привести к неправильной интерпретации тональности или интонации, например. В худшем случае это может привести к неверному медицинскому диагнозу или автономному транспортному средству, которое неправильно интерпретирует критические данные.

Связь и объединение отдельных систем искусственного интеллекта потребуют фундаментальных изменений в программном обеспечении. «Важно создавать структуры, которые позволяют моделям взаимодействовать с разными модальностями в согласованной манере», – говорит Ким. Это включает связывание моделей и данных, обученных на разных модальностях, так, чтобы они могли быть «объединены» и стать мультимодальными моделями. Эти модели должны быть способны генерировать фрагменты программного кода, которые могут быть выполнены для изменения реального мира.

В результате исследователи сейчас исследуют способы разработки сложных фреймворков для оркестрации, таких как AutoGen от Microsoft, чтобы преодолеть данную проблему. Например, AutoGen разработан для управления межмодальными коммуникациями и взаимодействиями, включая действия, которые происходят между виртуальными программными агентами, привязанными к физическим компонентам в роботах, автономных транспортных средствах и других машинах.

Тем не менее, даже с наличием инструментов для оркестрации, эксперты считают, что развитие передовых мультимодальных систем может потребовать человеческого вмешательства для ручного наблюдения за данными, их переоценки и прямого контроля за отдельными процессами. Фактически, некоторые задаются вопросом, насколько автоматизация мультимодального искусственного интеллекта актуальна в перспективе. “Без правильных контролей над множеством источников и потоков данных все может пойти очень не так”, – предупреждает Хеберт.

Противоречивые данные или цели могут полностью подорвать мультимодальный искусственный интеллект, говорит Пун, активно исследующий методы самопроверки для генеративного искусственного интеллекта. Например, говорит он, “обучение LLMs избегать потенциально вредных поведений может привести к так называемому ‘alignment tax’, который снижает общую производительность”. Также объединение данных из разных источников может привести к “эффектам партии” или засорителям, которые искажают результаты и подрывают итоги, добавляет он.

Достижение широкого и высоко синхронизированного мультимодального искусственного интеллекта будет трудной задачей, но Хеберт и другие считают, что это возможно. “Точность и доступность данных не являются большой проблемой в рамках одного канала искусственного интеллекта”, – объясняет он. “Но координация нескольких каналов и потоков данных, особенно когда прикосновение, речь, текст и зрение должны работать гармонично в режиме реального времени, может быть крайне сложной”.

Сэмюэл Грингард – автор и журналист, живущий в Вест-Линне, Орегон, США.