Исследователи из Microsoft и ETH Цюрих представляют HoloAssist мультимодальный набор данных для киберпомощников AI нового поколения для физического мира.

Мультимодальный набор данных HoloAssist от исследователей из Microsoft и ETH Цюрих новое поколение AI-киберпомощников для физического мира.

В области искусственного интеллекта стойкой проблемой является разработка взаимодействующих помощников по ИИ, которые могут эффективно ориентироваться и помогать в реальных задачах. В цифровой сфере был сделан значительный прогресс, например, в разработке языковых моделей, однако физический мир представляет уникальные преграды для систем искусственного интеллекта.

Основным препятствием, с которым исследователи часто сталкиваются, является отсутствие непосредственного опыта для помощников по ИИ в физическом мире, что мешает им воспринимать, рассуждать и активно помогать в реальных сценариях. Это ограничение объясняется необходимостью погружения моделей ИИ в конкретные данные для их обучения в физических задачах.

Для решения этой проблемы команда исследователей из Microsoft и ETH Zurich представила новый набор данных под названием “HoloAssist”. Этот набор данных создан для сценариев первого лица, человеческого взаимодействия в реальном мире. Он включает двух участников, сотрудничающих в физических манипуляционных задачах: исполнителя задачи, носящего гарнитуру смешанной реальности, и инструктора задачи, который наблюдает и предоставляет вербальные инструкции в режиме реального времени.

“HoloAssist” имеет обширную коллекцию данных, включающую 166 часов записей с участием 222 разных участников, формирующих 350 уникальных пар инструктор-исполнитель, выполняющих 20 объектно-центрических манипуляционных задач. Эти задачи охватывают широкий спектр объектов, от повседневных электронных устройств до специализированных промышленных предметов. В набор данных входят семь синхронизированных модальностей сенсоров: RGB, глубина, положение головы, трехмерное положение руки, взгляд глаз, звук и IMU, что позволяет полноценно анализировать действия и намерения человека. Кроме того, предлагаются аннотации от третьего лица, включая текстовые суммары, виды вмешательства, аннотации ошибок и сегменты действий.

В отличие от предыдущих наборов данных, отличительной особенностью “HoloAssist” является его многопользовательская среда выполнения интерактивных задач, которая позволяет разрабатывать антиципирующие и проактивные помощники по ИИ. Эти помощники могут предлагать своевременные инструкции, основанные на окружающей среде, улучшая традиционную модель помощника по ИИ, основанную на чате.

Исследовательская группа оценила производительность набора данных в классификации действий и задачах антиципации, предоставляя эмпирические результаты, которые проясняют значимость различных модальностей в различных задачах. Кроме того, они представили новые бенчмарки, сосредоточенные на обнаружении ошибок, прогнозировании типов вмешательства и прогнозировании трехмерного положения руки, что является важными элементами для разработки интеллектуальных помощников.

В заключение, данная работа представляет собой первый шаг к исследованию сотрудничества интеллектуальных агентов с людьми в реальных задачах. Ожидается, что набор данных “HoloAssist” вместе с соответствующими бенчмарками и инструментами продвинет исследования в области создания мощных помощников по ИИ для повседневных реальных задач, открывая двери для многочисленных направлений будущих исследований.