«Как роботы учатся просить о помощи»

Как роботы учатся просить о помощи новая эра в искусственном интеллекте

В развивающемся мире робототехники выделяется важное сотрудничество между Принстонским университетом и Google. Инженеры этих престижных учебных заведений разработали инновационный подход, который обучает роботов важному навыку: распознаванию, когда им нужна помощь и как её попросить. Этот прогрессивный шаг вперёд в робототехнике значительно сближает автономное функционирование и взаимодействие человека с роботом.

Путь к более интеллектуальным и самостоятельным роботам всегда затруднял одно важное препятствие: сложность и неоднозначность человеческого языка. В отличие от ясности бинарных кодов компьютера, человеческий язык полон нюансов и тонкостей, что делает его для роботов лабиринтом. Например, команда как “подними миску” может стать сложной задачей, когда присутствует несколько мисок. Роботы, оснащенные возможностью воспринимать окружающую среду и реагировать на язык, часто оказываются в тупике при сталкивании с такой лингвистической неопределенностью.

Количественная оценка неопределённости

Справляясь с этим вызовом, команда Принстона и Google предложила новый подход, который количественно оценивает “неопределённость” в человеческом языке. Эта техника существенно измеряет уровень неопределённости в языковых командах и использует эту метрику для руководства действиями робота. В случаях, когда команда может иметь несколько толкований, робот теперь может оценить уровень неопределённости и решить, когда искать дополнительные пояснения. Например, в среде с несколькими мисками большая степень неопределённости подтолкнет робота спросить, какую миску поднять, тем самым избегая возможных ошибок и неэффективности.

Этот подход не только дарит роботам более глубокое понимание языка, но также повышает их безопасность и эффективность в выполнении задач. Путем интеграции больших языковых моделей (LLM), таких как те, что стоят за ChatGPT, исследователи совершили существенный шаг в направлении более тесного соответствия робототехнических действий ожиданиям и потребностям человека.

Роль больших языковых моделей

Интеграция LLM исполняет ключевую роль в этом новом подходе. Они необходимы для обработки и интерпретации человеческого языка. В данном контексте они используются для оценки и измерения степени неопределенности в языковых командах, предлагаемых роботам.

Однако, полагаться только на LLM тоже не без своих трудностей. Как отмечает исследовательская команда, выводы от LLM иногда могут быть ненадежными.

Анирудха Маджумдар, ассистент профессор на Принстоне, подчёркивает важность этого баланса:

“Бездумное следование планам, созданным на основе LLM, может заставить роботов действовать небезопасно или недоверительно, поэтому нам нужно, чтобы наши роботы на основе LLM знали о том, когда они не знают”.

Это подчёркивает необходимость ньюансированного подхода, где LLM используются как средство руководства, а не безупречные принимающие решения.

Практическое применение и тестирование

Практическая применимость этого метода была протестирована в различных сценариях, демонстрируя его гибкость и эффективность. Одним из таких тестов была проверка роботического руки, отвечающей за сортировку игрушек-пищевых продуктов в разные категории. Эта простая установка продемонстрировала возможности робота эффективно справляться с задачами с ясными выборами.

Изображение: Принстонский университет

Сложность значительно возросла в другом эксперименте с роботической рукой, установленной на колесную платформу в офисной кухне. Здесь робот столкнулся с реальными вызовами, такими как идентификация правильного предмета для размещения в микроволновой печи, когда предлагается несколько вариантов.

Через эти тесты роботы успешно продемонстрировали свою способность использовать количественную неопределенность для принятия решений или запроса уточнений, тем самым подтверждая практическую ценность этого метода.

Последствия и исследования будущего

В будущем перспективы этого исследования простираются далеко за текущие применения. Команда, возглавляемая Маджумдаром и аспирантом Алленом Реном, исследует возможности применения этого подхода к более сложным задачам в области восприятия роботов и искусственного интеллекта. Это включает сценарии, где роботам нужно объединять информацию зрения и языка для принятия решений и ещё большего сближения между пониманием роботов и взаимодействием с человеком.

Это исследование стремится не только улучшить способность роботов выполнять задачи с более высокой точностью, но также переосмыслить их способность взаимодействовать с миром с пониманием, близким к человеческой когнитивности. Это исследование может проложить путь к роботам, которые не только более эффективны и безопасны, но и более восприимчивы к нюансам, несущимся с обстановкой в человеческих средах.

Опубликованное исследование можно найти здесь.