Эта научная статья Исследовательского центра искусственного интеллекта компании Qualcomm раскрывает EDGI революционный эквивариантный диффузор для современного модельно-ориентированного обучения с подкреплением и эффективного планирования

EDGI революционный эквивариантный диффузор для модельно-ориентированного обучения с подкреплением и эффективного планирования - научная статья от Исследовательского центра искусственного интеллекта Qualcomm

Везде есть симметрии. Универсальные принципы физики справедливы и в пространстве, и во времени. Они проявляют симметрию при трансляции пространственных координат, повороте и сдвиге во времени. Кроме того, система симметрична относительно перестановки меток, если несколько похожих или эквивалентных предметов помечены числами. Воплощенные агенты сталкиваются с такой структурой, и многие повседневные действия роботов проявляют временные, пространственные или перестановочные симметрии. Ходы четвероногих животных не зависят от направления их движения; подобно этому, роботизированный схват может взаимодействовать с несколькими идентичными предметами независимо от их меток. Однако эта богатая структура должна быть учтена большинством алгоритмов планирования и обучения с подкреплением (RL).

Хотя эти алгоритмы показывают впечатляющие результаты при решении четко поставленных проблем после достаточного обучения, они часто проявляют неэффективность выбора образцов и отсутствие устойчивости к изменениям окружающей среды. Исследовательская команда считает, что важно создавать алгоритмы RL с пониманием их симметрий, чтобы увеличить их эффективность выборки и устойчивость. Эти алгоритмы должны отвечать двум важным требованиям. Во-первых, модели мира и политики должны быть эквивариантны относительно соответствующей группы симметрий. Это часто является подгруппой дискретных временных сдвигов Z, произведением группы пространственной симметрии SE(3) и одной или нескольких групп перестановок объектов Sn для воплощенных агентов. Во-вторых, для решения реальных проблем должна быть возможность мягкого нарушения (части) группы симметрии. Перемещение объекта в указанное пространственное положение, нарушающее группу симметрии SE(3), может быть целью роботизированного схвата. Первые исследования эвивараентного RL показали потенциальные преимущества этой техники. Однако эти работы часто рассматривают только малые конечные группы симметрии, такие как Cn, и обычно не позволяют мягкое нарушение симметрии в зависимости от выполняемой работы во время тестирования.

В этом исследовании команда исследователей из Qualcomm представляет эквивариантный метод модельного обучения с подкреплением и планирования, названный “Эквивариантный диффузер для генерации взаимодействий” (EDGI). Основополагающим элементом EDGI является эвивариантность относительно всей произведенческой группы SE(3) × Z × Sn, и он учитывает множество представлений этой группы, с которыми исследовательская команда ожидает столкнуться в воплощенных ситуациях. Кроме того, в зависимости от выполняемой работы, EDGI позволяет гибкое мягкое нарушение симметрии во время тестирования. Их методология базируется на методе Diffuser, ранее предложенном исследователями, которые решают задачу генерации моделей в процессе обучения модели динамики и планирования внутри нее. Основная идея Diffuser заключается в обучении модели диффузии на оффлайн-наборе траекторий состояний и действий. С использованием руководства классификатором для оптимизации вознаграждения, планируется один образец из этой модели на основе текущего состояния. Их основной вклад – это новая модель диффузии, позволяющая работать с множественными представлениями данных и быть эквивариантной относительно произведенческой группы SE(3) × Z × Sn пространственных, временных и перестановочных симметрий.

В исследовании команда представляет инновационные временные, объектные и перестановочные слои, действующие на отдельные симметрии, а также новый метод инкапсуляции многочисленных входных представлений в одно внутреннее представление. Их метод, в сочетании с руководством и условным классификатором, позволяет гибко нарушать группу симметрии в зависимости от требований задачи при тестировании планирующего алгоритма. Команда исследователей использует роботизированное управление предметами и настройки 3D-навигации для объективного демонстрации EDGI. Используя порядок меньшего объема тренировочных данных, команда исследований обнаружила, что EDGI значительно повышает производительность в области низкого объема данных, не уступая по производительности лучшим неэквивариантным базовым вариантам. Кроме того, EDGI эффективно обобщается на ранее неизвестные конфигурации и заметно более устойчив к изменениям симметрии в окружающей среде.