Исследователи из Google и Университета Торонто представляют революционного агента Zero-Shot для автономного обучения и выполнения задач в живых компьютерных средах.
Google и Университет Торонто представляют революционного агента Zero-Shot для автономного обучения и выполнения задач в реальном времени
Большие языковые модели (LLM) для производства действий в различных живых контекстах, таких как ALFWORLD и ALPHACODE, показали свою перспективность в предыдущих исследованиях. Примеры включают SAYCAN, REACT, TOOLFORMER и SWIFTSAGE. LLM используются аналогичным образом для следования за экспертными тропами, понимания изменений в окружающей среде, планирования и выполнения будущих действий и формирования запросов к API. Несколько исследований, включая REFLEXION и SELF-REFINE, продемонстрировали, что многократное выполнение задачи с многочисленными раундами самоанализа значительно может улучшить выполнение задачи. LLM должны изменять предыдущий план выполнения в свете обратной связи из окружающей среды. Такие корректировки вносятся в подсказку генератора действий для следующего раунда.
MINIWOB++ в последнее время использовался в качестве платформы для оценки производительности LLM в модульных вычислительных нагрузках. Использование обширных примеров трассы задачи для прямого наблюдения (WebGUM), самонаблюдения или малого/многократного ввода (SYNAPSE) являются стандартными методами обучения задаче. Они выполнили десятки задач по управлению компьютером с процентом успешного выполнения задачи свыше 90%, кажется, решая проблему управления компьютером. Тем не менее, необходимость в экспертных трассах ограничивает возможность агента учиться новым задачам. Может ли агент самостоятельно понимать и совершенствовать своё управление компьютером без использования хорошо подобранных трасс в качестве руководства? Исследователи из Google Research и Торонтского университета предлагают нулевой агент для ответа на этот вопрос.
Их агент основан на PaLM2, недавней LLM, и он использует один набор инструкций для всех действий, а не задачно-специфичных подсказок. Кроме того, современные подходы, такие как RCI, ADAPLANNER и SYNAPSE, используют представления экрана, которые могут содержать гораздо больше данных, чем то, что отображается пользователю на экране. Например, рис. 1 иллюстрирует элементы, содержащиеся в HTML, предоставленном LLM, но не отображаемые на экране. Произвольное использование этого нового знания упрощает способность агента к выполнению задачи. Однако в типичных сценариях использования такая информация может быть не легко доступна и, завися от нее, может ограничивать широкое применение агента.
- Персональные нейронные сети следующего поколения NVIDIA Research объявляет массив прорывов в области искусственного интеллекта на конференции NeurIPS
- «Как этот исследователь, получивший награду Тьюринга, стал легендарным научным консультантом»
- Исследователи Microsoft представляют Table-GPT Повышение качества языковых моделей, чтобы успешно обрабатывать и понимать двухмерные таблицы и задачи.
Рис. 1 показывает различные отображения на экранах. Рис. 1a-1c показывают задачу в социальных сетях до и после нажатия кнопки “больше” (seed=2). HTML уже сделал материал видимым до нажатия. Рис. 1d-1e: Проблема аналогична в случае клика-таб-2 (seed=0).
13 довольно сложных задач на MINIWOB++, охватывающих несколько экранов, были тщательно оценены, и они обнаружили, что 5 из них содержат HTML, содержащий такую информацию – многоэкранные данные в одном наблюдении. Вот их вклад: во-первых, в сравнении с предыдущими исследованиями они используют упрощенное изображение экрана, что делает тестовую среду более всеобъемлющей и реалистичной. Во-вторых, они предоставляют простой, но эффективный планировщик действий, который четко планирует выполнение операций над состоянием за один проход. Они демонстрируют, что такой “наивный” подход может успешно выполнить практически все простые задачи в бенчмарке MINIWOB++ с использованием последних возможностей LLM.
Чтобы помочь агенту успешно учиться на исследовательских неудачах и преуспевать в более сложных задачах, они предлагают систематическую технику управления мыслями, основанную на Reflexion. Их агент достигает производительности, эквивалентной предыдущим методам мало/многократного ввода наилучшего состояния после нескольких раундов подбора. По результатам исследования, их агент – первое решение нулевого выбора для задач управления компьютером, которое они знают.