Отзывы с участием множества людей помогают обучать роботов

Отзывы, в которых участвует множество людей, способствуют обучению роботов

Этот новый подход позволяет собирать обратную связь асинхронно, чтобы пользователи не являющиеся экспертами со всего мира могли внести вклад в обучение агента. ¶ Кредит: Кристин Данилова, MIT/iStock

Метод обучения с подкреплением, разработанный исследователями Массачусетского технологического института (MIT), Гарвардского университета и Университета Вашингтона, обучает роботов с помощью обратной связи, полученной от пользователей-неспециалистов.

Марсель Торне из MIT заявил, что с помощью метода Human Guided Exploration (HuGE) “функция вознаграждения направляет агента к тому, что он должен исследовать, вместо того чтобы точно указывать ему, что он должен сделать, чтобы выполнить задачу”.

Исследователи разделили процесс на две части, используя алгоритм выбора цели, в который непрерывно внедряется отзыв людей, и другой алгоритм, который позволяет искусственному интеллекту исследовать самому направляемому алгоритмом выбора цели.

Как в симуляции, так и на практике, использование метода HuGE позволило агенту достигать целей быстрее, чем другие методы. Источник: MIT News Полный текст статьи

Аннотация защищена авторским правом © 2023 SmithBucklin, Вашингтон, США