Отзывы с участием множества людей помогают обучать роботов

Отзывы, в которых участвует множество людей, способствуют обучению роботов

Этот новый подход позволяет собирать обратную связь асинхронно, чтобы пользователи не являющиеся экспертами со всего мира могли внести вклад в обучение агента. ¶ Кредит: Кристин Данилова, MIT/iStock

Метод обучения с подкреплением, разработанный исследователями Массачусетского технологического института (MIT), Гарвардского университета и Университета Вашингтона, обучает роботов с помощью обратной связи, полученной от пользователей-неспециалистов.

Марсель Торне из MIT заявил, что с помощью метода Human Guided Exploration (HuGE) “функция вознаграждения направляет агента к тому, что он должен исследовать, вместо того чтобы точно указывать ему, что он должен сделать, чтобы выполнить задачу”.

Исследователи разделили процесс на две части, используя алгоритм выбора цели, в который непрерывно внедряется отзыв людей, и другой алгоритм, который позволяет искусственному интеллекту исследовать самому направляемому алгоритмом выбора цели.

Как в симуляции, так и на практике, использование метода HuGE позволило агенту достигать целей быстрее, чем другие методы. Источник: MIT News Полный текст статьи

Аннотация защищена авторским правом © 2023 SmithBucklin, Вашингтон, США

Artificial Intelligence,computer applications,computers and society,human-computer interaction

Количественное измерение паттернов транспорта с использованием данных GTFS

СтильТТС 2 Текст в речь человеческого уровня с использованием больших моделей речевого языка

6 свободных практических блокнотов LLM, что...

Как бывшие сотрудники Apple внедряют генера...

«Построение интеллектуальных чат-ботов с ис...

Исследование границ ИИ в биологии одной кле...

5 потрясающих функций Google Duet AI, котор...

Члены племен Форт Пек и сотрудники Google в...

Новости о ИИ

Новости о ИИ

Web Analytics