Исследователи из Университета Токио разработали расширенную схему фотонного обучения с подкреплением, которая переходит от статической проблемы бандита к более сложной динамической среде.

Ученые из Токийского университета создали расширенную схему фотонного обучения с подкреплением, переходящую от статической проблемы бандита к динамической среде.

В мире машинного обучения концепция обучения с подкреплением заняла центральное место, позволяя агентам побеждать задачи через итеративные попытки и ошибки в определенной среде. В данном исследовании отмечаются достижения в этой области, такие как использование фотонных подходов для внешнего выполнения вычислительных задач и использование физических характеристик света. Отмечается необходимость расширения этих методов на более сложные проблемы, связанные с множественными агентами и динамическими средами. В данном исследовании от Университета Токио исследователи стремятся объединить алгоритм “бандит” с Q-обучением для создания модифицированного бандитного Q-обучения (BQL), которое может ускорить обучение и предоставить понимание многопользовательского сотрудничества, в конечном итоге способствуя развитию фотонной техники обучения с подкреплением.

Исследователи использовали концепцию проблем мира сетки. В этом случае агент перемещается в пределах сетки 5*5, где каждая ячейка представляет собой состояние. На каждом шаге агент должен выполнить действие – вверх, вниз, влево или вправо, и получить вознаграждение и следующее состояние. Определенные ячейки A и B предлагают более высокое вознаграждение и подталкивают агента перемещаться в разные ячейки. В этой проблеме используется детерминированная политика, где действие агента определяет его перемещение.

Функция ценности действия Q(s, a) количественно оценивает будущие вознаграждения для пар состояние-действие, учитывая политику π. Эта функция отражает ожидания агента относительно накопительных вознаграждений через его действия. Основная цель данного исследования – обеспечить агенту возможность изучать оптимальные значения Q для всех пар состояние-действие. Вводится модифицированное Q-обучение, интегрирующее алгоритм “бандит” и усиливающее процесс обучения через динамический выбор пар состояние-действие.

Данная модифицированная схема Q-обучения позволяет параллельное обучение, где несколько агентов обновляют общую таблицу Q. Параллелизация ускоряет процесс обучения, повышая точность и эффективность обновления таблицы Q. Предполагается создание системы принятия решений, которая использует принципы квантового интерференции фотонов, чтобы обеспечить различие между одновременными действиями агента без прямого общения.

Исследователи планируют разработать алгоритм, который позволит агентам действовать непрерывно и применять свой метод в более сложных задачах обучения. В будущем авторы стремятся создать фотонную систему, которая обеспечит конфликтное принятие решений между как минимум тремя агентами, улучшая согласованность принятия решений.