Hands-On Deep Q-Learning’ (Практическое освоение глубокого Q-обучения)
Погружение в глубокое Q-обучение практические навыки
УСИЛЕННОЕ ОБУЧЕНИЕ
Улучшите своего агента, чтобы выигрывать более сложные игры!
Усиленное обучение – одна из самых увлекательных областей машинного обучения. В отличие от обучения с учителем, модели усиленного обучения могут самостоятельно изучать сложные процессы, даже без аккуратно табулированных данных.
Для меня самое интересное – видеть, как агенты искусственного интеллекта выигрывают видеоигры, но усиленное обучение также может использоваться для решения бизнес-задач. Просто представьте это как игру, и вперед! Вам нужно всего лишь определить…
- среду, в которой живет ваш агент,
- какие решения может принимать ваш агент, и
- каковы критерии успеха и неудачи.
Прежде чем продолжить, пожалуйста, прочтите мою вводную статью об усиленном обучении. Она даст вам больше контекста и покажет, как провести простую и эффективную форму усиленного обучения самостоятельно. Она также служит основой для этой статьи.
- Ложный пророк Сравнение регрессионной модели с Пророком Меты
- Превратите скучное в блестящее 7 хаков для улучшения вашей презентации
- NVIDIA представляет H200 Tensor Core GPU для работы с искусственным интеллектом и высокопроизводительными вычислениями (HPC).
Практическое руководство по усиленному обучению
Сделайте первые шаги в написании успешных AI-агентов для игр
towardsdatascience.com
В этой статье вы узнаете о глубоком Q-обучении, почему нам это нужно и как реализовать его самостоятельно, чтобы овладеть игрой, которая кажется намного сложнее, чем в моей другой статье.
Вы можете найти код на моем Github.
Большие пространства наблюдений
В связанной выше статье мы использовали Q-обучение для того, чтобы агент играл в простые игры с небольшими дискретными пространствами наблюдений. В игре Frozen Lake, например, есть 16 полей (=состояний или наблюдений, я буду использовать эти термины взаимозаменяемо) на 4×4 карте. В версии карточной игры Blackjack в программном обеспечении gymnasium есть 32 · 11 · 2 = 704 состояния.