SB3, швейцарский армейский нож прикладного машинного обучения

SB3 швейцарский армейский нож прикладного машинного обучения в мире моды и красоты

Ваш выбор модели, с любой средой

Изображение, созданное DALL·E 3 на основе подсказки «Создать реалистичное изображение открытого швейцарского армейского ножа»

Stablebaseline3 (sb3) – как швейцарский армейский нож. Это многофункциональный инструмент, который может использоваться во многих целях. И, как швейцарский армейский нож может спасти вам жизнь, если вы застряли в джунглях, sb3 может спасти вашу жизнь в офисе, когда у вас кажется невозможные сроки выполнения задания.

Это руководство использует gymnasium=0.28.1 и stable-baselines=2.1.0. Если вы используете другие версии или, возможно, обращаетесь к другим старым руководствам, вы можете не получить нижеприведенные результаты. Но не волнуйтесь, здесь также приведено руководство по установке. Я гарантирую, что вы получите результаты, если следуете моим инструкциям.

[1] Что вы получите здесь

Stablebaseline3 легко использовать. Он также хорошо задокументирован, и вы можете следовать учебным пособиям самостоятельно. Но…

  • Вы обращались к старым руководствам (возможно, использующим gym), чтобы обнаружить ошибки на вашем компьютере?
  • Вам всегда удается обеспечить совместимость?
  • Что, если вы хотите использовать среду gymnasium и изменить, например, вознаграждения?
  • Вы знаете, как упаковать свои собственные задачи так, чтобы SOTA-модели могли быть применены всего за несколько строк кода?

Такова цель этой статьи! После прочтения этого руководства в виде демонстрации вы…

  1. Решите классические среды с помощью моделей sb3, визуализируйте результаты, а также сохраните (или загрузите) обученную модель всего в нескольких строках кода. [Раздел 3.1]
  2. Поймете, как проверять пространство действий и пространство наблюдений на совместимость. [Раздел 3.2]
  3. Выучите, как упаковать среды gymnasium, чтобы можно было использовать любые модели sb3 без ограничений box или discrete. [Раздел 4.1]
  4. Научитесь упаковывать среды gymnasium для формирования вознаграждений. [Раздел 4.2]
  5. Узнаете, как упаковать свои собственные пользовательские среды для совместимости с sb3 с минимальными изменениями в оригинальном коде, который может следовать другой структуре. [Раздел 5]

[2] Установка

Создайте виртуальное окружение и настройте необходимые зависимости. Я ориентируюсь на большинство — здесь руководство создано с использованием Windows…