CatBoost регрессия Разложите это для меня

CatBoost регрессия, разложите это для меня

Комплексный (и иллюстрированный) разбор внутреннего устройства CatBoost

CatBoost, сокращенно Categorical Boosting, – мощный алгоритм машинного обучения, который отлично справляется с обработкой категориальных признаков и предсказанием с высокой точностью. Традиционно, работа с категориальными данными довольно сложна – требуется применение кодирования one-hot, label encoding или других методов предобработки, которые могут исказить врожденную структуру данных. Чтобы решить эту проблему, CatBoost использует собственную систему внутреннего кодирования, называемую Ordered Target Encoding.

Давайте посмотрим, как CatBoost работает на практике, построив модель для предсказания, как кто-то может оценить книгу Murder, She Texted на основе их средней оценки книги на Goodreads и их любимого жанра.

Мы попросили 6 человек оценить Murder, She Texted и собрали другую связанную информацию о них.

Это наш текущий набор данных для обучения, который мы будем использовать для обучения (конечно).

Шаг 1: Перемешайте набор данных и закодируйте категориальные данные с использованием Ordered Target Encoding

Способ предобработки категориальных данных является ключевым для алгоритма CatBoost. В данном случае у нас есть только одна категориальная колонка – Favorite Genre. Эта колонка закодирована (т.е. преобразована в дискретное целое число) и способ ее преобразования зависит от того, является ли это задачей регрессии или классификации. Поскольку у нас имеется задача регрессии (поскольку переменная, которую мы хотим предсказать, Murder, She Texted Rating, является непрерывной), мы следуем следующим шагам.

1 – Перемешайте набор данных:

2 – Разделите непрерывную целевую переменную на дискретные корзины: Поскольку у нас здесь очень мало данных, мы создадим 2 корзины одинакового размера, чтобы категоризировать цель. (Узнайте больше о том, как создавать корзины здесь).

Мы помещаем 3 наименьших значения Murder, She Texted Rating в корзину 0, а остальные в корзину 1.