Руководство по Sklearn Модуль 3

3 модуль руководства по Sklearn полный гайд

Я прошел официальный учебник sklearn MOOC. Вот мои выводы.

Это третий пост в моей серии учебников по scikit-learn. Если вы его пропустили, я настоятельно рекомендую прочитать мои первые два поста — будет намного легче следить за рассказом:

Учебник Sklearn: Модуль 1

Я прошел официальный учебник sklearn MOOC. Вот мои выводы.

towardsdatascience.com

Учебник Sklearn: Модуль 2

Я прошел официальный учебник sklearn MOOC. Вот мои выводы.

towardsdatascience.com

В этом третьем модуле мы рассмотрим, что такое гиперпараметры, почему и как их оптимизировать.

Фото Glenn Carstens-Peters на Unsplash

Что такое гиперпараметр

При настройке нашей модели до сих пор мы только меняли предобработку, вид модели или оба этих параметра — но мы еще не играли с гиперпараметрами модели.

Гиперпараметры модели — это параметры, устанавливаемые нами, специалистами по данным, при создании нашей модели/пайплайна. Они определяют модель до того, как она увидит какие-либо данные. Можно сказать, что они позволяют нам определить различные “варианты” одного и того же пайплайна.

Гиперпараметры обычно влияют на сложность модели, а следовательно, на процесс обучения и общую производительность модели. Имея набор данных и проблему, которую вы хотите решить, ваша задача как специалиста по данным — найти лучшую “гиперпараметризированную модель” среди бесконечного пространства “гиперпараметризированных моделей”.

Гиперпараметры не следует путать с внутренними параметрами, которые модель изучает в процессе обучения — эти внутренние параметры, которые изучаются, также называются “коэффициентами”. Например, в полиномиальной регрессии гиперпараметром (устанавливаемым до обучения) является степень регрессии, а внутренние параметры, изученные на основе обучающего набора, являются коэффициентами полинома (a/b/c в aX² + bX + c). Другими словами, сначала вы устанавливаете степень (гиперпараметр), а затем выполняется подгонка регрессии с использованием данных (внутренние…