Алгоритмы оптимизации Нейронные сети 101

Основы оптимизации алгоритмов нейронных сетей 101

Как улучшить тренировку помимо “ванильного” алгоритма градиентного спуска

https://www.flaticon.com/free-icons/neural-network.neural network icons. Neural network icons created by andinur — Flaticon.

Фон

В моем последнем посте мы обсуждали, как можно улучшить производительность нейронных сетей с помощью настройки гиперпараметров:

Настройка гиперпараметров: нейронные сети 101

Как улучшить “обучение” и “тренировку” нейронных сетей путем настройки гиперпараметров

towardsdatascience.com

Это процесс, при котором наилучшие гиперпараметры, такие как скорость обучения и количество скрытых слоев, “настраиваются” для поиска оптимальных значений для нашей сети, чтобы улучшить ее производительность.

К сожалению, этот процесс настройки для больших глубоких нейронных сетей (глубокое обучение) является чрезвычайно медленным. Один из способов улучшить это – использовать более быстрые оптимизаторы, чем традиционный метод “ванильного” градиентного спуска. В этом посте мы рассмотрим самые популярные оптимизаторы и варианты градиентного спуска, которые могут улучшить скорость тренировки, а также сходимость, и сравним их в PyTorch!

Если вам нравится этот статья, обязательно подпишитесь на мой канал YouTube!

Перейдите по ссылке для видеоуроков, которые преподают основные концепции науки о данных легким способом!

Игорь Хоуэлл

Специалист по науке о данных, в настоящее время живущий в Лондоне. Я делюсь учебниками по науке о данных, советами и темами общей техники! Связаться…

www.youtube.com

Краткое изложение: градиентный спуск

Прежде чем погрузиться внутрь, давайте быстро освежим наши знания о градиентном спуске и теории, лежащей в его основе.

Цель градиентного спуска – обновить параметры модели, вычитая градиент (частную производную) параметра относительно функции потерь. Скорость обучения, α, служит для регулирования этого процесса, чтобы обновление параметров происходило в разумных пределах и не превышало оптимальное значение.

  • θ – параметры модели.