Алгоритмы оптимизации Нейронные сети 101
Основы оптимизации алгоритмов нейронных сетей 101
Как улучшить тренировку помимо “ванильного” алгоритма градиентного спуска
![https://www.flaticon.com/free-icons/neural-network.neural network icons. Neural network icons created by andinur — Flaticon.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*BALYObfw9JUAtm-vZxibOA.png)
Фон
В моем последнем посте мы обсуждали, как можно улучшить производительность нейронных сетей с помощью настройки гиперпараметров:
Настройка гиперпараметров: нейронные сети 101
Как улучшить “обучение” и “тренировку” нейронных сетей путем настройки гиперпараметров
towardsdatascience.com
Это процесс, при котором наилучшие гиперпараметры, такие как скорость обучения и количество скрытых слоев, “настраиваются” для поиска оптимальных значений для нашей сети, чтобы улучшить ее производительность.
- «За пределами шума исследование практических применений генеративного искусственного интеллекта в промышленности»
- Анализ исследования данных Что мы знаем о каналах YouTube (Часть 2)
- Двух-башенные сети и отрицательная выборка в рекомендательных системах
К сожалению, этот процесс настройки для больших глубоких нейронных сетей (глубокое обучение) является чрезвычайно медленным. Один из способов улучшить это – использовать более быстрые оптимизаторы, чем традиционный метод “ванильного” градиентного спуска. В этом посте мы рассмотрим самые популярные оптимизаторы и варианты градиентного спуска, которые могут улучшить скорость тренировки, а также сходимость, и сравним их в PyTorch!
Если вам нравится этот статья, обязательно подпишитесь на мой канал YouTube!
Перейдите по ссылке для видеоуроков, которые преподают основные концепции науки о данных легким способом!
Игорь Хоуэлл
Специалист по науке о данных, в настоящее время живущий в Лондоне. Я делюсь учебниками по науке о данных, советами и темами общей техники! Связаться…
www.youtube.com
Краткое изложение: градиентный спуск
Прежде чем погрузиться внутрь, давайте быстро освежим наши знания о градиентном спуске и теории, лежащей в его основе.
Цель градиентного спуска – обновить параметры модели, вычитая градиент (частную производную) параметра относительно функции потерь. Скорость обучения, α, служит для регулирования этого процесса, чтобы обновление параметров происходило в разумных пределах и не превышало оптимальное значение.
- θ – параметры модели.