Смелость учиться машинному обучению расшифровка регуляризации L1 и L2 (часть 4)
Смелость освоить машинное обучение расшифровка регуляризации L1 и L2 (часть 4)
Изучите L1 и L2 регуляризацию как байесовские априорные знания
Снова добро пожаловать в ‘Courage to Learn ML: разгадка L1 и L2 регуляризации’, в его четвертой статье. В прошлый раз наша пара наставник-ученик исследовала свойства L1 и L2 регуляризации через призму метода множителей Лагранжа.
В этом завершающем сегменте о L1 и L2 регуляризации дуэт раскроет эти темы с новой стороны — байесовские априорные знания. Мы также суммируем, как L1 и L2 регуляризации применяются в различных алгоритмах.
В этой статье мы рассмотрим несколько интересных вопросов. Если хотя бы одна из этих тем пробудит ваше любопытство, вы попали в нужное место!
- Как относятся MAP априорные знания к L1 и L2 регуляризации
- Интуитивное разбиение использования априорных распределений Лапласа и нормального распределения
- Понимание разреженности, вызванной L1 регуляризацией с априорным распределением Лапласа
- Алгоритмы, совместимые с L1 и L2 регуляризацией
- Почему L2 регуляризацию часто называют ‘затухание веса’ при обучении нейронных сетей
- Причины менее частого использования нормы L1 в нейронных сетях
Итак, мы говорили о том, как MAP отличается от MLE, главным образом потому, что MAP учитывает дополнительную информацию: наши убеждения перед просмотром данных, или априорные знания. Как это связано с L1 и L2 регуляризацией?
Давайте погрузимся в то, как различные априорные знания в формуле MAP формируют наш подход к L1 и L2 регуляризации (для подробного понимания этого уравнения, ознакомьтесь с этой статьей).
- Улучшение документации Python пошаговое руководство по связыванию исходного кода
- 7 Пандов Спланированных Функций для Быстрой Визуализации Данных
- Руководство по созданию генеративных приложений с искусственным интеллектом
Когда рассматриваются априорные знания для весов, наша первоначальная интуиция зачастую подсказывает нам выбрать нормальное распределение в качестве априорных знаний для весов модели. В этом случае мы обычно используем нормальное распределение с нулевым средним для каждого веса wi, с одинаковым стандартным отклонением 𝜎. Введение этого убеждения в априорный термин logp(w) в MAP (где p(w) обозначает априорное знание веса) приводит нас к естественному суммированию квадратов весов. Этот термин соответствует L2…