Смелость учиться машинному обучению расшифровка регуляризации L1 и L2 (часть 4)

Смелость освоить машинное обучение расшифровка регуляризации L1 и L2 (часть 4)

Изучите L1 и L2 регуляризацию как байесовские априорные знания

Фотография Доминика Йировского на Unsplash

Снова добро пожаловать в ‘Courage to Learn ML: разгадка L1 и L2 регуляризации’, в его четвертой статье. В прошлый раз наша пара наставник-ученик исследовала свойства L1 и L2 регуляризации через призму метода множителей Лагранжа.

В этом завершающем сегменте о L1 и L2 регуляризации дуэт раскроет эти темы с новой стороны — байесовские априорные знания. Мы также суммируем, как L1 и L2 регуляризации применяются в различных алгоритмах.

В этой статье мы рассмотрим несколько интересных вопросов. Если хотя бы одна из этих тем пробудит ваше любопытство, вы попали в нужное место!

  • Как относятся MAP априорные знания к L1 и L2 регуляризации
  • Интуитивное разбиение использования априорных распределений Лапласа и нормального распределения
  • Понимание разреженности, вызванной L1 регуляризацией с априорным распределением Лапласа
  • Алгоритмы, совместимые с L1 и L2 регуляризацией
  • Почему L2 регуляризацию часто называют ‘затухание веса’ при обучении нейронных сетей
  • Причины менее частого использования нормы L1 в нейронных сетях

Итак, мы говорили о том, как MAP отличается от MLE, главным образом потому, что MAP учитывает дополнительную информацию: наши убеждения перед просмотром данных, или априорные знания. Как это связано с L1 и L2 регуляризацией?

Давайте погрузимся в то, как различные априорные знания в формуле MAP формируют наш подход к L1 и L2 регуляризации (для подробного понимания этого уравнения, ознакомьтесь с этой статьей).

Когда рассматриваются априорные знания для весов, наша первоначальная интуиция зачастую подсказывает нам выбрать нормальное распределение в качестве априорных знаний для весов модели. В этом случае мы обычно используем нормальное распределение с нулевым средним для каждого веса wi, с одинаковым стандартным отклонением 𝜎. Введение этого убеждения в априорный термин logp(w) в MAP (где p(w) обозначает априорное знание веса) приводит нас к естественному суммированию квадратов весов. Этот термин соответствует L2