«Смелость учиться машинному обучению разоблачение L1 и L2 регуляризации (часть 3)»

«Смелость освоить машинное обучение раскрытие регуляризации L1 и L2 (часть 3)»

Почему регуляризация L0.5, L3 и L4 необычны

Фото от Kelvin Han на Unsplash

Добро пожаловать на третью часть «Courage to Learn ML: Demystifying L1 & L2 Regularization». Ранее мы вглубь рассмотрели цель регуляризации и расшифровали методы L1 и L2 через призму множителей Лагранжа.

Продолжая наше путешествие, наш дуэт наставник-ученик более подробно рассмотрит регуляризацию L1 и L2 с использованием множителей Лагранжа.

В этой статье мы рассмотрим несколько интересных вопросов, которые, возможно, возникли у вас в голове. Если вы запутались в этих темах, то вы попали в нужное место:

  • Какова причина отсутствия регуляризации L0.5?
  • Почему нам важно знать, является ли проблема невыпуклой, учитывая, что большинство проблем глубокого обучения являются невыпуклыми?
  • Почему нормы, такие как L3 и L4, редко используются?
  • Можно ли комбинировать регуляризацию L1 и L2? И каковы преимущества и недостатки такого подхода?

У меня есть вопрос, основанный на нашем последнем обсуждении, я узнал, что для нормы Lp значение p может быть любым числом больше 0. Почему мы не используем значения p между 0 и 1? В чем причина отсутствия регуляризации L0.5?

Я рад, что вы задали этот вопрос. Чтобы перейти прямо к делу, мы обычно избегаем значений p меньше 1, потому что они приводят к невыпуклым задачам оптимизации. Позвольте мне проиллюстрировать это с помощью изображения, показывающего форму норм Lp для разных значений p. При ближайшем рассмотрении вы обратите внимание, что при p=0,5 форма явно невыпуклая.

Форма норм Lp для разных значений p. Источник: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

Это становится еще более ясным, когда мы рассмотрим трехмерное представление, предполагая, что мы оптимизируем три веса. В этом случае становится очевидным, что проблема не является выпуклой, и появляется множество локальных минимумов вдоль границ.

Источник: https://ekamperi.github.io/images/lp_norms_3d.png

Причина, по которой мы обычно избегаем несгибаемых проблем в машинном обучении, связана с их сложностью. В случае с выпуклой проблемой, вы гарантированно получите глобальный минимум – это обычно упрощает решение. С другой стороны, несгибаемые проблемы часто имеют несколько локальных минимумов и могут быть вычислительно сложными и непредсказуемыми. Именно такие вызовы мы стремимся обойти в машинном обучении.

Когда мы используем техники, такие как множители Лагранжа, для оптимизации функции с определенными ограничениями, важно, чтобы эти ограничения были выпуклыми функциями. Это обеспечивает сохранение фундаментальных свойств исходной проблемы, что делает ее более сложной для решения. Этот аспект критичен; в противном случае добавление ограничений может усложнить исходную задачу.

Почему нам важно, является ли здесь проблема или ограничение несгибаемой проблемой? Разве большинство проблем глубокого обучения являются несгибаемыми?

Ваш вопрос касается интересного аспекта глубокого обучения. Хотя мы не предпочитаем несгибаемые проблемы, более точно сказать, что мы часто сталкиваемся с ними и должны иметь дело с ними в области глубокого обучения. Вот почему:

  1. Природа моделей глубокого обучения приводит к несгибаемой поверхности потерь: Большинство моделей глубокого обучения, особенно нейронные сети с скрытыми слоями, неизбежно имеют несгибаемые функции потерь. Это связано с комплексными нелинейными преобразованиями, которые происходят внутри этих моделей. Комбинация этих нелинейностей и большой размерности пространства параметров обычно приводит к несгибаемой поверхности потерь.
  2. Локальные минимумы больше не являются проблемой в глубоком обучении: В высокомерных пространствах, которые типичны для глубокого обучения, локальные минимумы не так проблематичны, как они могут быть в пространствах меньшей размерности. Исследования показывают, что многие локальные минимумы в глубоком обучении близки по значению к глобальному минимуму. Кроме того, седловые точки – точки, в которых градиент равен нулю, но не являются ни максимумами, ни минимумами – более распространены в таких пространствах и представляют более серьезную проблему.
  3. Существуют продвинутые методы оптимизации, которые более эффективно справляются с несгибаемыми пространствами. Продвинутые методы оптимизации, такие как стохастический градиентный спуск (SGD) и его варианты, показали себя особенно эффективными в поиске хороших решений в этих несгибаемых пространствах. Хотя эти решения не обязательно являются глобальными минимумами, они часто достаточно хороши, чтобы достичь высокой производительности в практических задачах.

Несмотря на то, что модели глубокого обучения являются несгибаемыми, они отлично справляются с обнаружением сложных паттернов и взаимосвязей в больших наборах данных. Кроме того, исследования несгибаемых функций постоянно продвигаются вперед, улучшая наше понимание. В будущем есть потенциал для того, чтобы мы могли эффективнее решать несгибаемые проблемы и иметь меньше проблем.

Почему мы не рассматриваем использование более высоких норм, таких как L3 и L4, для регуляризации?

Вспомните изображение, которое мы обсуждали ранее, показывающее формы норм Lp для различных значений p. По мере увеличения p, форма нормы Lp эволюционирует. Например, при p = 3 она напоминает квадрат с закругленными углами, а при приближении p к бесконечности она превращается в идеальный квадрат.

Форма норм Lp для различных значений p. Источник: https://lh5.googleusercontent.com/EoX3sngY7YnzCGY9CyMX0tEaNuKD3_ZiF4Fp3HQqbyqPtXks2TAbpTj5e4tiDv-U9PT0MAarRrPv6ClJ06C0HXQZKHeK40ZpVgRKke8-Ac0TAqdI7vWFdCXjK4taR40bdSdhGkWB

В контексте нашей задачи оптимизации рассмотрим более высокие нормы, такие как L3 или L4. Подобно L2-регуляризации, где контуры функции потерь и ограничения пересекаются в скругленных краях, эти более высокие нормы будут содействовать приближению весов к нулю, подобно L2-регуляризации. (Если этот момент не ясен, прочитайте Часть 2 для более подробного объяснения.) Исходя из этого утверждения, мы можем говорить о двух ключевых причинах, почему L3 и L4 нормы не используются часто:

  1. L3 и L4 нормы проявляют похожие эффекты, как L2, не предлагая значительных новых преимуществ (для близости весов к 0). В отличие от этого, L1-регуляризация обнуляет веса и вводит разреженность, полезную для отбора признаков.
  2. Еще одним важным аспектом является вычислительная сложность. Регуляризация влияет на сложность процесса оптимизации. L3 и L4 нормы являются вычислительно более трудоемкими, чем L2, что делает их менее предпочтительными для большинства приложений машинного обучения.

Подводя итог, хотя L3 и L4 нормы можно использовать в теории, они не предоставляют уникальных преимуществ по сравнению с L1 или L2-регуляризацией, а их невысокая эффективность в вычислениях делает их менее практичным выбором.

Возможно ли комбинирование L1 и L2-регуляризации?

Да, действительно возможно комбинирование L1 и L2-регуляризации, техника, часто называемая регуляризацией Elastic Net. Этот подход сочетает свойства как L1 (лассо), так и L2 (гребневой) регуляризации вместе и может быть полезным, но вызывает определенные сложности.

Регуляризация Elastic Net является линейной комбинацией условии L1 и L2 регуляризации. Она добавляет как L1, так и L2 нормы к функции потерь. Таким образом, для настройки этого подхода требуется два параметра, lambda1 и lambda2

Регуляризация Elastic Net. Источник: https://wikimedia.org/api/rest_v1/media/math/render/svg/a66c7bfcf201d515eb71dd0aed5c8553ce990b6e

Каково преимущество использования регуляризации Elastic Net? Если да, почему мы не используем ее чаще?

Комбинируя обе техники регуляризации, Elastic Net позволяет улучшить способность модели к обобщению, снижая риск переобучения более эффективно, чем использование только L1 или только L2.

Давайте разберемся с их преимуществами:

  1. Elastic Net обеспечивает большую стабильность, чем L1. L1-регуляризация может приводить к разреженным моделям, что полезно для отбора признаков. Но при определенных условиях она может быть нестабильной. Например, L1-регуляризация может выбирать признаки произвольным образом среди высококоррелирующих переменных (а остальные коэффициенты будут равны 0). В то время как Elastic Net может распределить веса более равномерно на этих переменных.
  2. L2 может быть более стабильным, чем L1-регуляризация, но не стимулирует разреженность. Elastic Net стремится сбалансировать эти два аспекта, что может привести к более надежным моделям.

Однако регуляризация Elastic Net вводит дополнительный гиперпараметр, который требует тщательной настройки. Достижение правильного баланса между L1 и L2 регуляризацией и оптимальной производительностью модели требует увеличенных вычислительных усилий. Именно из-за этой дополнительной сложности она не используется часто.

В следующей сессии мы рассмотрим L1 и L2 регуляризацию с совершенно новой точки зрения, погрузившись в область байесовских априорных убеждений, чтобы углубить наше понимание. Для настоящего времени приостановимся здесь — с нетерпением ждем нашей следующей дискуссии!

Другие публикации в этой серии:

  • Если вам понравилась статья, вы можете найти меня на LinkedIn.

Ссылка:

<a href=”https://www.rupython.com/…