Функции активации и нелинейность Нейронные сети 101
Основы функций активации и нелинейности в нейронных сетях
Объясняем, почему нейронные сети могут учиться (практически) всему и каждому
![Фото от Google DeepMind: https://www.pexels.com/photo/an-artist-s-illustration-of-artificial-intelligence-ai-this-image-was-inspired-by-neural-networks-used-in-deep-learning-it-was-created-by-novoto-studio-as-part-of-the-visualising-ai-pr-17483874/](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*ti3el53rrUp6JBDkuloA3A.jpeg)
Предыстория
В моей предыдущей статье мы познакомились с многослойным персептроном (MLP), который представляет собой набор взаимосвязанных персептронов. Я настоятельно рекомендую ознакомиться с моим предыдущим постом, если вы не знакомы с персептроном и MLP, так как мы достаточно много обсудим эти темы в этой статье:
Введение, персептрон и архитектура: Основы нейронных сетей 101
Введение в нейронные сети и их строительные блоки
levelup.gitconnected.com
Ниже приведен пример MLP с двумя скрытыми слоями:
- 3 Революционные техники использования неотмеченных данных в машинном обучении
- Овладение интеграцией данных из систем SAP с быстрым проектированием
- Нахождение порядка в хаосе с помощью разложения полиномиального хаоса, используя uncertainpy и chaospy
![Базовый многослойный персептрон с двумя скрытыми слоями. Диаграмма от автора.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*YVjpCZEbxfvdABYzt8RJOA.png)
Однако проблема с MLP заключается в том, что он может аппроксимировать только линейный классификатор. Это связано с тем, что отдельные персептроны имеют ступенчатую функцию в качестве функции активации, которая является линейной:
![Персептрон, являющийся самой простой нейронной сетью. Диаграмма от автора.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*84kThqlGJw0Ii7HSSwHMFw.png)
Таким образом, несмотря на то, что стек персептронов может выглядеть как современная нейронная сеть, на самом деле это все равно линейный классификатор и не сильно отличается от обычной линейной регрессии!
Еще одной проблемой является то, что она не является полностью дифференцируемой на всем диапазоне области.
Что же мы делаем с этим?
Нелинейные функции активации!
Зачем нам нужна нелинейность?
Что такое линейность?
Давайте быстро определим, что такое линейность для установления контекста. Математически функция считается линейной, если она удовлетворяет следующему условию:
Также существует еще одно условие:
Но в этой демонстрации мы будем работать с предыдущим уравнением.
Возьмем вот этот очень простой пример: