Bienvenue dans « Courage to Learn ML : Unraveling L1 & L2 Regularization », dans son quatrième article. La dernière fois, notre binôme mentor-apprenant a exploré les propriétés de régularisation L1 et L2 à travers le prisme des multiplicateurs de Lagrange.
Dans ce segment final sur la régularisation L1 et L2, le duo abordera ces sujets sous un nouvel angle : Priorités bayésiennes. Nous résumerons également comment les régularisations L1 et L2 sont appliquées sur différents algorithmes.
Dans cet article, nous aborderons plusieurs questions intrigantes. Si l’un de ces sujets attise votre curiosité, vous êtes au bon endroit !
- Comment les priors MAP sont liés aux régularisations L1 et L2
- Une ventilation intuitive de l'utilisation de Laplace et des distributions normales comme priorités
- Comprendre la parcimonie induite par la régularisation L1 avec un a priori de Laplace
- Algorithmes compatibles avec la régularisation L1 et L2
- Pourquoi la régularisation L2 est souvent appelée « dégradation du poids » dans l'entraînement des réseaux neuronaux
- Les raisons de l'utilisation moins fréquente de la norme L1 dans les réseaux de neurones
Voyons comment les différents a priori de la formule MAP façonnent notre approche de la régularisation L1 et L2 (pour une présentation détaillée de la formulation de cette équation, consultez ce post).
Lorsque nous considérons les a priori pour les poids, notre intuition initiale nous amène souvent à choisir un distribution normale comme le précédent pour les poids du modèle. Avec cela, nous utilisons généralement une distribution normale de moyenne nulle pour chaque poids wi, partageant le même écart type 𝜎. Brancher cette croyance sur le terme antérieur logp(w) dans MAP (où p(w) représente l'a priori du poids) nous amène à somme des poids au carré naturellement. Ce terme est précisément le L2…