Distribution Gaussienne

Les mathématiques de l'incertitude

La distribution gaussienne (normale) apparaît plus que toute autre en machine learning. C'est la cloche lisse et symétrique que vous obtenez chaque fois que de nombreux petits effets indépendants s'additionnent. Deux nombres la fixent complètement : la moyenne μ (où le pic se trouve) et la variance σ² (la largeur de la cloche).

La formule a moins de pièces mobiles qu'elle n'en a l'air. Le cœur est exp(−(x−μ)²/2σ²) : distance à la moyenne, au carré, rendue négative, donc la densité chute vite quand vous vous éloignez de μ. Le fouillis devant est juste la constante qui fait que l'aire vaut 1.

Faites glisser μ pour déplacer la cloche gauche/droite et σ pour l'élargir ou l'affiner. Un petit σ donne un pic haut et confiant ; un grand σ étale la croyance finement sur une large plage.

Où cela apparaît en MLLa première fois qu'un réseau touche une Gaussienne c'est avant même l'entraînement : l'initialisation des poids tire depuis une normale mise à l'échelle par la taille de la couche (init He/Xavier). Les modèles de bruit supposent des résidus gaussiens, ce qui fait de la régression des moindres carrés l'ajustement de maximum de vraisemblance. L'espace latent d'un VAE est un a priori gaussien, et…

▶ Distribution Gaussienne

← Espérance & Variance (continu)Distributions Continues Clés →