Estimation du Maximum de Vraisemblance

Inférence, estimation et prise de décision à partir des données

Si vous devez choisir une seule valeur pour le paramètre θ, la règle la plus naturelle est celle-ci : choisissez le θ qui rend les données que vous avez réellement observées les plus probables. C'est l'estimation du maximum de vraisemblance (MLE), le principe derrière l'entraînement de presque tous les modèles en ML.

Étant donné des données x₁, …, xₙ supposées indépendantes, la probabilité de tout l'échantillon est le produit des probabilités par point. Comme fonction de θ, ce produit est la vraisemblance :

Multiplier de nombreuses petites probabilités sous-déborde vers zéro et est peu pratique à différencier. La solution est de prendre le log : le log d'un produit est une somme, et log est croissant donc il ne déplace pas le maximiseur. Nous maximisons la log-vraisemblance :

Où cela apparaît en MLEntraîner un modèle c'est le maximum de vraisemblance. Minimiser la loss d'entropie croisée est exactement maximiser la log-vraisemblance des labels ; l'entropie croisée est la log-vraisemblance négative. Minimiser l'erreur quadratique moyenne est le MLE sous une hypothèse de bruit gaussien. Quand vous appelez .backward() et faites un pas d'optimiseur, vous gravissez la surface de…

▶ Estimation du Maximum de Vraisemblance

← Paramètres & Estimateurs MLE pour Distributions Courantes →