Inférence, estimation et prise de décision à partir des données
Si vous devez choisir une seule valeur pour le paramètre θ, la règle la plus naturelle est celle-ci : choisissez le θ qui rend les données que vous avez réellement observées les plus probables. C'est l'estimation du maximum de vraisemblance (MLE), le principe derrière l'entraînement de presque tous les modèles en ML.
Étant donné des données x₁, …, xₙ supposées indépendantes, la probabilité de tout l'échantillon est le produit des probabilités par point. Comme fonction de θ, ce produit est la vraisemblance :
Multiplier de nombreuses petites probabilités sous-déborde vers zéro et est peu pratique à différencier. La solution est de prendre le log : le log d'un produit est une somme, et log est croissant donc il ne déplace pas le maximiseur. Nous maximisons la log-vraisemblance :