Inferentie, schatting en besluitvorming uit data
Als je één enkele waarde voor de parameter θ moet kiezen, is de meest natuurlijke regel deze: kies de θ die de gegevens die je werkelijk hebt waargenomen het meest waarschijnlijk maakt. Dat is maximum-aannemelijkheidschatting (MLE), het principe achter het trainen van vrijwel elk model in ML.
Gegeven data x₁, …, xₙ die onafhankelijk worden verondersteld, is de kans op de hele steekproef het product van de kansen per punt. Als functie van θ is dit product de aannemelijkheid:
Het vermenigvuldigen van veel kleine kansen onderschrijdt naar nul en is lastig te differentiëren. De oplossing is de logaritme te nemen: de logaritme van een product is een som, en log is stijgend dus verschuift het maximaliserende punt niet. We maximaliseren de log-aannemelijkheid: