Maximum-Aannemelijkheidschatting

Inferentie, schatting en besluitvorming uit data

Als je één enkele waarde voor de parameter θ moet kiezen, is de meest natuurlijke regel deze: kies de θ die de gegevens die je werkelijk hebt waargenomen het meest waarschijnlijk maakt. Dat is maximum-aannemelijkheidschatting (MLE), het principe achter het trainen van vrijwel elk model in ML.

Gegeven data x₁, …, xₙ die onafhankelijk worden verondersteld, is de kans op de hele steekproef het product van de kansen per punt. Als functie van θ is dit product de aannemelijkheid:

Het vermenigvuldigen van veel kleine kansen onderschrijdt naar nul en is lastig te differentiëren. De oplossing is de logaritme te nemen: de logaritme van een product is een som, en log is stijgend dus verschuift het maximaliserende punt niet. We maximaliseren de log-aannemelijkheid:

Waar dit voorkomt in MLEen model trainen is maximum-aannemelijkheid. Het minimaliseren van het cross-entropie-verlies is precies het maximaliseren van de log-aannemelijkheid van de labels; cross-entropie is de negatieve log-aannemelijkheid. Het minimaliseren van de gemiddelde kwadratische fout is MLE onder een Gaussische ruisaanname. Wanneer je .backward() aanroept en de optimizer een stap laat zetten, klim je het…
▶ Maximum-Aannemelijkheidschatting
← Parameters & SchattersMLE voor Veelvoorkomende Verdelingen →