Parameters & Schatters

Inferentie, schatting en besluitvorming uit data

Bijna elke statistische vraag heeft dezelfde vorm. Er is een waar getal ergens in de wereld dat je niet kunt zien, de parameter θ (een waar gemiddelde, een ware succeskans). Je hebt alleen een eindige steekproef van gegevens. Uit die gegevens bereken je een gok, de schatter θ̂. Schatten is de kunst van het bouwen van goede gokken en weten hoeveel je ze kunt vertrouwen.

Omdat de gegevens willekeurig zijn, is θ̂ zelf een willekeurige grootheid: doe het experiment opnieuw en je krijgt een andere θ̂. We beoordelen een schatter op twee dingen: de bias (komt hij gemiddeld op θ uit?) en de variantie (hoeveel stuitert hij rond van steekproef tot steekproef?).

Je kunt niet de hele pan soep opdrinken om de kruiding te beoordelen, dus je roert goed en proeft één lepel. De ware zoutheid van de hele pan is de parameter θ die je niet direct kunt zien; de zoutheid van jouw lepel is de schatter θ̂. Roer eerst grondig en een enkele lepel schat de hele pan opmerkelijk goed — dat roeren is wat de steekproef representatief maakt.

Waar dit voorkomt in MLUnderfitting versus overfitting is precies deze afweging. De parameters van een model zijn de θ̂, gefit uit eindige trainingsgegevens. Underfitting = hoge bias: het model is te eenvoudig om de waarheid te vatten. Overfitting = hoge variantie: het model is zo flexibel dat het de specifieke trainingssteekproef uit het hoofd leert, en een nieuwe steekproef zou wild verschillende parameters geven.…

▶ Parameters & Schatters

← Verbanden Tussen Variabelen Maximum-Aannemelijkheidschatting →