Параметри и оценители — Статистика

Почти всеки статистически въпрос има една и съща форма. Съществува някакво истинско число в реалния свят, което не можете да видите – параметърът θ (истинска средна стойност, истинска вероятност за успех). Вие разполагате само с ограничена извадка от данни. От тези данни изчислявате някакво предположение – оценителя θ̂. Теорията на оценяването е изкуството да се правят добри предположения и да се знае доколко може да им се вярва.

Тъй като данните са случайни, θ̂ само по себе си е случайна величина: ако проведете експеримента отново, ще получите различно θ̂. Оценяваме един оценител по две неща: неговото отклонение (bias) (попада ли върху θ средно?) и неговата дисперсия (variance) (колко варира от извадка до извадка?).

Не можете да изпиете цялата тенджера със супа, за да прецените подправките, затова разбърквате добре и опитвате една лъжица. Истинската соленост на цялата тенджера е параметърът θ, който не можете да видите директно; солеността на вашата лъжица е оценителят θ̂. Разбъркайте старателно първо и една единствена лъжица оценява цялата тенджера забележително добре — това разбъркване прави извадката представителна.

Къде се използва това в MLНедонастройването (underfitting) спрямо пренастройването (overfitting) представлява същия компромис. Параметрите на модела са θ̂, напаснати върху крайно количество тренировъчни данни. Недонастройване = голямо отклонение (bias): моделът е твърде прост, за да улови закономерността. Пренастройване = висока дисперсия (variance): моделът е толкова гъвкав, че направо запаметява конкретната тренировъчна…