Параметры и оценки

Вывод, оценивание и принятие решений по данным

Почти каждый статистический вопрос имеет одну форму. Есть истинное число в мире, которое вы не видите, — параметр θ (истинное среднее, истинная вероятность успеха). У вас только конечная выборка. По ней вычисляете догадку — оценку θ̂. Оценивание — искусство строить хорошие догадки и знать, насколько им доверять.

Поскольку данные случайны, θ̂ сам случаен: повторите эксперимент — другая θ̂. Оценку судят по двум вещам: смещение (попадает ли в θ в среднем?) и дисперсия (насколько прыгает от выборки к выборке?).

Вы не можете выпить всю кастрюлю супа, чтобы оценить количество приправ, поэтому вы хорошо перемешиваете и пробуете одну ложку. Истинная соленость всей кастрюли — это параметр θ, который вы не можете увидеть напрямую; соленость вашей ложки — это оценка θ̂. Сначала тщательно перемешайте, и одна ложка удивительно хорошо оценит всю кастрюлю — именно перемешивание делает выборку репрезентативной.

Где это встречается в MLНедообучение против переобучения — тот же компромисс. Параметры модели — θ̂, подогнанные по конечным обучающим данным. Недообучение = высокое смещение: модель слишком проста, чтобы ухватить истину. Переобучение = высокая дисперсия: модель настолько гибка, что запоминает конкретную обучающую выборку, новая даст совсем другие параметры. Выбор сложности — выбор точки на этом компромиссе.
▶ Параметры и оценки
← Связи между переменнымиОценка максимального правдоподобия →