Мерки на разсейването

Извод, оценка и вземане на решения от данни

Центърът ви показва къде се намират данните; разсейването ви показва колко варират те около този център. Два набора от данни могат да имат една и съща средна стойност, но да бъдат много различни: единият да е плътно групиран, а другият разпръснат. Разсейването прави разликата.

Основната мярка е дисперсията: средното квадратно разстояние от средната стойност. Нейният квадратен корен, стандартното отклонение, е в същите мерни единици като данните, така че е по-лесно за тълкуване.

Два класа правят същия тест и двата имат среден резултат 72, така че на хартия изглеждат идентични. Но клас A има резултати 70, 72, 74 (всички събрани заедно), докато клас B има резултати 50, 72, 94 (широко разпръснати). Еднакъв център, напълно различни истории: разсейването е точно числото, което ги различава.

Къде се използва това в MLРазсейването е ключово за надеждността на моделите за машинно обучение. Дисперсията на градиента в даден мини-бач контролира колко шумна е всяка стъпка на обучение; високата дисперсия означава нестабилно спускане. А когато отчитате точността на модела, стандартното отклонение при различни случайни начални стойности е това, което ви казва дали подобрението от „+0,3%“ е реално или просто шум.…
▶ Мерки на разсейването
← Мерки на центъраРазпределение на данни →