Разпределение на данни

Извод, оценка и вземане на решения от данни

Един център и едно разсейване са просто две числа. Пълната форма на данните (тяхното разпределение) носи много повече информация. Най-бързият начин да я видите е чрез хистограма: разделете диапазона на интервали (bins) и пребройте колко стойности попадат във всеки от тях. Изгладената версия се нарича графика на плътността (density plot).

След като видите формата, възникват два въпроса: дали е симетрична или изкривена (асиметрична) и дали опашките ѝ са тежки или леки?

Асиметрията (Skewness) измерва липсата на симетрия. Изкривено надясно (положително асиметрично) разпределение има дълга опашка, простираща се надясно: доходи, времена на изчакване, размери на файлове. Изкривено наляво разпределение се издължава наляво. При изкривена надясно форма средната стойност се намира в дясно от медианата, изтеглена от опашката.

Къде се използва това в MLФормата на разпределението води до реални решения в машинното обучение. Разпределенията на активациите вътре в мрежата могат да се изкривят и да развият тежки опашки, поради което съществува бач/слойната нормализация (batch/layer normalization). Разпределенията на загубите в бачовете разкриват дали вашият модел се проваля равномерно, или се затруднява от малка група трудни примери. А тежките…
▶ Разпределение на данни
← Мерки на разсейванетоВръзки между променливи →