Мерки на центъра

Извод, оценка и вземане на решения от данни

Преди да моделирате данни, трябва да ги обобщите честно. Най-основното обобщение е едно число, което отговаря на въпроса „къде са центрирани данните?“ Има три класически отговора и те не винаги съвпадат, точно затова трябва да знаете и трите.

Средната стойност е точката на баланс: съберете всички стойности и разделете на техния брой. Медианата е стойността по средата, след като ги сортирате. Модата е просто най-често срещаната стойност.

Представете си исканите цени на една къса улица, в стотици хиляди: 3, 4, 4, 5, 30. Четири обикновени къщи и едно имение на брега. Средната цена е 46/5 = 9.2, но нито една обикновена къща не струва нищо близко до това. Медианата, средната стойност след сортиране, е само 4 и отчита типичния дом честно, защото самотното имение не може да издърпа средата на списъка много далеч.

Къде се използва това в MLВсяка функция на загубата, която отчитате, е мярка за център върху тестовия набор. „Средната квадратична грешка“ усреднява квадратите на грешките; средната стойност е чувствителна, така че няколко катастрофални прогнози могат да я доминират. Докладвайте и медианата на грешката, когато подозирате наличие на тежки опашки (екстремни грешки). Тя ви показва какво се случва при типичен пример, а не как…
▶ Мерки на центъра
← Централна гранична теоремаМерки на разсейването →