Меры разброса

Вывод, оценивание и принятие решений по данным

Центр говорит где данные; разброс — насколько они колеблются вокруг центра. Два набора могут иметь одно среднее и быть совершенно разными: один плотный, другой повсюду. Разброс — разница.

Рабочая лошадка — дисперсия: средний квадрат отклонения от среднего. Её корень, стандартное отклонение, в тех же единицах, что данные, проще интерпретировать.

Два класса пишут один и тот же тест, и в обоих средний балл равен 72, так что на бумаге они выглядят одинаково. Но класс A набрал 70, 72, 74 (все сгруппировались), в то время как класс B набрал 50, 72, 94 (широкий разброс). Тот же центр, но совершенно разные истории: разброс — это именно то число, которое их различает.

Где это встречается в MLРазброс повсюду в надёжности ML. Дисперсия градиента по мини-батчу контролирует шум каждого шага; высокая дисперсия — дрожащий спуск. И когда сообщаете точность модели, стандартное отклонение по случайным сидам говорит, реально ли «+0.3%» улучшение или просто шум. Результат без разброса — половина результата.
▶ Меры разброса
← Меры центраРаспределения данных →