Меры центра

Вывод, оценивание и принятие решений по данным

Прежде чем моделировать данные, нужно честно их обобщить. Самое базовое — одно число, отвечающее «где центр данных?» Есть три классических ответа, и они не всегда согласны, поэтому нужно знать все три.

Среднее — точка равновесия: сложить все значения, разделить на количество. Медиана — среднее значение после сортировки. Мода — самое частое значение.

Представьте себе запрашиваемые цены на одной короткой улице в сотнях тысяч: 3, 4, 4, 5, 30. Четыре обычных дома и один особняк на набережной. Средняя цена составляет 46/5 = 9.2, однако ни один обычный дом не стоит и близко к этой сумме. Медиана, среднее значение после сортировки, равна всего 4 и честно отражает стоимость типичного дома, потому что единственный особняк не может сильно сместить середину списка.

Где это встречается в MLКаждая метрика потери, которую вы сообщаете, — мера центра по тестовому множеству. «Среднеквадратичная ошибка» усредняет квадраты ошибок; среднее чувствительно, несколько катастрофических предсказаний доминируют. Сообщайте медианную ошибку тоже при подозрении на тяжёлый хвост. Она показывает, что испытывает типичный пример, а не что худшие делают со средним.
▶ Меры центра
← Центральная предельная теоремаМеры разброса →