Множественные сравнения — Статистика

Вывод, оценивание и принятие решений по данным

Проведите один тест при α = 0.05 — 5% шанс ложноположительного. Проведите двадцать независимых тестов — даже если ничего реально нет, вероятно получите хотя бы один «значимый» результат чисто случайно. Это проблема множественных сравнений, тихо портящая массу исследований и ML-экспериментов.

Шанс хотя бы одного ложноположительного по m тестам, групповая вероятность ошибки, раздуется: для m независимых тестов на уровне α это 1 − (1 − α)m. Для m = 20, α = 0.05 это около 64%, более вероятно, чем нет, найти фантомный эффект.

Купите один лотерейный билет, и ваши шансы на выигрыш крошечные. Купите тысячу, и один из них может «выиграть» что-то чисто случайно, даже если у вас нет никакой особой интуиции. Проведение множества статистических тестов — это такая же азартная игра: при достаточном количестве попыток бессмысленная случайность в конце концов пересечет линию значимости и выдаст себя за реальное открытие.

Где это встречается в MLМножественные сравнения — тихий убийца ML-ригора. Поиск гиперпараметров по 100 конфигурациям, абляционное исследование с десятками вариантов, бенчмарк из 50 задач: каждая — залп неявных тестов. Выбор «конфиг, выигравшей на валидации» без поправки — массовое множественное тестирование, и поэтому столько сообщённых выигрышей испаряется на свежем тестовом множестве.