Вывод, оценивание и принятие решений по данным
Проведите один тест при α = 0.05 — 5% шанс ложноположительного. Проведите двадцать независимых тестов — даже если ничего реально нет, вероятно получите хотя бы один «значимый» результат чисто случайно. Это проблема множественных сравнений, тихо портящая массу исследований и ML-экспериментов.
Шанс хотя бы одного ложноположительного по m тестам, групповая вероятность ошибки, раздуется: для m независимых тестов на уровне α это 1 − (1 − α)m. Для m = 20, α = 0.05 это около 64%, более вероятно, чем нет, найти фантомный эффект.
Купите один лотерейный билет, и ваши шансы на выигрыш крошечные. Купите тысячу, и один из них может «выиграть» что-то чисто случайно, даже если у вас нет никакой особой интуиции. Проведение множества статистических тестов — это такая же азартная игра: при достаточном количестве попыток бессмысленная случайность в конце концов пересечет линию значимости и выдаст себя за реальное открытие.