Извод, оценка и вземане на решения от данни
Ако направите един тест при α = 0,05, имате 5% шанс за фалшиво положителен резултат. Ако пуснете двадесет независими теста, дори и да няма реален ефект, вероятно ще получите поне един „значим“ резултат от чист късмет. Това е проблемът с множественото тестване (multiple testing) и той безшумно опорочава огромно количество изследвания и експерименти в машинното обучение.
Вероятността за най-малко един фалшиво положителен резултат при m теста (т.нар. family-wise error rate) нараства: при m независими теста на ниво α тя е 1 − (1 − α)m. За m = 20, α = 0,05, това е около 64% – тоест е по-вероятно да откриете фантомен ефект, отколкото не.
Купете си един лотариен билет и шансовете ви за печалба са малки. Купете си хиляда и един от тях може да "спечели" нещо чисто по случайност, въпреки че нямате никакво специално прозрение. Провеждането на много статистически тестове е същият хазарт: с достатъчно опити, безсмислена случайност в крайна сметка ще премине линията на значимост и ще се маскира като реално откритие.