Множествено тестване — Статистика

Ако направите един тест при α = 0,05, имате 5% шанс за фалшиво положителен резултат. Ако пуснете двадесет независими теста, дори и да няма реален ефект, вероятно ще получите поне един „значим“ резултат от чист късмет. Това е проблемът с множественото тестване (multiple testing) и той безшумно опорочава огромно количество изследвания и експерименти в машинното обучение.

Вероятността за най-малко един фалшиво положителен резултат при m теста (т.нар. family-wise error rate) нараства: при m независими теста на ниво α тя е 1 − (1 − α)m. За m = 20, α = 0,05, това е около 64% – тоест е по-вероятно да откриете фантомен ефект, отколкото не.

Купете си един лотариен билет и шансовете ви за печалба са малки. Купете си хиляда и един от тях може да "спечели" нещо чисто по случайност, въпреки че нямате никакво специално прозрение. Провеждането на много статистически тестове е същият хазарт: с достатъчно опити, безсмислена случайност в крайна сметка ще премине линията на значимост и ще се маскира като реално откритие.

Къде се използва това в MLМножественото тестване е тих убиец на научната строгост в машинното обучение. Търсенето на хиперпараметри (hyperparameter search) сред 100 конфигурации, аблационното изследване (ablation study) с десетки варианти или оценката върху бенчмарк с 50 задачи – всичко това е поредица от имплицитни тестове. Изборът на „конфигурацията, която спечели на валидационния набор“ без съответната корекция е…