Статистическое тестирование для ML — Статистика

Вывод, оценивание и принятие решений по данным

Вы построили два классификатора: один 91.0%, другой 91.4%. Второй реально лучше или просто удачнее тестовое множество? Строгий ответ — статистическое тестирование для ML: проверка гипотез, адаптированная к особенностям сравнения моделей.

Наивный ход — обычный t-критерий по точностям фолдов — некорректен, потому что фолды кросс-валидации делят обучающие данные и нарушают независимость, которую t-критерий предполагает. Это делает критерий чрезмерно уверенным, раздувая ложноположительные. Три лучших инструмента честно работают в ML-настройке.

Критерий Макнемара сравнивает два классификатора на том же тестовом множестве, глядя только на примеры, где они расходятся — точно нужный вопрос для парных предсказаний. Бутстрап ресэмплирует тестовое множество с возвращением много раз, строя доверительный интервал для точности напрямую, без формул. Исправленный парный t-критерий корректирует дисперсию, учитывая перекрытие между CV-фолдами, отменяя чрезмерную уверенность наивной версии.

Где это встречается в MLТакая строгость отличает реальный результат от шума таблицы лидеров. Прежде чем заявлять, что модель A бьёт B, запустите критерий Макнемара (то же тестовое множество) или бутстрап-ДИ для разрыва точности. Вся причина, по которой результат сообщают как «91.2% ± 0.4%», а не просто «91.2%», — чтобы читатель мог применить именно такой критерий на глаз.