Вывод, оценивание и принятие решений по данным
Вы построили два классификатора: один 91.0%, другой 91.4%. Второй реально лучше или просто удачнее тестовое множество? Строгий ответ — статистическое тестирование для ML: проверка гипотез, адаптированная к особенностям сравнения моделей.
Наивный ход — обычный t-критерий по точностям фолдов — некорректен, потому что фолды кросс-валидации делят обучающие данные и нарушают независимость, которую t-критерий предполагает. Это делает критерий чрезмерно уверенным, раздувая ложноположительные. Три лучших инструмента честно работают в ML-настройке.
Критерий Макнемара сравнивает два классификатора на том же тестовом множестве, глядя только на примеры, где они расходятся — точно нужный вопрос для парных предсказаний. Бутстрап ресэмплирует тестовое множество с возвращением много раз, строя доверительный интервал для точности напрямую, без формул. Исправленный парный t-критерий корректирует дисперсию, учитывая перекрытие между CV-фолдами, отменяя чрезмерную уверенность наивной версии.