Wnioskowanie, estymacja i podejmowanie decyzji z danych
Nie powinieneś oceniać skuteczności modelu na podstawie jego błędu treningowego; model już te dane widział, więc może łatwo „oszukiwać”, po prostu ucząc się ich na pamięć. Potrzebujesz określić jego błąd na danych, których nigdy wcześniej nie widział. Niestety, proste odłożenie części danych na jeden zbiór testowy marnuje cenne informacje i daje nam zaszumioną estymację. Rozwiązaniem obu tych problemów jest zastosowanie walidacji krzyżowej (cross-validation).
W wariancie k-krotnej walidacji krzyżowej (k-fold cross-validation), dzielisz swoje dane na k równych podzbiorów (tzw. foldów). Następnie trenujesz model na k−1 z nich, walidujesz wyniki na odłożonym jednym i rotujesz ten proces tak długo, aż każdy z podzbiorów posłuży jako zbiór walidacyjny dokładnie jeden raz. Na koniec uśredniasz ze sobą k otrzymanych błędów walidacyjnych, zyskując bardzo stabilną estymację tego, jak dobrze model będzie w stanie generalizować swoją wiedzę.
Walidacja krzyżowa przypomina zdawanie kilku egzaminów próbnych, aby przewidzieć swój wynik na prawdziwym egzaminie. Gdybyś oceniał się tylko na podstawie pytań, do których odpowiedzi już zapamiętałeś, mocno byś się przecenił, dlatego za każdym razem odkładasz na bok świeżą partię pytań, oceniasz się właśnie na nich i rotujesz tym, która partia jest odkładana. Uśrednienie twoich wyników ze wszystkich prób daje znacznie pewniejszą prognozę tego, jak poradzisz sobie w decydującym dniu, niż jakikolwiek pojedynczy egzamin próbny.