Inferensi, estimasi, dan pengambilan keputusan dari data
Anda tidak bisa menilai model dari galat pelatihannya; ia sudah melihat data itu, jadi bisa curang dengan menghafal. Anda butuh galatnya pada data yang belum pernah dilihat. Tapi menahan satu set tes saja membuang data dan member estimasi noisy. Cross-validation menyelesaikan keduanya.
Dalam k-fold cross-validation, bagi data ke k fold sama. Latih pada k−1, validasi pada fold yang ditahan, dan rotasi sehingga setiap fold menjadi set validasi tepat sekali. Rata-rata k galat validasi untuk estimasi stabil seberapa baik model menggeneralisasi.
Validasi silang (cross-validation) ibarat mengerjakan beberapa ujian latihan untuk memprediksi nilai ujian sungguhan Anda. Jika Anda hanya menilai diri pada pertanyaan yang jawabannya sudah Anda hafal, Anda akan melebih-lebihkan hasilnya dengan liar, jadi Anda menyisihkan sekumpulan pertanyaan baru setiap kali, skor diri Anda atas pertanyaan-pertanyaan itu, dan memutar kumpulan mana yang ditahan. Rata-rata dari skor Anda melintasi semua sesi latihan memberikan prediksi yang jauh lebih stabil atas bagaimana Anda akan mengerjakannya di hari H ketimbang sekadar ujian tiruan tunggal mana pun.