Çapraz Doğrulama

Inference, estimation, and decision-making from data

Bir modeli eğitim hatasına göre yargılayamazsınız; o veriyi zaten görmüştür, dolayısıyla ezberleyerek hile yapabilir. Onun hiç görmediği veri üzerindeki hatasına ihtiyacınız var. Ama tek bir test kümesi ayırmak veriyi israf eder ve gürültülü bir tahmin verir. Çapraz doğrulama her iki sorunu da çözer.

k-katlı çapraz doğrulamada, veriyi k eşit katmana bölersiniz. Bunların k−1 tanesi üzerinde eğitir, ayrılan biri üzerinde doğrularsınız ve her katman tam olarak bir kez doğrulama kümesi olacak şekilde döndürürsünüz. Modelin nasıl genellediğine dair kararlı bir tahmin için k doğrulama hatasının ortalamasını alın.

Çapraz doğrulama, gerçek sınav puanınızı tahmin etmek için birkaç deneme sınavına girmek gibidir. Sadece cevaplarını zaten ezberlediğiniz sorularda kendinize not verseydiniz, aşırı bir abartı yapardınız; bu yüzden her seferinde yeni bir grup soruyu bir kenara bırakır, kendinizi bunlardan notlandırır ve hangi grubun geride tutulduğunu döndürürsünüz. Tüm deneme oturumlarındaki puanlarınızın ortalamasını almak, o gün nasıl yapacağınıza dair tek bir deneme sınavının verebileceğinden çok daha tutarlı bir tahmin verir.

Bunun ML'deki yeriÇapraz doğrulama, ML uygulayıcılarının kendilerini kandırmadan model ve hiper parametre seçmesinin yoludur. Tüm veriyi verimli kullanarak genelleme hatasını (yanlılık–varyans ayrışımının konusu olan büyüklüğü) tahmin eder. Ve veri sızıntısına karşı ön cephedir: test dağılımından gelen bilginin eğitime sızıp muhteşem, tamamen sahte doğrulama skorları ürettiği sessiz hatadır bu.

▶ Çapraz Doğrulama

← Yanlılık-Varyans Ayrışımı Değerlendirme Metrikleri →