تقدير الإمكان الأقصى — الإحصاء

الاستدلال والتقدير واتخاذ القرار من البيانات

إذا كان عليك اختيار قيمة واحدة للمعلَم θ، فإن القاعدة الأكثر طبيعية هي هذه: اختر θ الذي يجعل البيانات التي رصدتها فعلًا هي الأكثر احتمالًا. هذا هو تقدير الإمكان الأقصى (MLE)، المبدأ الكامن خلف تدريب كل نموذج تقريبًا في تعلّم الآلة.

بمعلومية بيانات x₁، …، xₙ يُفترض أنها مستقلة، فإن احتمال العيّنة كاملةً هو حاصل ضرب احتمالات النقاط الفردية. وكدالة في θ، يكون هذا الحاصل هو الإمكان:

ضرب الكثير من الاحتمالات الصغيرة ينحدر إلى الصفر ويصعب اشتقاقه. والحلّ هو أخذ اللوغاريتم: لوغاريتم الحاصل هو مجموع، واللوغاريتم متزايد فلا يحرّك مكان الأعظمية. نحن نُعظّم لوغاريتم الإمكان:

أين يظهر هذا في تعلّم الآلةتدريب نموذج هو تقدير إمكان أقصى. تصغير خسارة الإنتروبيا المتقاطعة هو بالضبط تعظيم لوغاريتم إمكان الوسوم؛ فالإنتروبيا المتقاطعة هي سالب لوغاريتم الإمكان. وتصغير متوسط مربّع الخطأ هو تقدير إمكان أقصى تحت افتراض ضوضاء غاوسية. وعندما تستدعي .backward() وتخطو بالمُحسّن، فإنك تتسلّق سطح لوغاريتم الإمكان أعلاه، لكن في ملايين الأبعاد.