الانحدار المُنظَّم — الإحصاء

الاستدلال والتقدير واتخاذ القرار من البيانات

يجد انحدار المربعات الصغرى العادي (OLS) المعاملات التي تلائم بيانات التدريب على أفضل وجه، وهذا بالضبط هو المشكل عندما يكون لديك سمات كثيرة أو بيانات قليلة: فهو يلائم الضوضاء أيضًا، وتتأرجح المعاملات إلى قيم جامحة. يروّض الانحدار المُنظَّم هذا بإضافة عقوبة تعاقب المعاملات الكبيرة، مقايضًا قليلًا من ملاءمة التدريب مقابل تعميم أفضل بكثير.

يضيف انحدار ريدج (Ridge) عقوبة L2، وهي مربع طول متجه المعاملات:

يتحكم المقبض λ في القوة. تكون λ = 0 هي OLS البسيط؛ وكلما كبرت λ، يُقلَّص كل معامل باتجاه الصفر، مما يُنعّم النموذج. كما يصلح هذا التقليص أيضًا حالة (XᵀX)⁻¹ سيئة الاشتراط من الدرس السابق: إذ يضيف ريدج λI، مما يضمن قابلية الانعكاس.

أين يظهر هذا في تعلّم الآلةعقوبة ريدج هي اضمحلال الأوزان (weight decay)، وهو أشيع مُنظِّم في التعلّم العميق، مدمج في كل مُحسِّن. وكما رأيت في الدرس 8، فإن ريدج = MAP مع مُقدَّمة غاوسية، ولاسو = MAP مع مُقدَّمة لابلاسية. التنظيم واضمحلال الأوزان والمُقدَّمات البيزية هي ثلاثة أسماء للفكرة نفسها: فضِّل أوزانًا أبسط ما لم تُحاجج البيانات بقوة بخلاف ذلك.