Gezamenlijke verdelingen

De wiskunde van onzekerheid

Tot nu toe leefde elke stochastische variabele op zichzelf. Maar de interessante vragen gaan over verbanden: lengte en gewicht, een afbeelding en zijn label. Een gezamenlijke verdeling p(x, y) geeft de kans op elk paar waarden tegelijk. Het is de volledige beschrijving van hoe twee (of meer) variabelen zich samen gedragen.

Voor discrete variabelen kun je een raster voorstellen: rijen zijn waarden van X, kolommen waarden van Y, en elke cel bevat de kans op die combinatie. Alle cellen zijn niet-negatief en sommeren tot 1, opnieuw de axioma's, nu in twee dimensies. Voor continue variabelen is het een dichtheid f(x, y) en zijn kansen volumes onder een 2-D-oppervlak.

Stel je een kruistabel voor van mensen die tegelijkertijd zijn gesorteerd op lengte en gewicht: kort-en-licht in de ene cel, lang-en-zwaar in de andere, en in elke cel een getal dat aangeeft hoe vaak die combinatie voorkomt. Dat hele raster van combinaties is de gezamenlijke verdeling p(x, y) — het beschrijft lengte en gewicht samen, niet één voor één. Vul elke cel in, maak ze niet-negatief en tel op tot 1, en je hebt het complete beeld vastgelegd van hoe de twee eigenschappen samen reizen.

Waar dit voorkomt in MLGesuperviseerd leren is het modelleren van een gezamenlijke verdeling p(x, y) van inputs en labels, of een deel daarvan. Generatieve modellen leren de volledige gezamenlijke verdeling p(x, y) en kunnen nieuwe data synthetiseren; discriminatieve modellen leren alleen de voorwaardelijke verdeling p(y | x) die nodig is om te voorspellen. Het hele onderscheid generatief-versus-discriminatief gaat…

▶ Gezamenlijke verdelingen

← Multivariate Gaussische Marginale verdelingen →