周辺分布

不確実性の数学

同時p(x, y)が与えられ、Xだけ気になりYを忘れたいとする。周辺化する：不要な変数のすべての値にわたって同時を足す（または積分する）。残るのがX単独の周辺分布です。

名前は古い確率表から来る：各行を足して余白に合計を書く。それらの行和が一方の変数の周辺で、列和が他方の周辺です。周辺化は「不要な変数を積分し消す」を意味する。

あの身長と体重の二元表を使って、体重を完全に無視し、身長だけに興味があると考えてみましょう。単純に同時分布p(x, y)の各行を足し合わせ、その合計を余白に書き留めます。その行の合計は、体重に関係なくそれぞれの身長がどれくらいの頻度で現れるかを示します。それらの余白の合計だけを読み取ると、1つの変数だけを単独で見たXの周辺分布が得られます。

機械学習における位置づけ潜在変数の周辺化は生成モデリングの中心計算であり中心の頭痛です。データ尤度はp(x) = ∫ p(x, z) dz = ∫ p(x | z) p(z) dzで、すべての可能な潜在zにわたる積分です。その積分は通常手に負えず、それがまさにVAEが周辺を直接計算する代わりに扱いやすい下限(ELBO)を最適化する理由。

▶ 周辺分布

← 同時分布条件付き分布 →