Dywergencja KL

Matematyka niepewności

Dywergencja KL mierzy, jak bardzo jeden rozkład q różni się od rozkładu p: to dodatkowe zaskoczenie, którym płacisz za modelowanie rzeczywistości p błędnym rozkładem q. Stanowi ona matematyczną lukę skrytą we wzorze na entropię krzyżową:

Dwa fakty czynią z niej podręczną miarę błędów w ML. Za sprawą nierówności Gibbsa jest zawsze ≥ 0, i przyjmuje postać zerową wtedy i tylko wtedy, gdy zachodzi równość q = p. Spychanie KL do zera oznacza w skrócie uczenie modelu pełnej wierności względem prawdy z danych.

KL jest miarą niesymetryczną: KL(p‖q) ≠ KL(q‖p) w ogólnym przypadku i łamie tym samym zasadę nierówności trójkąta. Ta asymetria jest kluczowa, gdyż jej kierunki karzą i wytykają różne błędy. Dywergencja KL(p‖q) ostro karze q za bycie blisko zera tam, gdzie wartość p jest duża („pokrywanie mod"); wariant KL(q‖p) uderza w q za nadmierne rozpraszanie wektorów prawdopodobieństwa tam, gdzie p w ogóle nie posiada rzutów dla masy („szukanie mod").

Gdzie to występuje w MLW sieciach typu VAE dolne ograniczenie ELBO wyznacza wyrażenie z KL mające za zadanie utrzymać generowane wariancje wektorów w przestrzeni w bliskim rzucie po wektorze w bliskim rozkładzie na stałe do a priori N(0, I) — to nic innego jak naturalny regularizator trzymający ukrytą dziedzinę latentów na uprzęży w ryzach i pod pełną kontrolą przed wędrowaniem pod nieznane. W popularnych metodach…
▶ Dywergencja KL
← Entropia krzyżowaInformacja wzajemna →