Nierówności koncentracji (w pigułce)

Wnioskowanie, estymacja i podejmowanie decyzji z danych

Statystyka dotąd skupiała się tu głównie na średnich oraz ogólnej asymptotyce. Nierówności koncentracji zadają znacznie ostrzejsze i konkretne, ograniczone do skończonej próby pytanie: jak bardzo prawdopodobne jest, że wylosowana wielkość wyląduje daleko od swojej ustalonej średniej? Płynące stąd odpowiedzi to istny matematyczny kręgosłup wyjaśniający, dlaczego uczenie maszynowe w ogóle potrafi oferować nam gwarancje w swoich wyliczeniach.

Najbardziej podstawowa z nich to nierówność Markowa, która do wyliczeń wymaga wyłącznie podania nieujemnej zmiennej oraz jej wartości średniej:

Mówi nam ona po prostu tyle, że nieujemna zmienna nie może zbyt często stawać się ogromną wielokrotnością swojej własnej średniej. Jeśli więc jej średnia jest odgórnie mała, występowanie dużych wartości musi automatycznie należeć do rzadkości. To dość surowe założenie, ale za to nie wymaga od badacza w zasadzie niczego więcej.

Gdzie to występuje w MLOgraniczenie Hoeffdinga stanowi bijące serce teorii generalizacji: tłumaczy, dlaczego z dużym prawdopodobieństwem zmierzony błąd modelu (na pewnym skończonym zbiorze testowym) jest faktycznie zbliżony do jego prawdziwego, niejawnego błędu w populacji, co wprost uzasadnia zaufanie do weryfikacji testowej. Stanowi to podstawowy silnik uczenia PAC („Probably Approximately Correct”): gdy próbek jest…

▶ Nierówności koncentracji (w pigułce)

← Oczekiwanie-Maksymalizacja (EM)