Desigualdades de Concentração (breve)

Inferência, estimação e tomada de decisão a partir de dados

A estatística, até aqui, tem sido sobretudo sobre médias e comportamentos assintóticos. As desigualdades de concentração colocam uma questão mais afiada, de amostra finita: qual é a probabilidade de uma quantidade aleatória aterrar longe da sua média? As suas respostas são a espinha dorsal matemática da razão pela qual o machine learning consegue oferecer garantias.

A mais básica, exigindo apenas uma variável não-negativa e a sua média, é a desigualdade de Markov:

Diz que uma variável não-negativa não pode, com frequência, ser muitas vezes maior do que a sua média. Se a média é pequena, os valores grandes têm de ser raros. É um resultado grosseiro, mas que quase nada exige.

Onde isto aparece no MLO limite de Hoeffding está no coração da teoria da generalização: é a razão pela qual o erro medido de um modelo num conjunto de teste finito está, comprovadamente, próximo do seu erro verdadeiro, com elevada probabilidade — a justificação formal para confiar numa pontuação de teste. É o motor do PAC learning ("Probably Approximately Correct"): com amostras suficientes, a diferença entre o…

▶ Desigualdades de Concentração (breve)

← Expectation-Maximization (EM)