Parâmetros e Estimadores

Inferência, estimação e tomada de decisão a partir de dados

Quase toda a pergunta estatística tem a mesma forma. Existe no mundo algum número verdadeiro que não consegues observar, o parâmetro θ (uma média verdadeira, uma probabilidade de sucesso verdadeira). Dispões apenas de uma amostra finita de dados. A partir desses dados, calculas um palpite, o estimador θ̂. A estimação é a arte de construir bons palpites e de saber quanto confiar neles.

Como os dados são aleatórios, θ̂ é, ele próprio, uma quantidade aleatória: repete a experiência e obténs um θ̂ diferente. Julgamos um estimador por duas coisas: o seu viés (acerta θ em média?) e a sua variância (quanto oscila de amostra para amostra?).

Não se pode beber a panela inteira de sopa para avaliar o tempero, então mexe-se bem e prova-se uma colherada. A verdadeira salinidade de toda a panela é o parâmetro θ que não se consegue ver diretamente; a salinidade da sua colherada é o estimador θ̂. Mexer bem primeiro faz com que uma única colherada estime a panela inteira de forma notável — esse mexer é o que torna a amostra representativa.

Onde isto aparece no MLSubajuste versus sobreajuste é esse mesmo compromisso. Os parâmetros de um modelo são os θ̂, ajustados a partir de dados de treino finitos. Subajuste = viés alto: o modelo é simples demais para captar a verdade. Sobreajuste = variância alta: o modelo é tão flexível que memoriza aquela amostra de treino específica, e uma nova amostra produziria parâmetros radicalmente diferentes. Escolher a…
▶ Parâmetros e Estimadores
← Relações Entre VariáveisEstimação por Máxima Verosimilhança →