Parâmetros e Estimadores

Inferência, estimação e tomada de decisão a partir de dados

Quase toda pergunta estatística tem a mesma forma. Existe no mundo algum número verdadeiro que você não pode observar, o parâmetro θ (uma média verdadeira, uma probabilidade de sucesso verdadeira). Você dispõe apenas de uma amostra finita de dados. A partir desses dados, você calcula um palpite, o estimador θ̂. A estimação é a arte de construir bons palpites e de saber quanto confiar neles.

Como os dados são aleatórios, θ̂ é, ele próprio, uma quantidade aleatória: repita o experimento e você obterá um θ̂ diferente. Julgamos um estimador por duas coisas: seu viés (ele acerta θ em média?) e sua variância (quanto ele oscila de amostra para amostra?).

Você não pode beber a panela inteira de sopa para julgar o tempero, então você mexe bem e prova uma colherada. A verdadeira salinidade de toda a panela é o parâmetro θ que você não consegue ver diretamente; a salinidade da sua colherada é o estimador θ̂. Mexa bem primeiro e uma única colherada estima a panela inteira incrivelmente bem — essa mistura é o que torna a amostra representativa.

Onde isso aparece no MLSubajuste versus sobreajuste é esse mesmo compromisso. Os parâmetros de um modelo são os θ̂, ajustados a partir de dados de treino finitos. Subajuste = viés alto: o modelo é simples demais para captar a verdade. Sobreajuste = variância alta: o modelo é tão flexível que memoriza aquela amostra de treino específica, e uma nova amostra produziria parâmetros radicalmente diferentes. Escolher a…
▶ Parâmetros e Estimadores
← Relações Entre VariáveisEstimação por Máxima Verossimilhança →