Parámetros y Estimadores

Inferencia, estimación y toma de decisiones a partir de datos

Casi toda pregunta estadística tiene la misma forma. Hay algún número verdadero en el mundo que no puedes ver, el parámetro θ (una media verdadera, una probabilidad de éxito verdadera). Solo tienes un conjunto finito de datos. A partir de esos datos calculas una suposición, el estimador θ̂. La estimación es el arte de construir buenas suposiciones y saber cuánto confiar en ellas.

Porque los datos son aleatorios, θ̂ es a su vez una cantidad aleatoria: repite el experimento, obtén un diferente θ̂. Juzgamos un estimador por dos cosas: su sesgo (¿se sitúa en θ en promedio?) y su varianza (¿cuánto se mueve de muestra a muestra?).

No puedes beber toda la olla de sopa para juzgar el condimento, así que revuelves bien y pruebas una cucharada. La verdadera salinidad de toda la olla es el parámetro θ que no puedes ver directamente; la salinidad de tu cucharada es el estimador θ̂. Revuelve bien primero y una sola cucharada estima notablemente bien a toda la olla — esa agitación es lo que hace que la muestra sea representativa.

Dónde aparece en el MLSubajuste versus sobreajuste es esta misma compensación. Los parámetros de un modelo son los θ̂, ajustados a partir de datos de entrenamiento finitos. Subajuste = alto sesgo: el modelo es demasiado simple para capturar la verdad. Sobreajuste = alta varianza: el modelo es tan flexible que memoriza la muestra específica de entrenamiento, y una nueva muestra daría parámetros muy diferentes. Elegir…

▶ Parámetros y Estimadores

← Relaciones entre Variables Estimación de Máxima Verosimilitud →