신뢰 구간 — 통계학 · Mathematics for Machine Learning

x̄ = 5.2 같은 점 추정량은 진짜 평균과 정확히 같을 가능성이 거의 없으므로, 숫자 하나만 내놓는 것은 정직하지 못합니다. 신뢰 구간은 범위와 신뢰 수준을 함께 보고합니다. «진짜 θ가 [L, U] 안에 있다, 95% 신뢰로.» 이는 유한한 표본이 추정량을 얼마나 믿게 해 주는지를 정량화합니다.

가장 흔한 경우는 중심 극한 정리를 사용합니다. 표본 평균은 근사적으로 정규 분포를 따르므로, 구간은 추정량에 오차 한계를 더하거나 뺀 것이 됩니다.

표준 오차 σ/√n은 n이 커질수록 줄어듭니다. 데이터를 4배로 늘리면 오차 한계가 절반이 됩니다. z-값은 신뢰 수준을 정하는데, 95%에는 1.96, 99%에는 2.576을 씁니다.

머신러닝에서의 위치정직한 ML 논문이 결과를 보고하는 방식이 바로 이것입니다. «91.2% ± 0.4%»라는 정확도는 신뢰 구간이고, ±가 오차 막대입니다. 두 모델의 구간이 크게 겹친다면, «승자»는 그저 운 좋은 표집의 결과일 수 있습니다. 모집단 σ를 모르거나 분포가 이상할 때는 부트스트랩(테스트 세트를 복원 추출하는 방법)이 수식 없이도 경험적으로 구간을 만들어 줍니다.