Связи между переменными

Вывод, оценивание и принятие решений по данным

До сих пор каждая переменная стояла отдельно. Реальные вопросы обычно involve две переменные сразу: связано ли время учёбы с оценками? размер модели с точностью? Первый инструмент — диаграмма рассеяния (точка на наблюдение, x против y), глазом сразу виден тренд.

Чтобы дать число линейному тренду, используйте коэффициент корреляции Пирсона r. От −1 до +1: +1 — идеальная восходящая линия, −1 — идеальная нисходящая, 0 — нет линейной связи.

На фигуре: чем плотнее точки прижаты к линии, тем ближе |r| к 1. Разбросайте их — r плывёт к 0.

Где это встречается в MLКорреляционный анализ — ежедневный инструмент ML. Сильно коррелированные признаки избыточны; они раздуввают дисперсию в линейных моделях (мультиколлинеарность) и тратят ёмкость. И выбирая бенчмарк, проверяете, коррелирует ли он с метрикой, которая важна; дешёвый прокси полезен, только если отслеживает дорогую настоящую.
▶ Связи между переменными
← Распределения данныхПараметры и оценки →