Лекция 8: Линейная Регрессия. Интерпретируемость и Метрики
Цели лекции
- Понять, как машина “рисует линию” через облако точек (метод наименьших квадратов).
- Разобраться в функциях потерь: почему квадрат ошибки (MSE) популярнее модуля (MAE).
- Научиться оценивать качество регрессии: что на самом деле значит .
- Освоить интерпретацию весов модели и узнать, почему мультиколлинеарность — враг инженера.
Часть 1: Механика Линейной Регрессии
Линейная регрессия — это “Hello World” в мире ML. Несмотря на простоту, она используется в банках, страховании и медицине, потому что она интерпретируема. Мы всегда можем сказать, почему модель приняла решение.
1.1. Формула
В школе мы учили . В машинном обучении мы пишем чуть иначе:
- (y-hat): Наше предсказание.
- (Weights, Веса): Коэффициенты важности признаков. Это то, что модель “учит”.
- (Bias, Сдвиг): Базовое значение, если все признаки равны нулю.
1.2. Геометрический смысл
Представьте облако точек на графике (Площадь vs Цена). Задача модели — провести прямую линию так, чтобы она прошла максимально близко ко всем точкам одновременно.
Расстояние от реальной точки до линии называется остатком (Residual) или ошибкой.
Часть 2: Функция Потерь (Loss Function)
Как объяснить машине, какая линия “лучше”? Нужно дать ей числовую метрику “плохости” (Loss). Модель будет пытаться это число минимизировать.
Часть 3: Метрики качества (Evaluation)
Мы обучили модель. Как понять, хороша ли она?
3.1. Score (Коэффициент детерминации)
Это “доля объясненной дисперсии”. Диапазон: от до 1.
Интерпретация R-квадрат
Представьте простейшую “глупую” модель, которая всегда предсказывает среднее значение по больнице ().
- : Идеальное предсказание.
- : Ваша модель работает так же, как простое предсказание среднего. Она бесполезна.
- : Ваша модель хуже, чем просто среднее. Вы что-то сломали.
- Пример: означает, что модель объяснила 80% закономерностей в данных, а 20% осталось в шуме.
3.2. RMSE (Root Mean Squared Error)
Это корень из MSE:
- Зачем: Чтобы вернуть размерность. Если мы предсказываем цену в рублях, MSE будет в “квадратных рублях” (что бессмысленно). RMSE будет в рублях.
- Пример: RMSE = 5000. Значит, в среднем модель ошибается на 5000 рублей.
Часть 4: Интерпретация весов и Проблемы
4.1. Физический смысл весов
Если уравнение предсказания стоимости квартиры:
- Вес : При увеличении площади на 1 кв.м. (при прочих равных) цена растет на 100$.
- Вес : Дополнительная комната добавляет 2000$.
Золотое правило сравнения весов
Сравнивать веса между собой можно только если данные отмасштабированы (StandardScaler). Иначе вес признака “Количество комнат” (1-5) будет огромным, а вес “Площади” (20-200) маленьким, просто чтобы компенсировать разницу в единицах измерения.
4.2. Мультиколлинеарность — Злейший враг
Это ситуация, когда два признака очень сильно коррелируют друг с другом (Линейно зависимы).
Как ломается математика
- Пример: Мы добавили в модель и “Площадь в м²”, и “Площадь в футах”.
- Проблема: Модель не может решить, какому признаку дать вес. Она может дать одному , а другому .
- Симптом: высокий, а веса огромные и нелогичные.
- Лечение: Смотреть корреляционную матрицу и удалять дублирующие признаки.