第6章 · 回归分析

核心概念：回归的本质

回归（Regression）是一类预测连续数值的监督学习任务。与分类预测离散标签不同，回归回答的是"多少"的问题：房价是多少？明天的温度是多少？广告点击率是多少？

线性回归：用直线拟合世界

一元线性回归假设目标 y 与特征 x 之间存在线性关系：

y = w·x + b + ε

其中 w 是权重（斜率），b 是偏置（截距），ε 是误差项。对于多元线性回归，x 扩展为向量，w 为权重向量：

y = w^Tx + b = Σ wᵢxᵢ + b

最小二乘法：最优解的解析推导

最小二乘法（Ordinary Least Squares, OLS）的目标是找到参数 w, b，使得所有样本的预测值与真实值之差的平方和最小：

J(w,b) = (1/2N) Σᵢ (ŷᵢ − yᵢ)² = (1/2N) Σᵢ (w·xᵢ + b − yᵢ)²

对 w 和 b 分别求偏导并令其为零，可得到解析解（闭式解）：

w = (X^TX)⁻¹X^Ty

当特征维度很高或特征间存在共线性时，X^TX 可能不可逆，此时需要正则化或梯度下降求解。

梯度下降：迭代的智慧

梯度下降（Gradient Descent）是一种通用的优化算法。它沿着损失函数梯度的反方向，以小步长（学习率 α）逐步更新参数：

w := w − α · ∂J/∂w ， b := b − α · ∂J/∂b

对于线性回归的 MSE 损失，梯度有闭式表达：

∂J/∂w = (1/N) Σᵢ (ŷᵢ − yᵢ)·xᵢ ， ∂J/∂b = (1/N) Σᵢ (ŷᵢ − yᵢ)

梯度下降有三种常见变体：

批量梯度下降（BGD）：每轮用全部样本计算梯度，稳定但速度慢。
随机梯度下降（SGD）：每轮随机选一个样本更新，速度快但波动大。
小批量梯度下降（Mini-Batch）：折中方案，每轮用一个小批量（如32、64个样本），兼顾效率与稳定性。

逻辑回归：从回归到分类

逻辑回归（Logistic Regression）虽然名字里有"回归"，但本质是分类算法。它通过 Sigmoid 函数将线性输出映射到 (0,1) 区间，表示概率：

σ(z) = 1 / (1 + e^−z) ，其中 z = w^Tx + b

当 σ(z) ≥ 0.5 时预测为正类，否则为负类。决策边界对应 σ(z) = 0.5，即 z = 0，也就是 w^Tx + b = 0——在二维空间中是一条直线，在高维空间中是一个超平面。

多项式回归：突破线性限制

当数据的真实关系是非线性时，可以通过特征多项式扩展将线性回归推广。例如，将 x 扩展为 [x, x², x³]，再对这些新特征做线性回归，就能拟合三次曲线。注意：多项式阶数过高会导致过拟合。

正则化：对抗过拟合的武器

当模型参数过大时，模型会对训练数据中的噪声过度敏感。正则化通过在损失函数中加入对参数大小的惩罚来抑制过拟合：

L2 正则化（Ridge）：加入参数平方和惩罚，使参数趋向于较小但不为零。
J = MSE + λΣwᵢ²
L1 正则化（Lasso）：加入参数绝对值和惩罚，具有特征选择效应，可将不重要特征的系数压缩至零。
J = MSE + λΣ|wᵢ|

λ（alpha）是正则化强度超参数：λ 越大，惩罚越强，模型越简单；λ 过小则无法抑制过拟合。

核心洞察

线性回归的简洁性正是它的力量所在。奥卡姆剃刀原则告诉我们：在拟合效果相近时，更简单的模型往往泛化更好。正则化本质上是对"简单模型"的数学偏好。

计算方法：从公式到步骤

最小二乘求解步骤

构造设计矩阵 X（每行一个样本，每列一个特征，首列补 1 以吸收偏置 b）。
计算 X^TX 和 X^Ty。
若 X^TX 可逆，则 w = (X^TX)⁻¹X^Ty。
若不可逆（特征相关或维度大于样本数），使用伪逆或引入正则化项。

梯度下降算法步骤

初始化参数 w, b（通常设为零或随机小数）。
设置学习率 α（如 0.01）和迭代次数 epochs。
对于每轮迭代：
- 计算当前预测值 ŷ = w·x + b。
- 计算梯度：∂J/∂w = (1/N) Σ (ŷ−y)·x，∂J/∂b = (1/N) Σ (ŷ−y)。
- 更新参数：w := w − α·∂J/∂w，b := b − α·∂J/∂b。
当损失变化小于阈值或达到最大迭代次数时停止。

Sigmoid 与对数似然

逻辑回归的损失函数不是 MSE，而是交叉熵损失（Cross-Entropy），源自最大似然估计：

J = −(1/N) Σᵢ [ yᵢ·log(ŷᵢ) + (1−yᵢ)·log(1−ŷᵢ) ]

对 w 求梯度得：∂J/∂w = (1/N) Σᵢ (ŷᵢ − yᵢ)·xᵢ。形式上它与线性回归的梯度一致，但 ŷᵢ 的含义不同（这里是 sigmoid 输出）。

工程应用

房价预测

线性回归是房价预测的经典基线模型。特征包括面积、卧室数、地段评分、房龄等。通过 Ridge 正则化处理特征间的多重共线性（如面积与房间数高度相关），Lasso 自动筛选出对价格影响最大的核心特征，帮助房产中介快速定位定价关键因素。

广告点击率预测（CTR）

逻辑回归因其实现简单、可解释性强、输出概率天然校准，在工业界 CTR 预估中长期占据重要地位。通过海量稀疏特征（用户ID、广告ID、时段）的 one-hot 编码，配合 L1 正则化进行在线特征选择，可在毫秒级延迟内完成亿级请求的点击概率预估。

股票价格趋势与材料强度建模

股票价格预测中，线性回归可作为趋势跟踪的基准：用过去 N 天的收益率回归预测明天方向。材料科学中，通过多元回归建立成分（合金元素比例）与材料强度、延展性的关系模型，加速新材料的研发筛选。

信用评分

逻辑回归是 FICO 信用评分等经典模型的核心。它将客户的收入、负债率、历史违约记录等转化为 0-1 之间的违约概率，概率阈值可根据业务风险偏好调整。模型的可解释性使银行能够向监管机构说明拒绝贷款的原因。

Python 实践：回归建模

1. 线性回归与最小二乘

Python

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

# 生成模拟数据：y = 3x + 5 + 噪声
np.random.seed(42)
X = np.linspace(0, 10, 100).reshape(-1, 1)
y = 3 * X.ravel() + 5 + np.random.normal(0, 3, size=100)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

print(f"权重 w: {model.coef_[0]:.3f}, 偏置 b: {model.intercept_:.3f}")
print(f"MSE: {mean_squared_error(y_test, y_pred):.3f}, R²: {r2_score(y_test, y_pred):.3f}")

2. 逻辑回归与决策边界

Python

from sklearn.linear_model import LogisticRegression
from sklearn.datasets import make_classification

# 生成二维二分类数据
X_cls, y_cls = make_classification(n_features=2, n_redundant=0, n_informative=2,
                                   n_clusters_per_class=1, random_state=42)

clf = LogisticRegression()
clf.fit(X_cls, y_cls)

# 决策边界: w0*x0 + w1*x1 + b = 0  =>  x1 = -(w0*x0 + b)/w1
print("系数:", clf.coef_, "截距:", clf.intercept_)
print("预测概率 (前3条):", clf.predict_proba(X_cls[:3]))

3. 梯度下降可视化

Python

import matplotlib.pyplot as plt

def gradient_descent(X, y, lr=0.05, epochs=50):
    N = len(y)
    w, b = 0.0, 0.0
    history = []
    for _ in range(epochs):
        y_pred = w * X.ravel() + b
        dw = (1/N) * np.dot(X.ravel(), (y_pred - y))
        db = (1/N) * np.sum(y_pred - y)
        w -= lr * dw
        b -= lr * db
        loss = np.mean((y_pred - y)**2)
        history.append(loss)
    return w, b, history

w_gd, b_gd, hist = gradient_descent(X_train, y_train)
print(f"GD 结果: w={w_gd:.3f}, b={b_gd:.3f}")

# 绘制损失下降曲线
plt.plot(hist); plt.xlabel("Epoch"); plt.ylabel("MSE Loss")
plt.title("梯度下降收敛过程"); plt.show()

4. Ridge 与 Lasso 正则化对比

Python

from sklearn.linear_model import Ridge, Lasso
from sklearn.preprocessing import PolynomialFeatures
from sklearn.pipeline import make_pipeline

# 构造高次多项式特征，模拟过拟合场景
X_poly = np.linspace(0, 10, 30).reshape(-1, 1)
y_poly = np.sin(X_poly.ravel()) + np.random.normal(0, 0.3, 30)

# 无正则化、Ridge、Lasso
poly = PolynomialFeatures(degree=8)
model_ols = make_pipeline(poly, LinearRegression())
model_ridge = make_pipeline(poly, Ridge(alpha=1.0))
model_lasso = make_pipeline(poly, Lasso(alpha=0.1, max_iter=5000))

for name, m in [("OLS", model_ols), ("Ridge", model_ridge), ("Lasso", model_lasso)]:
    m.fit(X_poly, y_poly)
    print(f"{name} 系数绝对值之和: {np.sum(np.abs(m.named_steps['ridge' if 'ridge' in name.lower() else 'lasso' if 'lasso' in name.lower() else 'linearregression'].coef_)):.2f}")

正则化效果示意：Ridge 收缩系数，Lasso 产生稀疏解

例题与解析

例题 1：线性回归拟合

给定数据：x = [1, 2, 3, 4], y = [2, 5, 4, 7]。用最小二乘法手动估计 w 和 b。

问题

请写出求解过程，并计算预测 x=5 时的 y 值。

解析

x̄ = 2.5, ȳ = 4.5。w = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)² = [(−1.5)(−2.5)+(−0.5)(0.5)+(0.5)(−0.5)+(1.5)(2.5)] / [(−1.5)²+(−0.5)²+0.5²+1.5²] = 5.0 / 5.0 = 1.0。b = ȳ − w·x̄ = 4.5 − 2.5 = 2.0。回归方程：y = x + 2。当 x=5 时，ŷ = 7。

结果：w = 1.0, b = 2.0, ŷ(5) = 7

例题 2：逻辑回归分类

某逻辑回归模型参数为 w = [2, −1], b = 0.5。对样本 x = [1, 3]，计算其属于正类的概率。

问题

写出 z 和 σ(z) 的计算过程，并给出预测类别。

解析

z = w^Tx + b = 2×1 + (−1)×3 + 0.5 = −0.5。σ(z) = 1/(1+e^0.5) ≈ 1/(1+1.6487) ≈ 0.3775。因概率 < 0.5，预测为负类。注意：z 的绝对值越大，模型对预测越"自信"；z 接近 0 时模型处于决策边界附近，不确定性最高。

结果：概率 ≈ 37.8%，预测类别：负类

例题 3：正则化效果对比

在一个 100 维特征、仅 10 个特征真正相关的数据集上，比较 Ridge (L2) 和 Lasso (L1) 的行为差异。

问题

哪种正则化更适合特征选择？为什么 Lasso 能将不相关特征的系数精确压缩到零，而 Ridge 不能？

解析

Lasso 更适合特征选择。几何解释：L2 惩罚的等高线是圆形，与损失函数等高线相交时很少恰好落在坐标轴上，因此 Ridge 系数只是缩小而非归零；L1 惩罚的等高线是菱形（超立方体），在高维空间中更容易与损失函数的椭圆相切于坐标轴，从而将某些维度的系数精确置零。这就是 L1 产生稀疏解的根本原因。

例题 4：梯度下降步长分析

学习率 α 分别取 0.001、0.1 和 1.5 时，梯度下降在凸损失函数上的表现如何？

问题

描述三种情况下的收敛行为，并说明如何选择合适的学习率。

解析

α = 0.001：步长太小，收敛极慢，可能需要数万轮才能接近最优。α = 0.1：适中步长，能在数十到数百轮内稳定收敛，是常见初始选择。α = 1.5：步长过大，会在最优解两侧来回震荡，甚至发散（损失值递增）。实践中可采用学习率衰减策略（如每轮乘以 0.99）或自适应优化器（Adam, RMSprop）自动调整步长。

← 上一章：数据划分与模型验证下一章：分类算法 →