Chapter 06
从线性回归到正则化:理解预测的本质与边界
回归(Regression)是一类预测连续数值的监督学习任务。与分类预测离散标签不同,回归回答的是"多少"的问题:房价是多少?明天的温度是多少?广告点击率是多少?
一元线性回归假设目标 y 与特征 x 之间存在线性关系:
其中 w 是权重(斜率),b 是偏置(截距),ε 是误差项。对于多元线性回归,x 扩展为向量,w 为权重向量:
最小二乘法(Ordinary Least Squares, OLS)的目标是找到参数 w, b,使得所有样本的预测值与真实值之差的平方和最小:
对 w 和 b 分别求偏导并令其为零,可得到解析解(闭式解):
当特征维度很高或特征间存在共线性时,XTX 可能不可逆,此时需要正则化或梯度下降求解。
梯度下降(Gradient Descent)是一种通用的优化算法。它沿着损失函数梯度的反方向,以小步长(学习率 α)逐步更新参数:
对于线性回归的 MSE 损失,梯度有闭式表达:
梯度下降有三种常见变体:
逻辑回归(Logistic Regression)虽然名字里有"回归",但本质是分类算法。它通过 Sigmoid 函数将线性输出映射到 (0,1) 区间,表示概率:
当 σ(z) ≥ 0.5 时预测为正类,否则为负类。决策边界对应 σ(z) = 0.5,即 z = 0,也就是 wTx + b = 0——在二维空间中是一条直线,在高维空间中是一个超平面。
当数据的真实关系是非线性时,可以通过特征多项式扩展将线性回归推广。例如,将 x 扩展为 [x, x², x³],再对这些新特征做线性回归,就能拟合三次曲线。注意:多项式阶数过高会导致过拟合。
当模型参数过大时,模型会对训练数据中的噪声过度敏感。正则化通过在损失函数中加入对参数大小的惩罚来抑制过拟合:
λ(alpha)是正则化强度超参数:λ 越大,惩罚越强,模型越简单;λ 过小则无法抑制过拟合。
线性回归的简洁性正是它的力量所在。奥卡姆剃刀原则告诉我们:在拟合效果相近时,更简单的模型往往泛化更好。正则化本质上是对"简单模型"的数学偏好。
逻辑回归的损失函数不是 MSE,而是交叉熵损失(Cross-Entropy),源自最大似然估计:
对 w 求梯度得:∂J/∂w = (1/N) Σᵢ (ŷᵢ − yᵢ)·xᵢ。形式上它与线性回归的梯度一致,但 ŷᵢ 的含义不同(这里是 sigmoid 输出)。
线性回归是房价预测的经典基线模型。特征包括面积、卧室数、地段评分、房龄等。通过 Ridge 正则化处理特征间的多重共线性(如面积与房间数高度相关),Lasso 自动筛选出对价格影响最大的核心特征,帮助房产中介快速定位定价关键因素。
逻辑回归因其实现简单、可解释性强、输出概率天然校准,在工业界 CTR 预估中长期占据重要地位。通过海量稀疏特征(用户ID、广告ID、时段)的 one-hot 编码,配合 L1 正则化进行在线特征选择,可在毫秒级延迟内完成亿级请求的点击概率预估。
股票价格预测中,线性回归可作为趋势跟踪的基准:用过去 N 天的收益率回归预测明天方向。材料科学中,通过多元回归建立成分(合金元素比例)与材料强度、延展性的关系模型,加速新材料的研发筛选。
逻辑回归是 FICO 信用评分等经典模型的核心。它将客户的收入、负债率、历史违约记录等转化为 0-1 之间的违约概率,概率阈值可根据业务风险偏好调整。模型的可解释性使银行能够向监管机构说明拒绝贷款的原因。
给定数据:x = [1, 2, 3, 4], y = [2, 5, 4, 7]。用最小二乘法手动估计 w 和 b。
请写出求解过程,并计算预测 x=5 时的 y 值。
x̄ = 2.5, ȳ = 4.5。w = Σ(xᵢ−x̄)(yᵢ−ȳ) / Σ(xᵢ−x̄)² = [(−1.5)(−2.5)+(−0.5)(0.5)+(0.5)(−0.5)+(1.5)(2.5)] / [(−1.5)²+(−0.5)²+0.5²+1.5²] = 5.0 / 5.0 = 1.0。b = ȳ − w·x̄ = 4.5 − 2.5 = 2.0。回归方程:y = x + 2。当 x=5 时,ŷ = 7。
某逻辑回归模型参数为 w = [2, −1], b = 0.5。对样本 x = [1, 3],计算其属于正类的概率。
写出 z 和 σ(z) 的计算过程,并给出预测类别。
z = wTx + b = 2×1 + (−1)×3 + 0.5 = −0.5。σ(z) = 1/(1+e0.5) ≈ 1/(1+1.6487) ≈ 0.3775。因概率 < 0.5,预测为负类。注意:z 的绝对值越大,模型对预测越"自信";z 接近 0 时模型处于决策边界附近,不确定性最高。
在一个 100 维特征、仅 10 个特征真正相关的数据集上,比较 Ridge (L2) 和 Lasso (L1) 的行为差异。
哪种正则化更适合特征选择?为什么 Lasso 能将不相关特征的系数精确压缩到零,而 Ridge 不能?
Lasso 更适合特征选择。几何解释:L2 惩罚的等高线是圆形,与损失函数等高线相交时很少恰好落在坐标轴上,因此 Ridge 系数只是缩小而非归零;L1 惩罚的等高线是菱形(超立方体),在高维空间中更容易与损失函数的椭圆相切于坐标轴,从而将某些维度的系数精确置零。这就是 L1 产生稀疏解的根本原因。
学习率 α 分别取 0.001、0.1 和 1.5 时,梯度下降在凸损失函数上的表现如何?
描述三种情况下的收敛行为,并说明如何选择合适的学习率。
α = 0.001:步长太小,收敛极慢,可能需要数万轮才能接近最优。α = 0.1:适中步长,能在数十到数百轮内稳定收敛,是常见初始选择。α = 1.5:步长过大,会在最优解两侧来回震荡,甚至发散(损失值递增)。实践中可采用学习率衰减策略(如每轮乘以 0.99)或自适应优化器(Adam, RMSprop)自动调整步长。