信念的量化与更新:从先验到后验的推断艺术
贝叶斯定理是贝叶斯统计的基石,它将条件概率转化为信念更新的规则:
其中:
频率派认为参数是固定但未知的常数,数据是随机的;贝叶斯派认为参数本身也是随机变量,可以用概率分布描述不确定性。贝叶斯方法的优势在于:它能自然地整合先验知识,并在获得新数据后持续更新信念,而不是每次都从零开始。
在参数估计中,我们常关心参数 θ 的后验分布 P(θ|D)。最大后验估计(Maximum A Posteriori, MAP)选择使后验概率最大的参数值:
当先验为均匀分布时,MAP 退化为最大似然估计(MLE)。因此 MAP 可看作 MLE 的先验正则化版本。
当先验分布与似然函数"搭配"时,后验分布与先验属于同一族,这种先验称为共轭先验。最经典的例子是Beta 先验 + 二项似然 = Beta 后验。
若 θ ~ Beta(α, β),观测到 k 次成功、n−k 次失败,则后验为:
Beta 分布的均值 E[θ] = α / (α + β)。先验参数 α 和 β 可视为"伪计数"——相当于在观测前已经看到了 α 次成功和 β 次失败。
先验应反映观测前的合理信念。若缺乏先验信息,可选用弱信息先验(如 Beta(1,1) 即均匀分布)。但切忌让先验过度主导结论——当数据量足够大时,似然会"淹没"先验的影响。
贝叶斯推断的核心是连续更新:今天的后验就是明天的先验。当获得新数据 D₂ 时:
这一迭代特性使贝叶斯方法特别适合流数据、在线学习和实时决策系统。
垃圾邮件过滤:朴素贝叶斯分类器通过词频更新邮件为垃圾的概率。
医学诊断更新:结合先验患病率和检测结果,计算真实的患病后验概率。
推荐系统:根据用户历史行为不断更新对其偏好的信念分布。
机器学习先验设计:L2 正则化等价于高斯先验,L1 正则化等价于拉普拉斯先验。
对后验取对数,求导并令导数为零:
在 Beta-二项模型中,θ_MAP = (α + k − 1) / (α + β + n − 2)。当 α = β = 1(均匀先验)时,θ_MAP = k/n,即样本比例。
与频率派的置信区间不同,贝叶斯给出的是可信区间(Credible Interval):参数落在区间内的后验概率为 1−α。例如对于 Beta 后验,可直接计算分位数得到 95% 可信区间。
一枚硬币可能不公平。你事先认为偏差 θ(正面概率)在 [0,1] 上均匀分布,即 θ ~ Beta(1,1)。投掷 10 次,得到 7 正 3 反。求 θ 的后验分布及 MAP 估计。
先验:θ ~ Beta(α=1, β=1)。
似然:二项分布,k=7, n=10。
后验:θ|D ~ Beta(α+k, β+n−k) = Beta(1+7, 1+3) = Beta(8, 4)。
MAP 估计:θ_MAP = (8−1) / (8+4−2) = 7/10 = 0.70。
后验均值:E[θ|D] = 8 / (8+4) = 8/12 ≈ 0.667。
某疾病的患病率为 1%。检测的灵敏度(真阳性率)为 95%,特异度(真阴性率)为 90%。若某人检测结果为阳性,他实际患病的概率是多少?
H:患病;D:检测阳性。
先验 P(H) = 0.01;P(¬H) = 0.99。
似然 P(D|H) = 0.95;P(D|¬H) = 1 − 0.90 = 0.10。
证据 P(D) = P(D|H)P(H) + P(D|¬H)P(¬H) = 0.95×0.01 + 0.10×0.99 = 0.0095 + 0.099 = 0.1085。
后验 P(H|D) = (0.95 × 0.01) / 0.1085 ≈ 0.0876。
沿用例题 11.1 的硬币问题。在得到 7 正 3 反后,你又投掷了 20 次,得到 12 正 8 反。求两次观测后的后验分布。
第一轮后验:θ|D₁ ~ Beta(8, 4)。
将第一轮后验作为第二轮先验,新数据 k₂=12, n₂=20。
第二轮后验:θ|D₁,D₂ ~ Beta(8+12, 4+8) = Beta(20, 12)。
MAP = (20−1)/(20+12−2) = 19/30 ≈ 0.633。
后验均值 = 20/32 = 0.625。
两位研究员对同一枚硬币进行推断。研究员 A 采用无信息先验 Beta(1,1);研究员 B 坚信硬币公平,采用强先验 Beta(50,50)。两人各投掷 10 次得到 7 正 3 反。比较两人的后验。
研究员 A:后验 Beta(1+7, 1+3) = Beta(8,4),均值 = 8/12 ≈ 0.667。
研究员 B:后验 Beta(50+7, 50+3) = Beta(57,53),均值 = 57/110 ≈ 0.518。
尽管观测数据相同,研究员 B 的强先验将后验"拉向" 0.5。当数据量较小时,先验对结果影响显著;若投掷 1000 次得 700 正,则两人后验都会接近 0.70。
MATLAB 的统计工具箱提供 betapdf、betacdf 和 betainv 等函数用于 Beta 分布。以下代码演示贝叶斯更新过程、后验可视化以及可信区间计算。
运行结果:
可视化展示了先验(平坦的均匀分布)如何随着数据注入逐渐变为尖锐的后验。连续更新图中,每获得一批新数据,分布就更集中一步。当数据量趋于无穷时,后验将收敛为以真实参数为中心的狄拉克 δ 函数。