从离散到连续:理解正态分布、指数分布及其工程应用
在连续世界中,随机变量可以取任意实数值。由于单点概率 P(X = x) = 0,我们用概率密度函数(PDF, Probability Density Function)描述概率的"密集程度"。
累积分布函数(CDF, Cumulative Distribution Function)表示随机变量不超过某值的概率:
PDF 曲线下的面积才是概率,PDF 本身在某一点的值可以大于1。例如 f(0) = 2 不表示概率为200%,而是表示该点附近概率密度很高。
在区间 [a, b] 内每个点"等可能"出现。其 PDF 为常数:
期望 E[X] = (a+b)/2,方差 Var(X) = (b-a)²/12。均匀分布常用于随机数生成和蒙特卡洛模拟的基础。
正态分布是自然界和工程中最常见的分布,由均值 μ 和方差 σ² 唯一确定:
正态分布呈钟形对称,均值、中位数、众数重合于 μ。σ 控制曲线的"胖瘦":σ 越大,数据越分散。
通过标准化将任意正态变量转换为标准正态变量 Z:
Z 分数表示某值距离均值有几个标准差。Z = 2 意味着该值比均值大 2 个标准差。
对于任何正态分布,数据落在均值附近特定范围内的概率是固定的:
指数分布描述事件发生的时间间隔,如设备故障间隔、顾客到达间隔。参数 λ > 0 是发生率(单位时间内平均发生次数)。
期望 E[X] = 1/λ,方差 Var(X) = 1/λ²。指数分布的无记忆性是其最独特的性质。
P(X > s + t | X > s) = P(X > t)。意思是:已经等待了 s 时间,还需要等待 t 时间的概率,与从头开始等待 t 时间的概率相同。灯泡已经亮了100小时,再亮50小时的概率和新灯泡亮50小时的概率一样。
计算 P(a < X < b) 的一般步骤:
分位数是 CDF 的反函数。上 α 分位数 zα 满足 P(Z > zα) = α。常用值:
| α | 0.10 | 0.05 | 0.025 | 0.01 | 0.005 |
|---|---|---|---|---|---|
| zα | 1.282 | 1.645 | 1.960 | 2.326 | 2.576 |
指数分布的 CDF 为 F(x) = 1 - e-λx,因此:
机械零件尺寸加工误差通常服从正态分布。工程师设定规格上限 USL 和下限 LSL,通过计算落在公差带内的概率来评估工艺能力(Cp 和 Cpk 指标)。若轴径要求 10.0 ± 0.05 mm,而实际加工 N(10.0, 0.02²),则可计算不合格品率。
电子元件的失效时间常用指数分布建模。已知某服务器硬盘的平均无故障时间 MTBF = 50000 小时,则 λ = 1/50000。可计算 1 年内不发生故障的概率:P(X > 8760) = e-8760/50000 ≈ 83.9%。
热噪声、散粒噪声等物理噪声在时域上的幅度服从正态分布,因此也称为"高斯噪声"。通信工程中,信噪比(SNR)的计算假设噪声为高斯分布,这是香农定理和误码率分析的基础。
人类身高、体重等生理指标近似正态分布。流行病学利用正态模型确定生长曲线的百分位数(如第5百分位、第95百分位),用于筛查发育异常。
某考试分数服从正态分布 N(72, 10²)。小明考了 88 分,小华考了 60 分。请分别计算两人的 Z 分数,并解释含义。
小明的 Z 分数:Z = (88 - 72) / 10 = 1.6
小华的 Z 分数:Z = (60 - 72) / 10 = -1.2
小明的成绩比均值高 1.6 个标准差,约优于第 95 百分位;小华比均值低 1.2 个标准差,约处于第 11 百分位。
已知螺栓直径 X ~ N(10, 0.04²)(单位:mm),规格要求为 9.9 ~ 10.1 mm。求不合格品率。
标准化上下限:
Z₁ = (9.9 - 10) / 0.04 = -2.5
Z₂ = (10.1 - 10) / 0.04 = 2.5
合格概率 = Φ(2.5) - Φ(-2.5) = 0.9938 - 0.0062 = 0.9876
不合格品率 = 1 - 0.9876 = 1.24%
某激光器的寿命服从指数分布,平均寿命为 2000 小时。求: (a) 使用 500 小时内损坏的概率; (b) 已知已正常工作 1000 小时,再工作 500 小时的概率。
λ = 1/2000 = 0.0005
(a) P(X ≤ 500) = 1 - e-0.0005×500 = 1 - e-0.25 ≈ 22.1%
(b) 由无记忆性:P(X > 1500 | X > 1000) = P(X > 500) = e-0.25 ≈ 77.9%
某芯片工作温度 X ~ N(65, 5²)(单位:°C)。为保证 99% 的芯片不过热,散热设计应将最高工作温度设定为多少?
需找 x 使得 P(X ≤ x) = 0.99,即 Φ(Z) = 0.99。
查表得 z0.01 ≈ 2.326
x = μ + zσ = 65 + 2.326 × 5 = 65 + 11.63 = 76.6°C
散热设计应保证芯片在 76.6°C 以下稳定工作。
MATLAB 统计工具箱提供了完整的正态分布和指数分布函数。下表是常用函数:
| 函数 | 作用 | 示例 |
|---|---|---|
| normpdf(x, μ, σ) | 正态 PDF | normpdf(0, 0, 1) = 0.3989 |
| normcdf(x, μ, σ) | 正态 CDF | normcdf(1.96, 0, 1) = 0.975 |
| norminv(p, μ, σ) | 正态分位数 | norminv(0.975, 0, 1) = 1.96 |
| exppdf(x, μ) | 指数 PDF | exppdf(2, 3) = 0.1711 |
| expcdf(x, μ) | 指数 CDF | expcdf(2, 3) = 0.4866 |
| expinv(p, μ) | 指数分位数 | expinv(0.5, 3) = 2.079 |