第 5 章

连续概率分布

从离散到连续:理解正态分布、指数分布及其工程应用

01

核心概念

概率密度函数 PDF 与累积分布函数 CDF

在连续世界中,随机变量可以取任意实数值。由于单点概率 P(X = x) = 0,我们用概率密度函数(PDF, Probability Density Function)描述概率的"密集程度"。

PDF: f(x) ≥ 0, 且 ∫-∞+∞ f(x) dx = 1

累积分布函数(CDF, Cumulative Distribution Function)表示随机变量不超过某值的概率:

CDF: F(x) = P(X ≤ x) = ∫-∞x f(t) dt
关键洞察

PDF 曲线下的面积才是概率,PDF 本身在某一点的值可以大于1。例如 f(0) = 2 不表示概率为200%,而是表示该点附近概率密度很高。

均匀分布 U(a, b)

在区间 [a, b] 内每个点"等可能"出现。其 PDF 为常数:

f(x) = 1/(b-a), a ≤ x ≤ b

期望 E[X] = (a+b)/2,方差 Var(X) = (b-a)²/12。均匀分布常用于随机数生成和蒙特卡洛模拟的基础。

正态分布 N(μ, σ²)

正态分布是自然界和工程中最常见的分布,由均值 μ 和方差 σ² 唯一确定:

f(x) = (1/√(2πσ²)) · exp( -(x-μ)² / (2σ²) )

正态分布呈钟形对称,均值、中位数、众数重合于 μ。σ 控制曲线的"胖瘦":σ 越大,数据越分散。

标准正态分布 N(0, 1)

通过标准化将任意正态变量转换为标准正态变量 Z:

Z = (X - μ) / σ ~ N(0, 1)

Z 分数表示某值距离均值有几个标准差。Z = 2 意味着该值比均值大 2 个标准差。

68-95-99.7 法则

对于任何正态分布,数据落在均值附近特定范围内的概率是固定的:

图 5.1:68-95-99.7 法则图示

指数分布 Exp(λ)

指数分布描述事件发生的时间间隔,如设备故障间隔、顾客到达间隔。参数 λ > 0 是发生率(单位时间内平均发生次数)。

f(x) = λe-λx, x ≥ 0

期望 E[X] = 1/λ,方差 Var(X) = 1/λ²。指数分布的无记忆性是其最独特的性质。

无记忆性

P(X > s + t | X > s) = P(X > t)。意思是:已经等待了 s 时间,还需要等待 t 时间的概率,与从头开始等待 t 时间的概率相同。灯泡已经亮了100小时,再亮50小时的概率和新灯泡亮50小时的概率一样。

02

计算方法

正态概率计算

计算 P(a < X < b) 的一般步骤:

  1. 标准化:将 X 转换为 Z = (X - μ) / σ
  2. 查标准正态表或使用软件计算 Φ(z)
  3. P(a < X < b) = Φ((b-μ)/σ) - Φ((a-μ)/σ)

分位数计算

分位数是 CDF 的反函数。上 α 分位数 zα 满足 P(Z > zα) = α。常用值:

α0.100.050.0250.010.005
zα1.2821.6451.9602.3262.576

指数分布概率

指数分布的 CDF 为 F(x) = 1 - e-λx,因此:

P(X ≤ x) = 1 - e-λx, P(X > x) = e-λx
03

工程应用

制造业公差分析(正态分布)

机械零件尺寸加工误差通常服从正态分布。工程师设定规格上限 USL 和下限 LSL,通过计算落在公差带内的概率来评估工艺能力(Cp 和 Cpk 指标)。若轴径要求 10.0 ± 0.05 mm,而实际加工 N(10.0, 0.02²),则可计算不合格品率。

设备寿命建模(指数分布)

电子元件的失效时间常用指数分布建模。已知某服务器硬盘的平均无故障时间 MTBF = 50000 小时,则 λ = 1/50000。可计算 1 年内不发生故障的概率:P(X > 8760) = e-8760/50000 ≈ 83.9%。

噪声分析(高斯分布)

热噪声、散粒噪声等物理噪声在时域上的幅度服从正态分布,因此也称为"高斯噪声"。通信工程中,信噪比(SNR)的计算假设噪声为高斯分布,这是香农定理和误码率分析的基础。

身高体重分布

人类身高、体重等生理指标近似正态分布。流行病学利用正态模型确定生长曲线的百分位数(如第5百分位、第95百分位),用于筛查发育异常。

04

例题精讲

例题 5.1:Z 分数计算

某考试分数服从正态分布 N(72, 10²)。小明考了 88 分,小华考了 60 分。请分别计算两人的 Z 分数,并解释含义。

解答

小明的 Z 分数:Z = (88 - 72) / 10 = 1.6

小华的 Z 分数:Z = (60 - 72) / 10 = -1.2

小明的成绩比均值高 1.6 个标准差,约优于第 95 百分位;小华比均值低 1.2 个标准差,约处于第 11 百分位。

例题 5.2:正态概率计算

已知螺栓直径 X ~ N(10, 0.04²)(单位:mm),规格要求为 9.9 ~ 10.1 mm。求不合格品率。

解答

标准化上下限:

Z₁ = (9.9 - 10) / 0.04 = -2.5

Z₂ = (10.1 - 10) / 0.04 = 2.5

合格概率 = Φ(2.5) - Φ(-2.5) = 0.9938 - 0.0062 = 0.9876

不合格品率 = 1 - 0.9876 = 1.24%

例题 5.3:指数分布无记忆性

某激光器的寿命服从指数分布,平均寿命为 2000 小时。求: (a) 使用 500 小时内损坏的概率; (b) 已知已正常工作 1000 小时,再工作 500 小时的概率。

解答

λ = 1/2000 = 0.0005

(a) P(X ≤ 500) = 1 - e-0.0005×500 = 1 - e-0.2522.1%

(b) 由无记忆性:P(X > 1500 | X > 1000) = P(X > 500) = e-0.2577.9%

例题 5.4:分位数应用

某芯片工作温度 X ~ N(65, 5²)(单位:°C)。为保证 99% 的芯片不过热,散热设计应将最高工作温度设定为多少?

解答

需找 x 使得 P(X ≤ x) = 0.99,即 Φ(Z) = 0.99。

查表得 z0.01 ≈ 2.326

x = μ + zσ = 65 + 2.326 × 5 = 65 + 11.63 = 76.6°C

散热设计应保证芯片在 76.6°C 以下稳定工作。

05

MATLAB 实践

MATLAB 统计工具箱提供了完整的正态分布和指数分布函数。下表是常用函数:

函数作用示例
normpdf(x, μ, σ)正态 PDFnormpdf(0, 0, 1) = 0.3989
normcdf(x, μ, σ)正态 CDFnormcdf(1.96, 0, 1) = 0.975
norminv(p, μ, σ)正态分位数norminv(0.975, 0, 1) = 1.96
exppdf(x, μ)指数 PDFexppdf(2, 3) = 0.1711
expcdf(x, μ)指数 CDFexpcdf(2, 3) = 0.4866
expinv(p, μ)指数分位数expinv(0.5, 3) = 2.079
MATLAB 代码:正态分布可视化
% 绘制不同参数的正态分布曲线 x = linspace(-10, 10, 500); mu1 = 0; sigma1 = 1; mu2 = 0; sigma2 = 2; mu3 = 3; sigma3 = 1; y1 = normpdf(x, mu1, sigma1); y2 = normpdf(x, mu2, sigma2); y3 = normpdf(x, mu3, sigma3); figure; plot(x, y1, 'LineWidth', 2); hold on; plot(x, y2, 'LineWidth', 2); plot(x, y3, 'LineWidth', 2); legend('N(0,1)', 'N(0,4)', 'N(3,1)'); xlabel('x'); ylabel('PDF'); title('正态分布 PDF 对比'); grid on; % 计算例题 5.2 的不合格品率 p_good = normcdf(10.1, 10, 0.04) - normcdf(9.9, 10, 0.04); p_bad = 1 - p_good; fprintf('不合格品率 = %.4f\n', p_bad); % 输出 0.0124
MATLAB 代码:指数分布与无记忆性
% 指数分布可视化与无记忆性验证 x = linspace(0, 10, 500); lambda = 0.5; % 均值 = 2 y = exppdf(x, 1/lambda); figure; plot(x, y, 'LineWidth', 2); xlabel('x'); ylabel('PDF'); title('指数分布 Exp(λ=0.5)'); grid on; % 计算生存概率 P(X > t) t = 2; prob_survive = 1 - expcdf(t, 1/lambda); fprintf('P(X > %.1f) = %.4f\n', t, prob_survive); % 验证无记忆性 s = 1; t = 2; conditional = (1 - expcdf(s+t, 1/lambda)) / (1 - expcdf(s, 1/lambda)); unconditional = 1 - expcdf(t, 1/lambda); fprintf('条件概率 = %.4f, 无条件概率 = %.4f\n', conditional, unconditional);
图 5.2:不同参数的正态分布 PDF 对比
图 5.3:指数分布的生存函数
← 上一章:离散概率分布 下一章:抽样与中心极限定理 →