Probability & Stats · 第4章

离散概率分布

用分布描述随机变量的规律

4.1

随机变量与概率质量函数

随机变量(Random Variable)是将随机试验的结果映射为数值的函数。它让我们能用数学工具(微积分、代数)研究随机现象。

核心洞察:随机变量是"数值化"

抛硬币的结果是"正面"或"反面"——这不是数字,无法直接运算。定义随机变量 X:正面时 X=1,反面时 X=0。现在我们可以问:X 的均值是多少?X 的方差是多少?随机变量是连接概率世界与数学分析世界的桥梁。

离散随机变量

如果随机变量的取值是可数的(有限或可数无限),则称为离散随机变量。离散随机变量的核心描述工具是概率质量函数(PMF)

PMF: p(x) = P(X = x),满足 p(x) ≥ 0 且 Σ p(x) = 1

累积分布函数(CDF)

CDF 定义了随机变量小于等于某值的概率:

F(x) = P(X ≤ x) = Σₜ₌₋∞ˣ p(t)

CDF 是右连续的阶梯函数,在每个可能的取值处跳跃,跳跃高度等于该点的概率质量。

工程应用:网络丢包计数

通信网络:在固定时间窗口内,发送的数据包中丢失的包数是一个离散随机变量。通过观测大量窗口的丢包数,工程师可以估计 PMF,进而设计前向纠错(FEC)策略和重传机制。例如,若发现丢包数通常不超过2个,可以设计每个数据块附带2个冗余包,以低成本实现高可靠性。

4.2

伯努利分布与二项分布

伯努利分布(Bernoulli Distribution)

最简单的离散分布,描述只有两种结果的试验(成功/失败、是/否、1/0)。

X ~ Bernoulli(p):   P(X=1) = p,   P(X=0) = 1-p

伯努利试验是构建更复杂分布的"原子"——二项分布、几何分布都源于独立重复的伯努利试验。

二项分布(Binomial Distribution)

进行 n 次独立的伯努利试验,每次成功概率为 p,总成功次数 X 服从二项分布 B(n, p)。

P(X = k) = C(n, k) · pᵏ · (1-p)ⁿ⁻ᵏ,   k = 0, 1, ..., n
二项分布的直觉

C(n, k) 表示"哪 k 次成功",pᵏ 表示 k 次成功的概率,(1-p)ⁿ⁻ᵏ 表示其余 n-k 次失败的概率。三者相乘正是"特定一种 k 次成功的序列"的概率,而 C(n, k) 计算了所有这样的序列。

图 4-1:二项分布 B(n, p) 的概率质量函数——不同参数下的形状对比
工程应用:质量控制抽样

制造业质检:一批1000个零件,历史次品率为2%。质检员随机抽取50个检测,若发现超过3个次品则拒收整批。这个场景中,样本中的次品数 X ~ B(50, 0.02)。计算 P(X > 3) 可以评估拒收规则的合理性——如果规则太严会误伤好批次,太松会让次品流入市场。

4.3

几何分布

几何分布描述的是:进行一系列独立伯努利试验,首次成功所需的试验次数。

P(X = k) = (1-p)ᵏ⁻¹ · p,   k = 1, 2, 3, ...

其中 X 是首次成功发生的试验序号。注意有些教材定义 Y = X - 1 为"首次成功前的失败次数",两种定义都很常见。

几何分布的"无记忆性"

几何分布有一个独特而深刻的性质——无记忆性(Memoryless Property):已经失败了 m 次,再需要 k 次才成功的概率,与从一开始就需要 k 次才成功的概率相同。

用公式表达:P(X > m+k | X > m) = P(X > k)。这意味着过去的失败不影响未来的概率——每次试验都是全新的开始。这在工程上既是简化也是警示:无记忆性意味着系统不会"积累好运"。

工程应用:设备故障等待时间

可靠性工程:假设一台服务器每次请求有微小概率 p 崩溃,工程师想知道平均能处理多少请求后才需要重启。这个等待时间服从几何分布。无记忆性意味着:无论服务器已经稳定运行了多久,下一次请求导致崩溃的概率始终是 p——这正是定期维护策略的理论依据。

4.4

泊松分布

泊松分布(Poisson Distribution)描述单位时间或单位空间内随机事件发生次数的概率分布。

P(X = k) = (λᵏ · e⁻λ) / k!,   k = 0, 1, 2, ...

其中 λ > 0 是单位时间(或空间)内事件的平均发生次数。泊松分布的 PMF 中,e⁻λ 是归一化因子,确保所有概率之和为1。

泊松分布的适用条件

二项分布的泊松近似

当 n 很大、 p 很小,且 λ = np 适中时,二项分布 B(n, p) 可以用泊松分布 Poisson(λ) 近似:

C(n, k) · pᵏ · (1-p)ⁿ⁻ᵏ ≈ (λᵏ · e⁻λ) / k!

这个近似在 n ≥ 20 且 p ≤ 0.05(或 np ≤ 10)时效果很好。它大大简化了计算——泊松分布只需要知道 λ,不需要处理巨大的阶乘。

图 4-2:泊松分布的概率质量函数——不同 λ 下的形状变化
工程应用:呼叫中心与网络流量

呼叫中心:某客服中心平均每小时接到4通电话。想知道1小时内接到至少2通电话的概率?用泊松分布:P(X ≥ 2) = 1 - P(X=0) - P(X=1) = 1 - e⁻⁴ - 4e⁻⁴ ≈ 1 - 0.0183 - 0.0733 = 0.908。超过90%的概率会接到至少2通电话——这帮助排班经理确定最少需要多少客服在线。

网络数据包到达:路由器端口的包到达率通常建模为泊松过程。工程师利用这一模型计算缓冲区大小:给定到达率 λ 和服务率 μ,可以推导队列长度的稳态分布,避免缓冲区溢出导致丢包。

4.5

期望与方差

期望和方差是描述随机变量分布特征的两个最核心的数字。

期望(Expected Value)

期望是随机变量取值的加权平均,权重为对应的概率。它代表长期重复试验中的"平均值"。

E[X] = Σₓ x · p(x) = Σₓ x · P(X = x)

方差(Variance)

方差衡量随机变量围绕期望的离散程度:

Var(X) = E[(X - μ)²] = E[X²] - (E[X])²,其中 μ = E[X]

常见分布的期望与方差

分布参数期望 E[X]方差 Var(X)
伯努利ppp(1-p)
二项 B(n,p)n, pnpnp(1-p)
几何p1/p(1-p)/p²
泊松λλλ
期望的线性性质

期望具有强大的线性性质:E[aX + bY] = aE[X] + bE[Y],无论 X 和 Y 是否独立。这一性质让复杂随机变量的期望计算变得简单。例如,二项分布 B(n, p) 可以看作 n 个独立伯努利(p)之和,因此 E[X] = n·p,Var(X) = n·p·(1-p)。

工程应用:质量控制中的期望成本

成本优化:一条生产线每天生产 n=1000 件产品,单件次品率 p=0.02。每件次品流入市场造成的损失为200元,全面检测每件成本为5元。不检测的期望损失 = 1000×0.02×200 = 4000元;全面检测成本 = 1000×5 = 5000元。但抽样检测200件的期望检测成本仅1000元,结合统计过程控制(SPC),可以以更低成本达到相近的质量保证效果。

Ex

例题精讲

例1:二项概率计算

某批产品的次品率为5%。从中随机抽取20件,求:

(a) 恰好有2件次品的概率

(b) 至少有1件次品的概率

(c) 次品数的期望和方差

(a) 恰好2件次品

X ~ B(20, 0.05)

P(X = 2) = C(20, 2) × 0.05² × 0.95¹⁸

= 190 × 0.0025 × 0.3972 ≈ 0.1887

(b) 至少1件次品

用补集:P(X ≥ 1) = 1 - P(X = 0)

P(X = 0) = 0.95²⁰ ≈ 0.3585

P(X ≥ 1) = 1 - 0.3585 = 0.6415

(c) 期望和方差

E[X] = np = 20 × 0.05 = 1

Var(X) = np(1-p) = 20 × 0.05 × 0.95 = 0.95

标准差 σ = √0.95 ≈ 0.975

(a) 约 18.9%;(b) 约 64.2%;(c) E[X]=1, Var(X)=0.95。期望意味着平均而言每20件中会有1件次品。
例2:泊松近似

某工厂有1000台设备,每台在一天内故障的概率为0.002,且相互独立。求一天内故障设备数不超过3台的概率。

精确方法:二项分布

X ~ B(1000, 0.002)

P(X ≤ 3) = Σₖ₌₀³ C(1000, k) × 0.002ᵏ × 0.998¹⁰⁰⁰⁻ᵏ

直接计算涉及巨大阶乘,较为繁琐。

近似方法:泊松分布

λ = np = 1000 × 0.002 = 2

X ≈ Poisson(2)

P(X ≤ 3) ≈ Σₖ₌₀³ (2ᵏ · e⁻²) / k!

= e⁻² × (2⁰/0! + 2¹/1! + 2²/2! + 2³/3!)

= 0.1353 × (1 + 2 + 2 + 1.3333)

= 0.1353 × 6.3333 ≈ 0.8571

验证

用 MATLAB 精确计算 B(1000, 0.002) 的 CDF 在3处的值约为 0.8572,与泊松近似 0.8571 几乎完全一致。

泊松近似结果 P(X ≤ 3) ≈ 85.7%,与精确二项计算高度一致。当 n=1000, p=0.002 时,λ=2 的泊松分布是极佳的近似。
例3:几何分布与期望

某密码破解程序每次尝试有0.001的概率猜中正确密码。求:

(a) 第100次尝试首次成功的概率

(b) 首次成功所需尝试次数的期望

(c) 需要超过500次才成功的概率

(a) 第100次首次成功

X ~ Geometric(p = 0.001)

P(X = 100) = (1 - 0.001)⁹⁹ × 0.001

= 0.999⁹⁹ × 0.001 ≈ 0.905 × 0.001 ≈ 0.000905

(b) 期望尝试次数

E[X] = 1/p = 1/0.001 = 1000 次

这意味着平均需要1000次尝试才能成功。

(c) 超过500次

P(X > 500) = (1 - p)⁵⁰⁰ = 0.999⁵⁰⁰ ≈ 0.606

利用无记忆性:即使已经尝试了500次仍未成功,接下来还需要超过500次的概率仍然是 0.606。

(a) 约 0.09%;(b) 平均 1000 次;(c) 超过500次的概率约 60.6%。几何分布的长尾特性意味着"运气不好"时可以等待很久。
例4:期望计算与决策

某游戏设计:玩家掷一枚公平骰子,出现6点赢得100元,否则输掉20元。求单次游戏的期望收益,并判断对玩家是否有利。

第一步:定义随机变量

设 X 为单次游戏的收益(元)。

P(X = 100) = 1/6(掷出6点)

P(X = -20) = 5/6(掷出1-5点)

第二步:计算期望

E[X] = 100 × (1/6) + (-20) × (5/6)

= 100/6 - 100/6 = 0

第三步:计算方差

E[X²] = 100² × (1/6) + (-20)² × (5/6) = 10000/6 + 2000/6 = 12000/6 = 2000

Var(X) = E[X²] - (E[X])² = 2000 - 0 = 2000

标准差 σ = √2000 ≈ 44.72 元

决策分析

期望收益为0,这是一个"公平游戏"。但方差很大(标准差约44.7元),意味着单次结果波动剧烈。对风险厌恶者来说,即使期望为0,也不愿意参与;对赌场来说,大量玩家重复参与时,期望为零意味着无法盈利,因此实际赌场游戏都会设计为对庄家有正的期望收益。

期望收益 E[X] = 0,方差 Var(X) = 2000。这是一个公平但高波动的游戏。长期大量重复时,平均收益趋近于零。
ML

MATLAB 代码演示

以下 MATLAB 代码演示离散分布的计算与可视化,帮助你直观理解不同分布的形状和参数影响。

binomial_demo.m
% 第4章:二项分布计算与可视化 n = 20; p = 0.3; k = 0:n; % PMF 和 CDF pmf = binopdf(k, n, p); cdf = binocdf(k, n, p); fprintf('B(%d, %.2f) 期望=%.2f 方差=%.2f\n', n, p, n*p, n*p*(1-p)); figure('Position', [100 100 1000 400]); subplot(1,2,1); bar(k, pmf, 'FaceColor', [0.42 0.30 0.60]); xlabel('k'); ylabel('P(X=k)'); title('二项分布 PMF'); grid on; subplot(1,2,2); stairs(k, cdf, 'LineWidth', 2, 'Color', [0.18 0.49 0.43]); xlabel('k'); ylabel('P(X \leq k)'); title('二项分布 CDF'); grid on; saveas(gcf, 'ch04_binomial.png');
poisson_demo.m
% 第4章:泊松分布计算与可视化 lambda_vals = [1, 3, 6]; k = 0:15; colors = [0.77 0.36 0.24; 0.42 0.30 0.60; 0.18 0.49 0.43]; figure('Position', [100 100 900 400]); hold on; for i = 1:3 pmf = poisspdf(k, lambda_vals(i)); plot(k, pmf, '-o', 'LineWidth', 2, 'Color', colors(i,:), ... 'DisplayName', sprintf('\lambda=%d', lambda_vals(i))); end xlabel('k'); ylabel('P(X=k)'); title('泊松分布 PMF(不同 \lambda)'); legend('show'); grid on; saveas(gcf, 'ch04_poisson.png');
distribution_comparison.m
% 第4章:二项 vs 泊松近似对比 n = 1000; p = 0.002; lambda = n * p; % = 2 k = 0:8; % 二项 PMF(精确) binom_pmf = binopdf(k, n, p); % 泊松 PMF(近似) pois_pmf = poisspdf(k, lambda); disp('k 二项(精确) 泊松(近似) 误差'); for i = 1:numel(k) err = abs(binom_pmf(i) - pois_pmf(i)); fprintf('%d %.6f %.6f %.6f\n', k(i), binom_pmf(i), pois_pmf(i), err); end % 可视化对比 figure; bar(k, [binom_pmf; pois_pmf]', 'grouped'); xlabel('k'); ylabel('P(X=k)'); title('二项(精确) vs 泊松(近似)'); legend('B(1000, 0.002)', 'Poisson(2)', 'Location', 'best'); grid on; saveas(gcf, 'ch04_comparison.png');
← 上一章:第3章 排列组合与计数 下一章:待更新