第4章离散概率分布 · Probability & Stats

4.1

随机变量与概率质量函数

随机变量（Random Variable）是将随机试验的结果映射为数值的函数。它让我们能用数学工具（微积分、代数）研究随机现象。

核心洞察：随机变量是"数值化"

抛硬币的结果是"正面"或"反面"——这不是数字，无法直接运算。定义随机变量 X：正面时 X=1，反面时 X=0。现在我们可以问：X 的均值是多少？X 的方差是多少？随机变量是连接概率世界与数学分析世界的桥梁。

离散随机变量

如果随机变量的取值是可数的（有限或可数无限），则称为离散随机变量。离散随机变量的核心描述工具是概率质量函数（PMF）。

PMF: p(x) = P(X = x)，满足 p(x) ≥ 0 且 Σ p(x) = 1

累积分布函数（CDF）

CDF 定义了随机变量小于等于某值的概率：

F(x) = P(X ≤ x) = Σₜ₌₋∞ˣ p(t)

CDF 是右连续的阶梯函数，在每个可能的取值处跳跃，跳跃高度等于该点的概率质量。

工程应用：网络丢包计数

通信网络：在固定时间窗口内，发送的数据包中丢失的包数是一个离散随机变量。通过观测大量窗口的丢包数，工程师可以估计 PMF，进而设计前向纠错（FEC）策略和重传机制。例如，若发现丢包数通常不超过2个，可以设计每个数据块附带2个冗余包，以低成本实现高可靠性。

4.2

伯努利分布与二项分布

伯努利分布（Bernoulli Distribution）

最简单的离散分布，描述只有两种结果的试验（成功/失败、是/否、1/0）。

X ~ Bernoulli(p): P(X=1) = p, P(X=0) = 1-p

伯努利试验是构建更复杂分布的"原子"——二项分布、几何分布都源于独立重复的伯努利试验。

二项分布（Binomial Distribution）

进行 n 次独立的伯努利试验，每次成功概率为 p，总成功次数 X 服从二项分布 B(n, p)。

P(X = k) = C(n, k) · pᵏ · (1-p)ⁿ⁻ᵏ, k = 0, 1, ..., n

二项分布的直觉

C(n, k) 表示"哪 k 次成功"，pᵏ 表示 k 次成功的概率，(1-p)ⁿ⁻ᵏ 表示其余 n-k 次失败的概率。三者相乘正是"特定一种 k 次成功的序列"的概率，而 C(n, k) 计算了所有这样的序列。

图 4-1：二项分布 B(n, p) 的概率质量函数——不同参数下的形状对比

工程应用：质量控制抽样

制造业质检：一批1000个零件，历史次品率为2%。质检员随机抽取50个检测，若发现超过3个次品则拒收整批。这个场景中，样本中的次品数 X ~ B(50, 0.02)。计算 P(X > 3) 可以评估拒收规则的合理性——如果规则太严会误伤好批次，太松会让次品流入市场。

4.3

几何分布

几何分布描述的是：进行一系列独立伯努利试验，首次成功所需的试验次数。

P(X = k) = (1-p)ᵏ⁻¹ · p, k = 1, 2, 3, ...

其中 X 是首次成功发生的试验序号。注意有些教材定义 Y = X - 1 为"首次成功前的失败次数"，两种定义都很常见。

几何分布的"无记忆性"

几何分布有一个独特而深刻的性质——无记忆性（Memoryless Property）：已经失败了 m 次，再需要 k 次才成功的概率，与从一开始就需要 k 次才成功的概率相同。

用公式表达：P(X > m+k | X > m) = P(X > k)。这意味着过去的失败不影响未来的概率——每次试验都是全新的开始。这在工程上既是简化也是警示：无记忆性意味着系统不会"积累好运"。

工程应用：设备故障等待时间

可靠性工程：假设一台服务器每次请求有微小概率 p 崩溃，工程师想知道平均能处理多少请求后才需要重启。这个等待时间服从几何分布。无记忆性意味着：无论服务器已经稳定运行了多久，下一次请求导致崩溃的概率始终是 p——这正是定期维护策略的理论依据。

4.4

泊松分布

泊松分布（Poisson Distribution）描述单位时间或单位空间内随机事件发生次数的概率分布。

P(X = k) = (λᵏ · e⁻λ) / k!, k = 0, 1, 2, ...

其中 λ > 0 是单位时间（或空间）内事件的平均发生次数。泊松分布的 PMF 中，e⁻λ 是归一化因子，确保所有概率之和为1。

泊松分布的适用条件

事件在不相交的时间区间内独立发生
在极短的时间区间内，事件发生概率很小
单位时间内的平均发生次数 λ 是常数

二项分布的泊松近似

当 n 很大、 p 很小，且 λ = np 适中时，二项分布 B(n, p) 可以用泊松分布 Poisson(λ) 近似：

C(n, k) · pᵏ · (1-p)ⁿ⁻ᵏ ≈ (λᵏ · e⁻λ) / k!

这个近似在 n ≥ 20 且 p ≤ 0.05（或 np ≤ 10）时效果很好。它大大简化了计算——泊松分布只需要知道 λ，不需要处理巨大的阶乘。

图 4-2：泊松分布的概率质量函数——不同 λ 下的形状变化

工程应用：呼叫中心与网络流量

呼叫中心：某客服中心平均每小时接到4通电话。想知道1小时内接到至少2通电话的概率？用泊松分布：P(X ≥ 2) = 1 - P(X=0) - P(X=1) = 1 - e⁻⁴ - 4e⁻⁴ ≈ 1 - 0.0183 - 0.0733 = 0.908。超过90%的概率会接到至少2通电话——这帮助排班经理确定最少需要多少客服在线。

网络数据包到达：路由器端口的包到达率通常建模为泊松过程。工程师利用这一模型计算缓冲区大小：给定到达率 λ 和服务率 μ，可以推导队列长度的稳态分布，避免缓冲区溢出导致丢包。

4.5

期望与方差

期望和方差是描述随机变量分布特征的两个最核心的数字。

期望（Expected Value）

期望是随机变量取值的加权平均，权重为对应的概率。它代表长期重复试验中的"平均值"。

E[X] = Σₓ x · p(x) = Σₓ x · P(X = x)

方差（Variance）

方差衡量随机变量围绕期望的离散程度：

Var(X) = E[(X - μ)²] = E[X²] - (E[X])²，其中 μ = E[X]

常见分布的期望与方差

分布	参数	期望 E[X]	方差 Var(X)
伯努利	p	p	p(1-p)
二项 B(n,p)	n, p	np	np(1-p)
几何	p	1/p	(1-p)/p²
泊松	λ	λ	λ

期望的线性性质

期望具有强大的线性性质：E[aX + bY] = aE[X] + bE[Y]，无论 X 和 Y 是否独立。这一性质让复杂随机变量的期望计算变得简单。例如，二项分布 B(n, p) 可以看作 n 个独立伯努利(p)之和，因此 E[X] = n·p，Var(X) = n·p·(1-p)。

工程应用：质量控制中的期望成本

成本优化：一条生产线每天生产 n=1000 件产品，单件次品率 p=0.02。每件次品流入市场造成的损失为200元，全面检测每件成本为5元。不检测的期望损失 = 1000×0.02×200 = 4000元；全面检测成本 = 1000×5 = 5000元。但抽样检测200件的期望检测成本仅1000元，结合统计过程控制（SPC），可以以更低成本达到相近的质量保证效果。

Ex

例题精讲

例1：二项概率计算

某批产品的次品率为5%。从中随机抽取20件，求：

(a) 恰好有2件次品的概率

(b) 至少有1件次品的概率

(c) 次品数的期望和方差

(a) 恰好2件次品

X ~ B(20, 0.05)

P(X = 2) = C(20, 2) × 0.05² × 0.95¹⁸

= 190 × 0.0025 × 0.3972 ≈ 0.1887

(b) 至少1件次品

用补集：P(X ≥ 1) = 1 - P(X = 0)

P(X = 0) = 0.95²⁰ ≈ 0.3585

P(X ≥ 1) = 1 - 0.3585 = 0.6415

(c) 期望和方差

E[X] = np = 20 × 0.05 = 1

Var(X) = np(1-p) = 20 × 0.05 × 0.95 = 0.95

标准差 σ = √0.95 ≈ 0.975

(a) 约 18.9%；(b) 约 64.2%；(c) E[X]=1, Var(X)=0.95。期望意味着平均而言每20件中会有1件次品。

例2：泊松近似

某工厂有1000台设备，每台在一天内故障的概率为0.002，且相互独立。求一天内故障设备数不超过3台的概率。

精确方法：二项分布

X ~ B(1000, 0.002)

P(X ≤ 3) = Σₖ₌₀³ C(1000, k) × 0.002ᵏ × 0.998¹⁰⁰⁰⁻ᵏ

直接计算涉及巨大阶乘，较为繁琐。

近似方法：泊松分布

λ = np = 1000 × 0.002 = 2

X ≈ Poisson(2)

P(X ≤ 3) ≈ Σₖ₌₀³ (2ᵏ · e⁻²) / k!

= e⁻² × (2⁰/0! + 2¹/1! + 2²/2! + 2³/3!)

= 0.1353 × (1 + 2 + 2 + 1.3333)

= 0.1353 × 6.3333 ≈ 0.8571

验证

用 MATLAB 精确计算 B(1000, 0.002) 的 CDF 在3处的值约为 0.8572，与泊松近似 0.8571 几乎完全一致。

泊松近似结果 P(X ≤ 3) ≈ 85.7%，与精确二项计算高度一致。当 n=1000, p=0.002 时，λ=2 的泊松分布是极佳的近似。

例3：几何分布与期望

某密码破解程序每次尝试有0.001的概率猜中正确密码。求：

(a) 第100次尝试首次成功的概率

(b) 首次成功所需尝试次数的期望

(c) 需要超过500次才成功的概率

(a) 第100次首次成功

X ~ Geometric(p = 0.001)

P(X = 100) = (1 - 0.001)⁹⁹ × 0.001

= 0.999⁹⁹ × 0.001 ≈ 0.905 × 0.001 ≈ 0.000905

(b) 期望尝试次数

E[X] = 1/p = 1/0.001 = 1000 次

这意味着平均需要1000次尝试才能成功。

(c) 超过500次

P(X > 500) = (1 - p)⁵⁰⁰ = 0.999⁵⁰⁰ ≈ 0.606

利用无记忆性：即使已经尝试了500次仍未成功，接下来还需要超过500次的概率仍然是 0.606。

(a) 约 0.09%；(b) 平均 1000 次；(c) 超过500次的概率约 60.6%。几何分布的长尾特性意味着"运气不好"时可以等待很久。

例4：期望计算与决策

某游戏设计：玩家掷一枚公平骰子，出现6点赢得100元，否则输掉20元。求单次游戏的期望收益，并判断对玩家是否有利。

第一步：定义随机变量

设 X 为单次游戏的收益（元）。

P(X = 100) = 1/6（掷出6点）

P(X = -20) = 5/6（掷出1-5点）

第二步：计算期望

E[X] = 100 × (1/6) + (-20) × (5/6)

= 100/6 - 100/6 = 0

第三步：计算方差

E[X²] = 100² × (1/6) + (-20)² × (5/6) = 10000/6 + 2000/6 = 12000/6 = 2000

Var(X) = E[X²] - (E[X])² = 2000 - 0 = 2000

标准差 σ = √2000 ≈ 44.72 元

决策分析

期望收益为0，这是一个"公平游戏"。但方差很大（标准差约44.7元），意味着单次结果波动剧烈。对风险厌恶者来说，即使期望为0，也不愿意参与；对赌场来说，大量玩家重复参与时，期望为零意味着无法盈利，因此实际赌场游戏都会设计为对庄家有正的期望收益。

期望收益 E[X] = 0，方差 Var(X) = 2000。这是一个公平但高波动的游戏。长期大量重复时，平均收益趋近于零。

ML

MATLAB 代码演示

以下 MATLAB 代码演示离散分布的计算与可视化，帮助你直观理解不同分布的形状和参数影响。

binomial_demo.m

% 第4章：二项分布计算与可视化 n = 20; p = 0.3; k = 0:n; % PMF 和 CDF pmf = binopdf(k, n, p); cdf = binocdf(k, n, p); fprintf('B(%d, %.2f) 期望=%.2f 方差=%.2f\n', n, p, n*p, n*p*(1-p)); figure('Position', [100 100 1000 400]); subplot(1,2,1); bar(k, pmf, 'FaceColor', [0.42 0.30 0.60]); xlabel('k'); ylabel('P(X=k)'); title('二项分布 PMF'); grid on; subplot(1,2,2); stairs(k, cdf, 'LineWidth', 2, 'Color', [0.18 0.49 0.43]); xlabel('k'); ylabel('P(X \leq k)'); title('二项分布 CDF'); grid on; saveas(gcf, 'ch04_binomial.png');

poisson_demo.m

% 第4章：泊松分布计算与可视化 lambda_vals = [1, 3, 6]; k = 0:15; colors = [0.77 0.36 0.24; 0.42 0.30 0.60; 0.18 0.49 0.43]; figure('Position', [100 100 900 400]); hold on; for i = 1:3 pmf = poisspdf(k, lambda_vals(i)); plot(k, pmf, '-o', 'LineWidth', 2, 'Color', colors(i,:), ... 'DisplayName', sprintf('\lambda=%d', lambda_vals(i))); end xlabel('k'); ylabel('P(X=k)'); title('泊松分布 PMF（不同 \lambda）'); legend('show'); grid on; saveas(gcf, 'ch04_poisson.png');

distribution_comparison.m

% 第4章：二项 vs 泊松近似对比 n = 1000; p = 0.002; lambda = n * p; % = 2 k = 0:8; % 二项 PMF（精确） binom_pmf = binopdf(k, n, p); % 泊松 PMF（近似） pois_pmf = poisspdf(k, lambda); disp('k 二项(精确) 泊松(近似) 误差'); for i = 1:numel(k) err = abs(binom_pmf(i) - pois_pmf(i)); fprintf('%d %.6f %.6f %.6f\n', k(i), binom_pmf(i), pois_pmf(i), err); end % 可视化对比 figure; bar(k, [binom_pmf; pois_pmf]', 'grouped'); xlabel('k'); ylabel('P(X=k)'); title('二项(精确) vs 泊松(近似)'); legend('B(1000, 0.002)', 'Poisson(2)', 'Location', 'best'); grid on; saveas(gcf, 'ch04_comparison.png');