用分布描述随机变量的规律
随机变量(Random Variable)是将随机试验的结果映射为数值的函数。它让我们能用数学工具(微积分、代数)研究随机现象。
抛硬币的结果是"正面"或"反面"——这不是数字,无法直接运算。定义随机变量 X:正面时 X=1,反面时 X=0。现在我们可以问:X 的均值是多少?X 的方差是多少?随机变量是连接概率世界与数学分析世界的桥梁。
如果随机变量的取值是可数的(有限或可数无限),则称为离散随机变量。离散随机变量的核心描述工具是概率质量函数(PMF)。
CDF 定义了随机变量小于等于某值的概率:
CDF 是右连续的阶梯函数,在每个可能的取值处跳跃,跳跃高度等于该点的概率质量。
通信网络:在固定时间窗口内,发送的数据包中丢失的包数是一个离散随机变量。通过观测大量窗口的丢包数,工程师可以估计 PMF,进而设计前向纠错(FEC)策略和重传机制。例如,若发现丢包数通常不超过2个,可以设计每个数据块附带2个冗余包,以低成本实现高可靠性。
最简单的离散分布,描述只有两种结果的试验(成功/失败、是/否、1/0)。
伯努利试验是构建更复杂分布的"原子"——二项分布、几何分布都源于独立重复的伯努利试验。
进行 n 次独立的伯努利试验,每次成功概率为 p,总成功次数 X 服从二项分布 B(n, p)。
C(n, k) 表示"哪 k 次成功",pᵏ 表示 k 次成功的概率,(1-p)ⁿ⁻ᵏ 表示其余 n-k 次失败的概率。三者相乘正是"特定一种 k 次成功的序列"的概率,而 C(n, k) 计算了所有这样的序列。
制造业质检:一批1000个零件,历史次品率为2%。质检员随机抽取50个检测,若发现超过3个次品则拒收整批。这个场景中,样本中的次品数 X ~ B(50, 0.02)。计算 P(X > 3) 可以评估拒收规则的合理性——如果规则太严会误伤好批次,太松会让次品流入市场。
几何分布描述的是:进行一系列独立伯努利试验,首次成功所需的试验次数。
其中 X 是首次成功发生的试验序号。注意有些教材定义 Y = X - 1 为"首次成功前的失败次数",两种定义都很常见。
几何分布有一个独特而深刻的性质——无记忆性(Memoryless Property):已经失败了 m 次,再需要 k 次才成功的概率,与从一开始就需要 k 次才成功的概率相同。
用公式表达:P(X > m+k | X > m) = P(X > k)。这意味着过去的失败不影响未来的概率——每次试验都是全新的开始。这在工程上既是简化也是警示:无记忆性意味着系统不会"积累好运"。
可靠性工程:假设一台服务器每次请求有微小概率 p 崩溃,工程师想知道平均能处理多少请求后才需要重启。这个等待时间服从几何分布。无记忆性意味着:无论服务器已经稳定运行了多久,下一次请求导致崩溃的概率始终是 p——这正是定期维护策略的理论依据。
泊松分布(Poisson Distribution)描述单位时间或单位空间内随机事件发生次数的概率分布。
其中 λ > 0 是单位时间(或空间)内事件的平均发生次数。泊松分布的 PMF 中,e⁻λ 是归一化因子,确保所有概率之和为1。
当 n 很大、 p 很小,且 λ = np 适中时,二项分布 B(n, p) 可以用泊松分布 Poisson(λ) 近似:
C(n, k) · pᵏ · (1-p)ⁿ⁻ᵏ ≈ (λᵏ · e⁻λ) / k!
这个近似在 n ≥ 20 且 p ≤ 0.05(或 np ≤ 10)时效果很好。它大大简化了计算——泊松分布只需要知道 λ,不需要处理巨大的阶乘。
呼叫中心:某客服中心平均每小时接到4通电话。想知道1小时内接到至少2通电话的概率?用泊松分布:P(X ≥ 2) = 1 - P(X=0) - P(X=1) = 1 - e⁻⁴ - 4e⁻⁴ ≈ 1 - 0.0183 - 0.0733 = 0.908。超过90%的概率会接到至少2通电话——这帮助排班经理确定最少需要多少客服在线。
网络数据包到达:路由器端口的包到达率通常建模为泊松过程。工程师利用这一模型计算缓冲区大小:给定到达率 λ 和服务率 μ,可以推导队列长度的稳态分布,避免缓冲区溢出导致丢包。
期望和方差是描述随机变量分布特征的两个最核心的数字。
期望是随机变量取值的加权平均,权重为对应的概率。它代表长期重复试验中的"平均值"。
方差衡量随机变量围绕期望的离散程度:
| 分布 | 参数 | 期望 E[X] | 方差 Var(X) |
|---|---|---|---|
| 伯努利 | p | p | p(1-p) |
| 二项 B(n,p) | n, p | np | np(1-p) |
| 几何 | p | 1/p | (1-p)/p² |
| 泊松 | λ | λ | λ |
期望具有强大的线性性质:E[aX + bY] = aE[X] + bE[Y],无论 X 和 Y 是否独立。这一性质让复杂随机变量的期望计算变得简单。例如,二项分布 B(n, p) 可以看作 n 个独立伯努利(p)之和,因此 E[X] = n·p,Var(X) = n·p·(1-p)。
成本优化:一条生产线每天生产 n=1000 件产品,单件次品率 p=0.02。每件次品流入市场造成的损失为200元,全面检测每件成本为5元。不检测的期望损失 = 1000×0.02×200 = 4000元;全面检测成本 = 1000×5 = 5000元。但抽样检测200件的期望检测成本仅1000元,结合统计过程控制(SPC),可以以更低成本达到相近的质量保证效果。
某批产品的次品率为5%。从中随机抽取20件,求:
(a) 恰好有2件次品的概率
(b) 至少有1件次品的概率
(c) 次品数的期望和方差
X ~ B(20, 0.05)
P(X = 2) = C(20, 2) × 0.05² × 0.95¹⁸
= 190 × 0.0025 × 0.3972 ≈ 0.1887
用补集:P(X ≥ 1) = 1 - P(X = 0)
P(X = 0) = 0.95²⁰ ≈ 0.3585
P(X ≥ 1) = 1 - 0.3585 = 0.6415
E[X] = np = 20 × 0.05 = 1
Var(X) = np(1-p) = 20 × 0.05 × 0.95 = 0.95
标准差 σ = √0.95 ≈ 0.975
某工厂有1000台设备,每台在一天内故障的概率为0.002,且相互独立。求一天内故障设备数不超过3台的概率。
X ~ B(1000, 0.002)
P(X ≤ 3) = Σₖ₌₀³ C(1000, k) × 0.002ᵏ × 0.998¹⁰⁰⁰⁻ᵏ
直接计算涉及巨大阶乘,较为繁琐。
λ = np = 1000 × 0.002 = 2
X ≈ Poisson(2)
P(X ≤ 3) ≈ Σₖ₌₀³ (2ᵏ · e⁻²) / k!
= e⁻² × (2⁰/0! + 2¹/1! + 2²/2! + 2³/3!)
= 0.1353 × (1 + 2 + 2 + 1.3333)
= 0.1353 × 6.3333 ≈ 0.8571
用 MATLAB 精确计算 B(1000, 0.002) 的 CDF 在3处的值约为 0.8572,与泊松近似 0.8571 几乎完全一致。
某密码破解程序每次尝试有0.001的概率猜中正确密码。求:
(a) 第100次尝试首次成功的概率
(b) 首次成功所需尝试次数的期望
(c) 需要超过500次才成功的概率
X ~ Geometric(p = 0.001)
P(X = 100) = (1 - 0.001)⁹⁹ × 0.001
= 0.999⁹⁹ × 0.001 ≈ 0.905 × 0.001 ≈ 0.000905
E[X] = 1/p = 1/0.001 = 1000 次
这意味着平均需要1000次尝试才能成功。
P(X > 500) = (1 - p)⁵⁰⁰ = 0.999⁵⁰⁰ ≈ 0.606
利用无记忆性:即使已经尝试了500次仍未成功,接下来还需要超过500次的概率仍然是 0.606。
某游戏设计:玩家掷一枚公平骰子,出现6点赢得100元,否则输掉20元。求单次游戏的期望收益,并判断对玩家是否有利。
设 X 为单次游戏的收益(元)。
P(X = 100) = 1/6(掷出6点)
P(X = -20) = 5/6(掷出1-5点)
E[X] = 100 × (1/6) + (-20) × (5/6)
= 100/6 - 100/6 = 0
E[X²] = 100² × (1/6) + (-20)² × (5/6) = 10000/6 + 2000/6 = 12000/6 = 2000
Var(X) = E[X²] - (E[X])² = 2000 - 0 = 2000
标准差 σ = √2000 ≈ 44.72 元
期望收益为0,这是一个"公平游戏"。但方差很大(标准差约44.7元),意味着单次结果波动剧烈。对风险厌恶者来说,即使期望为0,也不愿意参与;对赌场来说,大量玩家重复参与时,期望为零意味着无法盈利,因此实际赌场游戏都会设计为对庄家有正的期望收益。
以下 MATLAB 代码演示离散分布的计算与可视化,帮助你直观理解不同分布的形状和参数影响。