第6章：抽样与中心极限定理

核心概念

总体与样本

总体（Population）是我们研究的全部对象集合，参数如总体均值 μ、总体标准差 σ 通常是未知常数。样本（Sample）是从总体中抽取的子集，用于估计总体参数。

样本容量记为 n。当 n 接近总体大小时，抽样误差很小；但现实中往往只能获得小样本，因此理解样本统计量的波动至关重要。

关键洞察

样本是随机的，因此样本统计量（如样本均值 X̄）也是随机变量。不同的样本会得到不同的 X̄，这种波动不是错误，而是统计学必须量化的核心不确定性。

样本均值 X̄

从总体中抽取容量为 n 的样本 x₁, x₂, ..., xₙ，样本均值为：

X̄ = (1/n) Σ_i=1ⁿ xᵢ

样本均值的期望等于总体均值：E[X̄] = μ。无论样本来自什么分布，这一点始终成立。

抽样分布

抽样分布是样本统计量的概率分布。例如，反复从总体中抽取容量为 n 的样本，计算每个样本的均值 X̄，这些 X̄ 的分布就是样本均值的抽样分布。

若总体服从 N(μ, σ²)，则样本均值 X̄ ~ N(μ, σ²/n)。若总体不服从正态分布，当 n 足够大时，中心极限定理告诉我们 X̄ 近似服从正态分布。

标准误 SE = σ/√n

样本均值的标准差称为标准误（Standard Error, SE），反映样本均值的波动程度：

SE = σ / √n

当总体标准差 σ 未知时，用样本标准差 s 估计：SÊ = s / √n。标准误是统计推断中决定置信区间宽度和检验功效的关键量。

标准误 vs 标准差

标准差 σ 描述单个数据点的离散程度；标准误 SE 描述样本均值的精确程度。增大样本量 n 可以减小标准误，使估计更精确，但不会改变总体标准差。

中心极限定理 CLT

中心极限定理（Central Limit Theorem, CLT）是统计学最重要的定理之一：

CLT 表述

设总体均值为 μ，方差为 σ²。从该总体中抽取容量为 n 的样本，当 n 充分大时（通常 n ≥ 30），样本均值 X̄ 近似服从正态分布 N(μ, σ²/n)，无论总体原来是什么分布。

CLT 解释了为什么正态分布在自然界中无处不在：许多观测值实际上是大量微小独立因素的平均效应。

大数定律

大数定律（Law of Large Numbers, LLN）指出：随着样本量 n 增大，样本均值 X̄ 依概率收敛于总体均值 μ。

lim_n→∞ P(|X̄ - μ| < ε) = 1, 对任意 ε > 0

大数定律是概率的频率解释的理论基础：当试验次数足够多时，事件发生的频率趋近于其理论概率。

图 6.1：不同样本量下抽样分布的变化（CLT 演示）

计算方法

标准误计算

已知总体标准差 σ 和样本量 n，标准误直接计算：

SE = σ / √n

若 σ 未知，用样本标准差 s 代替。例如 s = 5，n = 25，则 SE = 5/5 = 1。

CLT 应用步骤

确认样本量 n 足够大（n ≥ 30 为经验准则，若总体近似正态则 n 可更小）
计算样本均值 X̄ 和标准误 SE = σ/√n（或 s/√n）
将 X̄ 视为 N(μ, SE²) 进行概率计算
标准化：Z = (X̄ - μ) / SE

样本量确定

若希望样本均值与总体均值的误差不超过 E，且置信水平对应 z 分数，则所需样本量为：

n = (z · σ / E)²

例如，σ = 10，要求 95% 置信下误差不超过 2，则 n = (1.96 × 10 / 2)² = 96.04，向上取整为 97。

样本量的代价

要使标准误减半，样本量需要变为4倍；要使标准误变为1/3，样本量需要变为9倍。精确度的提升以样本量的平方为代价，这是统计抽样中"边际收益递减"的体现。

工程应用

民意调查样本量

民意调查需要确定最小样本量以保证估计精度。假设支持率 p ≈ 0.5，要求 95% 置信水平下误差不超过 3%，则 n = (1.96² × 0.5 × 0.5) / 0.03² ≈ 1067。这就是为什么主流民调样本通常在 1000-2000 之间。

产品质量抽样检验

工厂从批量产品中抽取 n 件检验。利用 CLT，即使单个产品指标不服从正态分布，样本均值也近似正态，从而可以建立控制图（如 X̄ 图）监控生产质量，检测异常波动。

蒙特卡洛模拟

金融工程和物理学中，蒙特卡洛方法通过大量随机抽样估计复杂模型的输出。CLT 和大数定律保证了当模拟次数足够大时，估计值收敛于真实值，且误差服从正态分布。

信号采样

数字信号处理中，对模拟信号进行采样并求平均可以降低噪声。若噪声是独立同分布的，根据 CLT，平均后的噪声趋向正态分布，其标准差按 1/√n 衰减。

例题精讲

例题 6.1：计算标准误

某零件长度总体标准差 σ = 0.8 mm。现随机抽取 64 个零件测量平均长度。求样本均值的标准误。若将样本量增加到 256，标准误变为多少？

解答

n = 64 时：SE = σ/√n = 0.8 / √64 = 0.8 / 8 = 0.1 mm

n = 256 时：SE = 0.8 / √256 = 0.8 / 16 = 0.05 mm

样本量变为4倍，标准误减半，估计精度提高一倍。

例题 6.2：CLT 验证

某工厂产品重量的总体分布未知，已知 μ = 50 g，σ = 5 g。现每次抽取 n = 36 件计算平均重量。求：(a) 样本均值的抽样分布；(b) P(X̄ > 51)。

解答

(a) 由 CLT，n = 36 ≥ 30，X̄ 近似服从 N(μ, σ²/n) = N(50, (5/6)²) = N(50, 0.833)

(b) 标准化：Z = (51 - 50) / (5/6) = 1 / 0.833 = 1.2

P(X̄ > 51) = P(Z > 1.2) = 1 - Φ(1.2) = 1 - 0.8849 = 11.51%

例题 6.3：确定样本量

某电池续航时间的标准差 σ = 30 分钟。现要估计平均续航时间，要求 95% 置信水平下估计误差不超过 5 分钟。至少需要测试多少块电池？

解答

95% 置信水平对应 z = 1.96

n = (z · σ / E)² = (1.96 × 30 / 5)² = (11.76)² = 138.3

向上取整，至少需要 139 块电池。

例题 6.4：大数定律的模拟验证

掷一枚公平骰子，理论均值 μ = 3.5。模拟掷 n 次计算样本均值，观察 n = 10, 100, 1000, 10000 时样本均值与理论均值的偏差。

解答思路

骰子结果的总体分布为离散均匀分布，P(X=k) = 1/6，k=1,...,6。

μ = (1+2+3+4+5+6)/6 = 3.5，σ² = 35/12 ≈ 2.917

随着 n 增大，X̄ 应趋近 3.5，且 |X̄ - 3.5| 的标准误按 1/√n 减小。

MATLAB 模拟结果（典型值）：n=10 时 X̄≈3.2；n=1000 时 X̄≈3.48；n=10000 时 X̄≈3.502。

MATLAB 实践

MATLAB 可以方便地生成随机样本、计算统计量并可视化抽样分布。以下是核心代码示例：

MATLAB 代码：生成抽样分布并可视化 CLT

% 演示中心极限定理：从指数分布抽样 lambda = 1; % 指数分布参数 n_samples = 10000; % 重复抽样次数 sample_sizes = [1, 5, 30, 100]; % 不同样本量 figure; for i = 1:length(sample_sizes) n = sample_sizes(i); sample_means = zeros(n_samples, 1); for j = 1:n_samples sample = exprnd(1/lambda, n, 1); sample_means(j) = mean(sample); end subplot(2, 2, i); histogram(sample_means, 50, 'Normalization', 'pdf'); hold on; % 叠加理论正态曲线 mu = 1/lambda; sigma = 1/(lambda*sqrt(n)); x = linspace(min(sample_means), max(sample_means), 200); plot(x, normpdf(x, mu, sigma), 'r-', 'LineWidth', 2); title(sprintf('n = %d', n)); xlabel('样本均值'); ylabel('PDF'); end sgtitle('中心极限定理：指数分布样本均值的收敛');

MATLAB 代码：标准误与样本量关系

% 展示标准误随样本量的变化 sigma = 10; n_values = 10:10:500; SE = sigma ./ sqrt(n_values); figure; plot(n_values, SE, 'LineWidth', 2, 'Color', '#6b4c9a'); hold on; plot(n_values, sigma./n_values, '--', 'Color', '#2e8b7d'); legend('SE = σ/√n', 'σ/n (参考)', 'Location', 'best'); xlabel('样本量 n'); ylabel('标准误 SE'); title('标准误随样本量的衰减'); grid on; % 计算具体样本量 target_SE = 0.5; n_needed = ceil((sigma / target_SE)^2); fprintf('要使 SE ≤ %.2f, 需要 n ≥ %d\n', target_SE, n_needed);

MATLAB 代码：大数定律模拟

% 模拟掷骰子，验证大数定律 n_max = 10000; rolls = randi(6, n_max, 1); cumulative_means = cumsum(rolls) ./ (1:n_max)'; figure; semilogx(1:n_max, cumulative_means, 'LineWidth', 1.5, 'Color', '#6b4c9a'); hold on; yline(3.5, 'r--', 'LineWidth', 2); xlabel('投掷次数 n (对数尺度)'); ylabel('样本均值'); title('大数定律：骰子样本均值的收敛'); legend('样本均值', '理论均值 μ=3.5', 'Location', 'best'); grid on; xlim([1 n_max]);

图 6.2：标准误随样本量 n 的变化曲线

← 上一章：连续概率分布下一章：置信区间 →