从原始数据中提取信息,用数字讲述故事
统计学的基础是数据。在开始任何分析之前,我们必须先理解手中的数据属于哪种类型,因为不同类型的数据决定了我们能使用什么分析方法。
| 数据类型 | 定义 | 例子 | 可进行的运算 |
|---|---|---|---|
| 分类数据(定类) | 无顺序的类别 | 性别、血型、颜色 | 计数、比例 |
| 顺序数据(定序) | 有顺序的类别 | 学历、满意度等级 | 计数、排序 |
| 离散数值 | 可数的整数值 | 设备故障次数、学生人数 | 加减、平均、标准差 |
| 连续数值 | 可取任意实数值 | 温度、重量、电压 | 所有数值运算 |
你不能对"颜色"求平均值,也不能用箱线图展示"血型分布"。理解数据类型是避免统计谬误的第一道防线。在实际工程中,传感器采集的通常是连续数值,而日志记录的事件类型则属于分类数据。
总体(Population)是研究对象的全体,样本(Sample)是从总体中抽取的一部分。由于通常无法获取总体全部数据,我们依靠样本统计量来推断总体参数。
产品质量检测:一批零件的尺寸是连续数值,而"合格/不合格"的判定结果是分类数据。质检报告需要同时呈现数值统计(均值、方差)和分类汇总(合格率)。
网站用户行为分析:页面停留时间是连续数值,点击次数是离散数值,用户来源渠道是分类数据。多维度的数据类型混合是现代数据分析的常态。
面对一组数据,我们首先想知道的是:这组数据的"中心"在哪里?三个最常用的中心度量是均值、中位数和众数。
均值是所有数据之和除以数据个数,是统计学中最常用的中心度量。
总体均值用希腊字母 μ 表示。均值利用了所有数据的信息,但对异常值非常敏感。
中位数是将数据排序后位于中间位置的值。若数据个数 n 为奇数,中位数就是正中间的那个数;若 n 为偶数,中位数是中间两个数的平均值。
步骤1:将数据从小到大排序。
步骤2:若 n 为奇数,中位数 = x₍ₙ₊₁₎/₂;若 n 为偶数,中位数 = (xₙ/₂ + xₙ/₂₊₁) / 2。
中位数不受极端值影响,在收入、房价等右偏分布中比均值更能代表"典型水平"。
众数是数据中出现次数最多的值。一组数据可能没有众数,也可能有多个众数。众数适用于所有数据类型——包括分类数据。
想象一个公司有10名员工,9人月薪1万元,CEO月薪100万元。均值是10.9万元,但中位数是1万元。如果你想了解"普通员工"的收入水平,中位数更准确;如果你想计算公司总人力成本的人均分摊,均值更合适。均值反映总量结构,中位数反映典型个体。
考试成绩分析:某班级考试平均分75分,中位数82分。这说明成绩分布左偏——少数低分拉低了均值。教师应关注低分学生的学习困难,而非被平均成绩误导。
金融收益率波动:股票日收益率的均值可能为正,但中位数更接近零。这是因为极端大涨/大跌日拉高了均值,但大多数日子的波动很小。风险分析中,中位数收益配合尾部风险指标(VaR)更为稳健。
仅知道数据的中心是不够的。两组数据可能有相同的均值,但一组 tightly clustered,另一组 widely spread。描述"分散程度"的核心指标是方差和标准差。
方差衡量数据点与均值之间的平均平方距离。方差越大,数据越分散。
这是一个深刻的问题。当我们用样本均值 X̄ 代替未知的总体均值 μ 时,X̄ 本身就是从数据中估计出来的,它"迎合"了数据,导致 Σ(xᵢ - X̄)² 比真实的总平方和偏小。除以 n-1(而非 n)可以补偿这种低估,使得 s² 成为 σ² 的无偏估计。n-1 被称为"自由度"——失去1个自由度是因为我们先用数据估计了均值。
标准差是方差的算术平方根,与原始数据具有相同的量纲,因此更容易解释。
在正态分布中,大约 68% 的数据落在 μ ± σ 范围内,约 95% 落在 μ ± 2σ 范围内。这一经验法则被称为68-95-99.7 法则。
极差(Range)= 最大值 - 最小值。简单直观,但极度受异常值影响。
四分位距(IQR)= Q₃ - Q₁,即第75百分位数与第25百分位数之差。IQR 包含了中间50%的数据,对异常值稳健。
标准差的本质问题是:数据点平均离中心有多远?直接用 Σ|xᵢ - X̄|/n(平均绝对偏差)似乎更自然,但绝对值在数学上难以处理(不可导)。平方不仅保证了非负性,还放大了远离中心的点的惩罚——这正是我们想要的:异常值应该对分散度指标有更大的贡献。
数字可以描述数据,但图形能揭示数字背后的模式。直方图和箱线图是探索数据分布的两个基本工具。
直方图将数据划分为若干区间(bin),统计每个区间内的数据个数,用矩形条的高度表示频数或频率。直方图能展示数据的:
箱线图用五个统计量概括数据分布,是比较多组数据分布的利器。
箱线图基于以下五个统计量:
箱体的范围是 IQR = Q₃ - Q₁, whisker(须线)通常延伸到 Q₁ - 1.5·IQR 和 Q₃ + 1.5·IQR 范围内的最远数据点。
在芯片制造中,晶圆薄膜厚度需要严格控制。工程师每天用箱线图监控不同机台的厚度分布:箱体过宽说明工艺不稳定;中位数漂移说明需要重新校准;超出 whisker 的点提示可能存在设备异常或测量错误。五数概括让复杂的厚度数据一目了然。
异常值(Outlier)是显著偏离其他数据点的观测值。它们可能是真实的极端情况,也可能是数据采集或记录错误。识别异常值是数据清洗的关键步骤。
最常用的异常值判定方法是基于 IQR 的1.5×IQR 法则:
任何落在这个区间之外的数据点都被标记为异常值。这个规则源于正态分布的性质:在正态分布中,只有约 0.7% 的数据会落在这个范围之外。
Z-Score(标准分数)衡量一个数据点距离均值有多少个标准差:
通常 |Z| > 3 的数据点被视为异常值(在正态分布中,约99.7%的数据落在 ±3σ 内)。
发现异常值后的第一反应不应该是删除。首先要问:这个异常值是错误还是信号?在金融市场中,异常波动可能是崩盘前兆;在医疗监测中,异常生理指标可能是疾病的早期信号。异常值往往是最有信息量的数据点。
在网络安全中,服务器每秒请求数(QPS)通常有稳定的基线。使用 IQR 法则或 Z-Score 方法可以实时识别流量 spikes——这可能是 DDoS 攻击、系统故障,也可能是营销活动带来的正常峰值。结合时间序列分析,安全工程师可以区分"好"的异常和"坏"的异常。
某工厂10个零件的直径测量值(mm)为:10.2, 10.5, 10.3, 10.4, 10.6, 10.5, 10.4, 10.3, 10.5, 10.4。计算均值、中位数、众数、方差和标准差。
10.2, 10.3, 10.3, 10.4, 10.4, 10.4, 10.5, 10.5, 10.5, 10.6
X̄ = (10.2 + 10.5 + 10.3 + 10.4 + 10.6 + 10.5 + 10.4 + 10.3 + 10.5 + 10.4) / 10 = 104.1 / 10 = 10.41 mm
n = 10 为偶数,中位数 = (第5项 + 第6项) / 2 = (10.4 + 10.4) / 2 = 10.4 mm
10.4 出现3次,10.5 出现3次。因此这组数据有两个众数:10.4 和 10.5(双峰)。
Σ(xᵢ - X̄)² = (10.2-10.41)² + 2×(10.3-10.41)² + 3×(10.4-10.41)² + 3×(10.5-10.41)² + (10.6-10.41)²
= 0.0441 + 2×0.0121 + 3×0.0001 + 3×0.0081 + 0.0361 = 0.1290
s² = 0.1290 / 9 = 0.0143 mm²
s = √0.0143 ≈ 0.1196 mm
某网站20天的日活跃用户数(DAU,万人)为:12, 15, 14, 13, 16, 15, 14, 15, 13, 14, 15, 14, 16, 15, 14, 13, 15, 14, 28, 14。求五数概括,并用 IQR 法则检测异常值。
12, 13, 13, 13, 14, 14, 14, 14, 14, 14, 14, 15, 15, 15, 15, 15, 15, 16, 16, 28
Min = 12;Max = 28
中位数位置 = (20+1)/2 = 10.5,Q₂ = (第10项 + 第11项)/2 = (14 + 14)/2 = 14
Q₁ = 下半部分的中位数 = 第5项 = 14
Q₃ = 上半部分的中位数 = 第15项 = 15
IQR = Q₃ - Q₁ = 15 - 14 = 1
下界 = 14 - 1.5×1 = 12.5;上界 = 15 + 1.5×1 = 16.5
数据点 28 > 16.5,因此 28 是异常值。12 < 12.5,因此 12 也是异常值。
A班成绩:72, 75, 78, 80, 82, 85, 88, 90, 92, 95
B班成绩:60, 70, 75, 80, 85, 85, 90, 95, 100, 100
比较两个班级的集中趋势和离散程度。
均值 X̄ₐ = (72+75+78+80+82+85+88+90+92+95)/10 = 837/10 = 83.7
中位数 = (82+85)/2 = 83.5
Σ(xᵢ - X̄ₐ)² = 137.29 + 75.69 + 32.49 + 13.69 + 2.89 + 1.69 + 18.49 + 39.69 + 68.89 + 127.69 = 523.50
sₐ² = 523.50/9 = 58.17;sₐ ≈ 7.63
均值 X̄ᵦ = (60+70+75+80+85+85+90+95+100+100)/10 = 840/10 = 84.0
中位数 = (85+85)/2 = 85.0
Σ(xᵢ - X̄ᵦ)² = 576 + 196 + 81 + 16 + 1 + 1 + 36 + 121 + 256 + 256 = 1540
sᵦ² = 1540/9 = 171.11;sᵦ ≈ 13.08
两班均值接近(83.7 vs 84.0),但 B 班标准差(13.08)几乎是 A 班(7.63)的两倍。说明 B 班成绩两极分化严重——既有满分也有不及格,而 A 班成绩更均衡。
某学生数学考试85分,班级平均分78分,标准差8分;英语考试72分,班级平均分65分,标准差5分。哪科成绩相对更好?
数学 Z = (85 - 78) / 8 = 7/8 = 0.875
英语 Z = (72 - 65) / 5 = 7/5 = 1.40
数学成绩比均值高 0.875 个标准差,英语成绩比均值高 1.40 个标准差。虽然数学绝对分数更高,但该生的英语成绩在班级中的相对位置更好。
在正态分布假设下,英语成绩约优于 92% 的同学,数学成绩约优于 81% 的同学。
以下 MATLAB 代码演示本章核心统计量的计算与可视化。建议在 MATLAB 中运行,加深对描述统计的理解。