标准分数-Z-Score
Z-Score
一、简介
一种衡量数据点相对于总体均值的位置的分数,可将不同量纲或不同分布的数据转化到同一标准下(标准正态分布),方便比较。正值表示数据大小在均值之上,负值则在均值之下。
二、公式
\[ \frac{X-\bar{X} }{s} \]
及均值差除以标准差。matlab中可以直接使用zscore()函数。
三、应用
- 异常值检测 zscore 可用于判断异常值(Outlier): 通常设置阈值(如 2 或 3),如果一个数据的 |z| 值大于该阈值,则该数据可能为异常值。 例如:若 |z| > 3,则通常认为该数据偏离均值过远,可以进一步检查是否为异常情况。这个可以从正态分布中类比出来,约 68% 的数据落在 [-1, 1] 范围内,约 95% 的数据落在 [-2, 2] 范围内,约 99.7% 的数据落在 [-3, 3] 范围内
- 数据标准化 在机器学习或数据挖掘中,通过对数据进行 zscore 标准化,可以消除量纲影响,利于建模。
- 比较不同数据集 由于 zscore 消除了原始数据的均值和标准差的影响,所以可以将来自不同数据集的数值进行直接比较。
四、局限性
zscore对于数据的分布有一定的要求,越靠近正态分布的情况下越好。
zscore消除了数据原有的实际意义,缺乏可解释性,结果只能用于比较。如果需要解释数据的真实意义,还需要还原原值。
参考资料
标准分数-Z-Score
http://example.com/2025/04/04/数学建模/小工具/2025-04-04-标准分数-Z-Score/