皮尔逊相关系数-PEARSON

皮尔逊相关系数

方差描述的是单个变量的离散程度,协方差给方差的一个 \((X - E[X])^2\) 变成 \((X - E[X])(Y - E[Y])\) ,就能衡量的是两个变量偏离各自均值后乘积的平均值,反映了两变量共同变化的趋势。但由于协方差受变量的单位影响,难以直接比较,所以我们就要将其无量纲化,除上各自的标准差就好。

定义

皮尔逊相关系数(通常称为线性相关系数)用于刻画变量 X 与 Y 之间的线性关系。其定义为: \[ \rho_{X, Y} = \frac{\operatorname{cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{E\left[(X - E[X])(Y - E[Y])\right]}{\sigma_X \sigma_Y} = \frac{E(XY) - E(X)E(Y)}{\sqrt{E\left(X^2\right) - [E(X)]^2} \sqrt{E\left(Y^2\right) - [E(Y)]^2}} \]

注: 当 X 与 Y 存在其他非线性关系时,皮尔逊相关系数无法正确反映两者之间的关系。


相关系数的性质

  1. 独立性与不相关性:

    如果 X 和 Y 独立,则 \(\rho_{X,Y} = 0\);但反过来,\(\rho_{X,Y} = 0\) 不一定说明 X 与 Y 独立,除非二者服从二维正态分布。

  2. 取值范围:

\[ -1 \leq \rho_{X,Y} \leq 1 \]


两组指标相关系数的计算

均值:

\[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i,\quad \bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i \]

方差(无偏估计):

\[ \sigma_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2,\quad \sigma_Y^2 = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i - \bar{Y})^2 \]

样本协方差:

\[ \operatorname{cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) \]

相关系数:

\[ r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]

说明: 分母中用的是各自的标准差,目的是将协方差无量纲化,从而消除不同变量之间单位和量级的影响,使得计算结果统一在 ([-1, 1]) 之间。


判断标准

根据计算得出的相关系数 (r) 的绝对值,可以判断两个变量之间的相关性强弱:

|r| 相关强度
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关

其它参考资源


皮尔逊相关系数-PEARSON
http://example.com/2025/03/31/数学建模/小工具/2025-03-31-皮尔逊相关系数/
作者
ZHW
发布于
2025年3月31日
许可协议