皮尔逊相关系数-PEARSON
皮尔逊相关系数
方差描述的是单个变量的离散程度,协方差给方差的一个 \((X - E[X])^2\) 变成 \((X - E[X])(Y - E[Y])\) ,就能衡量的是两个变量偏离各自均值后乘积的平均值,反映了两变量共同变化的趋势。但由于协方差受变量的单位影响,难以直接比较,所以我们就要将其无量纲化,除上各自的标准差就好。
定义
皮尔逊相关系数(通常称为线性相关系数)用于刻画变量 X 与 Y 之间的线性关系。其定义为: \[ \rho_{X, Y} = \frac{\operatorname{cov}(X, Y)}{\sigma_X \sigma_Y} = \frac{E\left[(X - E[X])(Y - E[Y])\right]}{\sigma_X \sigma_Y} = \frac{E(XY) - E(X)E(Y)}{\sqrt{E\left(X^2\right) - [E(X)]^2} \sqrt{E\left(Y^2\right) - [E(Y)]^2}} \]
注: 当 X 与 Y 存在其他非线性关系时,皮尔逊相关系数无法正确反映两者之间的关系。
相关系数的性质
独立性与不相关性:
如果 X 和 Y 独立,则 \(\rho_{X,Y} = 0\);但反过来,\(\rho_{X,Y} = 0\) 不一定说明 X 与 Y 独立,除非二者服从二维正态分布。
取值范围:
\[ -1 \leq \rho_{X,Y} \leq 1 \]
两组指标相关系数的计算
均值:
\[ \bar{X} = \frac{1}{n}\sum_{i=1}^{n} X_i,\quad \bar{Y} = \frac{1}{n}\sum_{i=1}^{n} Y_i \]
方差(无偏估计):
\[ \sigma_X^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2,\quad \sigma_Y^2 = \frac{1}{n-1}\sum_{i=1}^{n}(Y_i - \bar{Y})^2 \]
样本协方差:
\[ \operatorname{cov}(X,Y) = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y}) \]
相关系数:
\[ r = \frac{\sum_{i=1}^{n}(X_i - \bar{X})(Y_i - \bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i - \bar{X})^2} \sqrt{\sum_{i=1}^{n}(Y_i - \bar{Y})^2}} \]
说明: 分母中用的是各自的标准差,目的是将协方差无量纲化,从而消除不同变量之间单位和量级的影响,使得计算结果统一在 ([-1, 1]) 之间。
判断标准
根据计算得出的相关系数 (r) 的绝对值,可以判断两个变量之间的相关性强弱:
|r| | 相关强度 |
---|---|
0.8-1.0 | 极强相关 |
0.6-0.8 | 强相关 |
0.4-0.6 | 中等程度相关 |
0.2-0.4 | 弱相关 |
0.0-0.2 | 极弱相关或无相关 |