通俗解释协方差与相关系数
来自: AI有道 (微信号:redstonewill),作者:红色石头
什么是协方差(Covariance)?
协方差表示的是两个变量的总体的误差,这与只表示一个变量误差的方差不同。 如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。 如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
以上是某百科的解释。等等!是不是还是觉得比较晦涩难懂呢?对于非理工科的小白来说,如何清晰、形象地理解协方差和相关系数的数学概念呢?没关系,今天红色石头就通过形象生动的例子,通俗易懂地给大家来讲一讲协方差与相关系数。
1
协方差是怎么来的?
简单地来说, 协方差 就是反映两个变量 X 和 Y 的相互关系。这种相互关系大致分为三种: 正相关、 负相关、 不相关。
什么是正相关呢?例如房屋面积(X)越大,房屋总价(Y)越高,则房屋面积与房屋总价是正相关的;
什么是负相关呢?例如一个学生打游戏的时间(X)越多,学习成绩(Y)越差,则打游戏时间与学习成绩是负相关的;
什么是不相关呢?例如一个人皮肤的黑白程度(X)与他的身体健康程度(Y)并无明显关系,所以是不相关的。
我们先来看第一种情况,令变量 X 和变量 Y 分别为:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [12 15 17 21 22 21 18 23 26 25 22 28 24 28 30 33 28 34 36 35]
在坐标上描绘出 X 和 Y 的联合分布:
显然,Y 在整体趋势上是随着 X 的增加而增加的,即 Y 与 X 的变化是同向的。这种情况,我们就称 X 与 Y 是 正相关 的。
我们再来看第二种情况,令变量 X 和变量 Y 分别为:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [35 35 29 29 28 28 27 26 26 23 21 22 25 19 16 19 20 16 15 16]
在坐标上描绘出 X 和 Y 的联合分布:
显然,Y 在整体趋势上是随着 X 的增加而减少的,即 Y 与 X 的变化是反向的。这种情况,我们就称 X 与 Y 是 负相关 的。
我们再来看第三种情况,令变量 X 和变量 Y 分别为:
X = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y = [16 16 28 17 20 26 20 17 21 15 12 29 24 25 16 15 21 13 17 25]
在坐标上描绘出 X 和 Y 的联合分布:
显然,Y 在整体趋势上与 X 的并无正相关或者负相关的关系。这种情况,我们就称 X 与 Y 是 不相关 的。
回过头来,我们来看 X 与 Y 正相关的情况,令 EX、EY 分别是 X 和 Y 的 期望 值。什么是期望呢?在这里我们可以把它看成是 平均值,即 EX 是变量 X 的平均值,EY 是变量 Y 的平均值。把 EX 和 EY 在图中表示出来得到下面的图形:
上图中,整个区域被 EX 和 EY 分割成 I、II、III、IV 四个区域,且 X 和 Y 大部分分布在 I、III 区域内,只有少部分分布在 II、IV 区域内。
在区域 I 中,满足 X>EX,Y>EY,则有 (X-EX)(Y-EY)>0;
在区域 II 中,满足 XEY,则有 (X-EX)(Y-EY)<0;
在区域 III 中,满足 X0;
在区域 IV 中,满足 X>EX,Y
显然,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 正相关时,数据大部分是分布在 I、III 区域内,只有少部分分布在 II、IV 区域。因此,从平均角度来看,正相关满足:
上式表示的是 (X-EX)(Y-EY) 的期望大于零,即 (X-EX)(Y-EY) 的平均值大于零。
然后,再来看 X 和 Y 负相关的情况:
上图中,X 和 Y 大部分分布在 II、IV 区域内,只有少部分分布在 I、III 区域内。
同样,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 负相关时,数据大部分是分布在 II、IV 区域内,只有少部分分布在 I、III 区域。因此,从平均角度来看,负相关满足:
上式表示的是 (X-EX)(Y-EY) 的期望小于零,即 (X-EX)(Y-EY) 的平均值小于零。
最后,再来看 X 和 Y 不相关的情况:
上图中,X 和 Y 在 I、II、III、IV 区域内近似均匀分布。
同样,在区域 I、III 中,(X-EX)(Y-EY)>0;在区域 II、IV 中,(X-EX)(Y-EY)<0。而 X 和 Y 不相关时,数据在各区域内均匀分布,从平均角度来看,不相关满足:
上式表示的是 (X-EX)(Y-EY) 的期望等于零,即 (X-EX)(Y-EY) 的平均值等于零。
综上所述,我们得到以下结论:
- 当 X 和 Y 正相关时:
- 当 X 和 Y 负相关时:
- 当 X 和 Y 不相关时:
因此,我们就引出了 协方差 的概念,它是表示 X 和 Y 之间相互关系的数字特征。我们定义协方差为:
根据之前讨论的结果,
-
当 Cov(X,Y) > 0 时,X 与 Y 正相关;
-
当 Cov(X,Y) < 0 时,X 与 Y 负相关;
-
当 Cov(X,Y) = 0 时,X 与 Y 不相关。
值得一提的是, E 代表求期望值。也可以用平均值来计算协方差:
这里,之所以除以 N-1 而不是 N 的原因是对总体样本期望的无偏估计。顺便提一下,如果令 Y = X,则协方差表示的正是 X 的方差。
下面,我们根据协方差的公式,分别计算上面三种情况下 X 与 Y 的协方差。
X 与 Y 正相关时,Cov(X,Y) = 37.3684;
X 与 Y 负相关时,Cov(X,Y) = -34.0789;
X 与 Y 不相关时,Cov(X,Y) = -1.0263。
2
相关系数与协方差什么关系?
我们已经知道了什么是协方差以及协方差公式是怎么来的,如果知道两个变量 X 与 Y 的协方差与零的关系,我们就能推断出 X 与 Y 是正相关、负相关还是不相关。那么有一个问题:协方差数值大小是否代表了相关程度呢?也就是说如果协方差为 100 是否一定比协方差为 10 的正相关性强呢?
请看下面这个例子!
变量 X1 与 Y1 分别为:
X1 = [11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30]
Y1 = [12 12 13 15 16 16 17 19 21 22 22 23 23 26 25 28 29 29 31 32]
变量 X2 和 Y2 分别为:
X2 = [110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300]
Y2 = [113 172 202 206 180 184 242 180 256 209 288 255 240 278 319 322 345 289 333 372]
X1、Y1 和 X2、Y2 分别联合分布图,如下所示:
显然,从图中可以看出,X1、Y1 和 X2、Y2 都呈正相关,而且 X1 与 Y1 正相关的程度明显比 X2 与 Y2 更大一些。接下来,我们计算两幅图的协方差看看是不是这样。
Cov(X1,Y1) = 37.5526
Cov(X2,Y2) = 3730.26
意外!X2 与 Y2 的协
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/%E4%BA%92%E8%81%94%E7%BD%91/%E9%80%9A%E4%BF%97%E8%A7%A3%E9%87%8A%E5%8D%8F%E6%96%B9%E5%B7%AE%E4%B8%8E%E7%9B%B8%E5%85%B3%E7%B3%BB%E6%95%B0/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com