协方差通俗理解例子 协方差函数计算公式推导过程( 二 )


除了方差之外,还有一个类似的概念也经常被用到,就是用来衡量两个变量之间相关性的协方差 。
协方差的公式其实和方差也有脱不开的关系,我们先来简单推导一下 。
首先,我们来看一下D(X+Y),这里X和Y是两个变量,D(X+Y)就表示X+Y的方差,我们来看下D(X+Y)和D(X)和D(Y)之间的关系 。
我们可以来推导一下,根据方差的定义:

协方差通俗理解例子 协方差函数计算公式推导过程


这里的N是一个常量,我们可以忽略,只用来看分子即可 。我们把式子展开:
协方差通俗理解例子 协方差函数计算公式推导过程


我们看下上面化简之后的结果:
协方差通俗理解例子 协方差函数计算公式推导过程


在这个式子当中D(X),D(Y)都是固定的,并不会随XY是否相关而发生变化 。但是后面一项不是,它和XY的相关性有关 。
我们可以用这一项来反应X和Y之间的相关性,这就是协方差的公式:
协方差通俗理解例子 协方差函数计算公式推导过程


【协方差通俗理解例子 协方差函数计算公式推导过程】所以协方差反应的不是变量的离散和分布情况,而是两个变量之间的相关性 。到这里,我们可能还不太看得清楚,没有关系,我们再对它做一个简单的变形,将它除以两者的标准差:
协方差通俗理解例子 协方差函数计算公式推导过程


这个形式已经非常像是两个向量夹角的余弦值,它就是大名鼎鼎的皮尔逊值 。皮尔逊值和余弦值类似,可以反映两个分布之间的相关性,如果p值大于0,说明两组变量成正相关,否则则成负相关 。我们可以通过计算证明p值是一个位于-1到1之间的数 。
如果p值等于0,说明X和Y完全独立,没有任何相关性 。如果p值等于1,说明可以找到相应的系数W和b使得Y = WX+b 。
结尾
在机器学习领域当中,计算两组变量之间的相关性非常重要 。因为本质上来机器学习的模型做的就是通过挖掘特征和预测值之间的相关性来完成预测,如果某一组特征和预测值之间是完全独立的,那么它对于模型来说就是无用的,无论我们选择什么样的模型都是如此 。
所以,我们经常会通过分析特征和label之间的皮尔逊值来衡量特征的重要程度,从而对特征进行取舍和再加工 。如果单纯只看皮尔逊值和它的公式,很难完全理解和记住,而我们从方差入手,将整个链路梳理了一遍,则要容易得多,即使以后忘记了,也可以根据它们之间的关系重新推导 。

推荐阅读