今天是概率统计专题的第六篇,我们来看看方差相关的概念 。
方差的定义
方差在我们的日常生活当中非常常见,它主要是为了提供样本离群程度的描述 。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的 。我们假设平均每袋当中都有50片薯片好了,即使是机器灌装,也不可能做到每一袋都刚好是50片,或多或少都会有些误差 。而均值则无法衡量这种误差 。
如果现在有两个薯片品牌,它们的口味都差不多,平均每袋也都是50片 。但是其中A品牌的薯片有一半是80片,还有一半是20片 。B品牌呢,99%都在45-55之间 。你说你会买哪一个牌子呢?(在不考虑通过称重的情况下) 。
在现代社会,凡是工厂出厂的产品,基本上都离不开方差这个概念 。方差越低,说明工厂的生产能力越强,能够做到每一个产品都很精细,相反如果方差越大,则说明瑕疵很多,不够精细 。也就是说,方差衡量的是样本距离均值的期望 。
它本来应该写成:E|X – E(X)| 。
但是由于式子当中存在绝对值,我们通常会对它平方,从而将绝对值消掉 。写成:
这里的E表示期望,这是统计学当中的写法,如果看不明白,我们也可以把式子展开写成:
这里的N表示的是样本数量,X bar 是样本的均值 。Var是英文variance的缩写,我们也可以写成D(X) 。
由于方差是通过平方计算得到的,我们也可以将它进行开方,得到标准差 。根号D(X),也可以写成σ(X) 。
方差的性质
关于方差有几个著名的性质,如果X是变量,而C是常数 。那么:
也就是对于每一个变量都乘上一个常数,那么整体的方差扩大C的平方倍 。这个很好理解,因为样本值扩大了C倍,由于我们在计算方差的时候用到了平方,那么自然就是扩大了C的平方倍 。我们利用上面展开的公式代入可以很容易得到证明 。
下一个性质是:
也就是全体样本加上一个常数,整体的方差不变 。如果我们的样本不是一个值,而是一个向量的话,那么这个公式可以拓展成样本加上一个常数向量,样本的方差保持不变 。这个也很好理解,样本加上一个常数向量,相当于整体朝着向量的方向移动了一个距离,对于整体的分布并不会影响 。
如果某个样本X的方差为0,那么说明样本内只有一个值 。
下面一个性质稍微复杂一点:
也就是说方差等于样本平方的期望减去样本期望的平方,我们光从定义上很难得出这个结论,需要通过严谨的推导:
在有些时候,我们直接求解样本的方差不太方便,而求解平方的期望很容易,这个时候我们可以考虑使用这个公式进行代换 。
方差与协方差
方差我们一般不直接在机器学习当中进行使用,更多的时候是用在特征分析当中,查看特征的方差来感知它的离散情况,决定要不要对特征进行一些处理 。因为对于一些模型来说,如果特征的方差过大,那么模型可能很难收敛,或者是收敛的效果可能会受到影响 。这个时候往往需要考虑使用一些方法对特征值进行标准化处理 。
推荐阅读
- 妥能组什么词语
- 推理协会举办什么活动好
- 极差分析与方差分析
- 怎么解除微信自动扣费协议
- 怎么把货款收回来
- 通俗唱法和民族唱法的区别在哪里
- 通俗文学的文化意义
- 通俗一点讲巴多按是什么意思
- 逾期打12378的技巧 银监局介入信用卡协商还款
- 降维打击通俗理解 降维打击是什么意思爱情