随机森林为什么不会过度拟合?
过拟合、高方差的问题发生在机器学习算法被允许无用地探究非常复杂的假设空间,将抽样误差也进行拟合,最终得出带有误导性的复杂答案 。过拟合发生的原因通常有:· 相对于训练数据行数来说过多的自由参数· Boosting的次数过多· 神经网络层数过多· 树的深度过大· 在SGD类型的算法中迭代次数过多事实上所有高度复杂的机器学习模型都有过拟合的倾向,但是题主的问题可以理解为为什么在树的数量增加时随机森林不会过拟合 。
【一文看懂随机森林,随机森林回归】随机森林相比于单个决策树不容易过拟合 。过拟合的主要原因是模型学习了过多样本中的随机误差,但是随机森林随机选择样本和特征,并且将很多的随机树进行平均,从而将随机误差也进行了平均 。总的来说,集成方法可以大幅度地减小预测方差到近乎零从而提高整体的准确率 。如果我们将单个随机模型的期望泛化错误的方差定义为下图:因此,一个整体的期望泛化错误的方差可以写为:公式中的p(x)是基于来自两个独立的种子(seeds)的相同数据训练出的随机模型预测值的皮尔逊相关系数 。
推荐阅读
- 荣耀9和荣耀v9参数对比,一张表看懂荣耀9和荣耀V9差别
- 深度学习优化策略,梯度下降
- EPLAN初学者的48个小问题,初学者怎样看懂代码
- 一文读懂700M,700mhz
- 索尼a7r2评测,一文了解a7r3对比a7r2
- 一文读懂什么是SaaS,saas系统是什么意思
- 智能扫地机器人产品介绍,扫地机器人介绍
- 如何看懂知网检测报告单,怎么看知网检测报告
- 一文读懂因果推测,因果推断
- 初学者如何看懂吉他谱?这篇文章教会你,建议收藏!