一文看懂随机森林,随机森林回归

随机森林为什么不会过度拟合?

一文看懂随机森林,随机森林回归


过拟合、高方差的问题发生在机器学习算法被允许无用地探究非常复杂的假设空间,将抽样误差也进行拟合,最终得出带有误导性的复杂答案 。过拟合发生的原因通常有:· 相对于训练数据行数来说过多的自由参数· Boosting的次数过多· 神经网络层数过多· 树的深度过大· 在SGD类型的算法中迭代次数过多事实上所有高度复杂的机器学习模型都有过拟合的倾向,但是题主的问题可以理解为为什么在树的数量增加时随机森林不会过拟合 。
【一文看懂随机森林,随机森林回归】随机森林相比于单个决策树不容易过拟合 。过拟合的主要原因是模型学习了过多样本中的随机误差,但是随机森林随机选择样本和特征,并且将很多的随机树进行平均,从而将随机误差也进行了平均 。总的来说,集成方法可以大幅度地减小预测方差到近乎零从而提高整体的准确率 。如果我们将单个随机模型的期望泛化错误的方差定义为下图:因此,一个整体的期望泛化错误的方差可以写为:公式中的p(x)是基于来自两个独立的种子(seeds)的相同数据训练出的随机模型预测值的皮尔逊相关系数 。

    推荐阅读