星星_品职助教 · 2020年01月09日
同学你好,
先说个背景。随机森林的优点在于“少数服从多数”,例如只依赖一个人投票,很可能投错,这样整个结果就都错了。但是在少数服从多数的投票下,其中一个人投错的错误就没那么严重。
m增大会导致两个效果,首先是树之间的相关性会变强,这样虽然表面上是很多树咋投票,但是由于强相关性,最后的结果和几棵树甚至是一棵树的投票结果是一样的,这就失去了“少数服从多数”的意义了,导致误差大。
而m增大的另一个效果是由于选择的特征(features)多,会使得每棵树分类时可以判断的的准则多,分类结果会越准确。例如只说一个动物很小这一个特征没法去判断是老鼠还是松鼠,但是如果再加一个会爬树的特征,就可以准确的分类了。所以从这个角度来看m上升导致误差减小。
所以由于m的双重效果,对于m大小的选择需要去权衡。最后选择一个合适的m值。
error是指预测结果和真实结果之间对比后的误差。
Yiyun · 2020年01月09日
你真棒👍
星星_品职助教 · 2020年01月09日
谢谢,加油哦~