开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

Yiyun · 2020年01月09日

CFA二级数量 何老师讲的随机森林中的一个知识点

请见下图:较下部分 1.两个tree之间的相似性越高,那么m越大,error越大; 2.每个tree的分类能力越高,那么m越大,error越小。 那么问题来了,都是m越大,怎么error?越大越小?怎么判断呢? 第二个问题是:error具体指的是生成模型对于数据的预测能力的错误率么
1 个答案
已采纳答案

星星_品职助教 · 2020年01月09日

同学你好,

先说个背景。随机森林的优点在于“少数服从多数”,例如只依赖一个人投票,很可能投错,这样整个结果就都错了。但是在少数服从多数的投票下,其中一个人投错的错误就没那么严重。

m增大会导致两个效果,首先是树之间的相关性会变强,这样虽然表面上是很多树咋投票,但是由于强相关性,最后的结果和几棵树甚至是一棵树的投票结果是一样的,这就失去了“少数服从多数”的意义了,导致误差大。

而m增大的另一个效果是由于选择的特征(features)多,会使得每棵树分类时可以判断的的准则多,分类结果会越准确。例如只说一个动物很小这一个特征没法去判断是老鼠还是松鼠,但是如果再加一个会爬树的特征,就可以准确的分类了。所以从这个角度来看m上升导致误差减小。

所以由于m的双重效果,对于m大小的选择需要去权衡。最后选择一个合适的m值。

error是指预测结果和真实结果之间对比后的误差。

Yiyun · 2020年01月09日

你真棒👍

星星_品职助教 · 2020年01月09日

谢谢,加油哦~

  • 1

    回答
  • 0

    关注
  • 339

    浏览
相关问题