为什么去掉有residual的observation会degrade strength of regression? 不应该是当扔掉了有residual的sample,直线拟合的更好了,不应该是upgrade吗?
星星_品职助教 · 2021年08月24日
同学你好,
这是因为删除的是“small residual values”。然后又是用“reduced sample”来重新估计。
例如有5个数字,3个是10,2个是1,平均值是32/5=6.4;现在剔除这两个1,重新估计的平均值是30/3=10,所以均值变大了。
同理,删除了small residual value后,剩下的都是大的residual value,所以re-estimate后关于残差的相关估计就都会变大。也就是拟合程度变得不好。
反应在SEE上就是变大,反应在R-squared上就是变小,反应在整条直线方程上就是拟合程度变差。