开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

杨KitKit · 2019年12月15日

提问:数量讲义238页,关于unsupervised learning的例题

老师您好,提问关于unsupervised learning的这道例题。 看到下面的C选项的“feature set”,“…must also be specified”,我联想到了labelled data。 从选项来看,我理解成一些feature要说明,这不就是给数据贴标签,是supervised learning了吗?unsupervised learning是没有labelled data,我以为C选项是错的,但何老师在课上说这选项是对的。 请问老师,这个选项应怎么理解,以及labelled data怎么理解。unsupervised learning的input data是否也可以贴标签呢?
1 个答案

星星_品职助教 · 2019年12月16日

同学你好,

labeled data是Supervised learning的特征,指的是需要把数据集里的数据指定为哪些是input数据(也就是X数据),和哪些是要得到的结果数据,也就是output数据或者是Y数据。

以最简单的回归分析为例,可以指定收入数据就是X变量,消费是Y变量,从而研究收入与消费之间的关系。这里面收入的数据就被打上了input或者X的标签。消费数据就被打上了output或者Y的标签。

非监督式学习不需要指定X和Y,例如聚类算法,是将相似的变量聚在一起,可以看出来这里面并没有Y变量的存在,也就不需要打标签,所以“target variable”或者Y变量也是区分监督和非监督式学习的关键词。

回到这道题的C选项上,这里的feature set指的是用哪几个特征去定义什么是“相似”(similarity)。例如想看几家公司是否相似,其实可以从多个特征点来衡量,例如利润是否相似,财务杠杆是否相似,总收入是否相似,人数是否相似等等。所以在做聚类之前,需要先选择要通过这些特征中的哪几个来定义两家公司是否“相似”。这些特征往往不会都选,因为都选会导致模型很复杂,还可能会产生过度拟合的问题。

假设最终选出了这些特征中建模人员认为最有代表性的三个特征,其余的类似董事长生日是否相似等被认为不重要的特征就不选了。选出了三个这特征后,就可以算出最终的“距离”(distance),距离更近的公司之间更相似。

所以通过以上例子可以看出,feature set在聚类算法里的作用是算最终的距离,而不是被打上input还是output的标签。加油~

  • 1

    回答
  • 0

    关注
  • 253

    浏览
相关问题