提问：数量讲义238页，关于unsupervised learning的例题-有问必答-品职教育专注CFA ESG FRM CPA 考研等财经培训课程

提问：数量讲义238页，关于unsupervised learning的例题

老师您好，提问关于unsupervised learning的这道例题。看到下面的C选项的“feature set”，“…must also be specified”，我联想到了labelled data。从选项来看，我理解成一些feature要说明，这不就是给数据贴标签，是supervised learning了吗？unsupervised learning是没有labelled data，我以为C选项是错的，但何老师在课上说这选项是对的。请问老师，这个选项应怎么理解，以及labelled data怎么理解。unsupervised learning的input data是否也可以贴标签呢？

同学你好，

labeled data是Supervised learning的特征，指的是需要把数据集里的数据指定为哪些是input数据（也就是X数据），和哪些是要得到的结果数据，也就是output数据或者是Y数据。

以最简单的回归分析为例，可以指定收入数据就是X变量，消费是Y变量，从而研究收入与消费之间的关系。这里面收入的数据就被打上了input或者X的标签。消费数据就被打上了output或者Y的标签。

非监督式学习不需要指定X和Y，例如聚类算法，是将相似的变量聚在一起，可以看出来这里面并没有Y变量的存在，也就不需要打标签，所以“target variable”或者Y变量也是区分监督和非监督式学习的关键词。

回到这道题的C选项上，这里的feature set指的是用哪几个特征去定义什么是“相似”（similarity）。例如想看几家公司是否相似，其实可以从多个特征点来衡量，例如利润是否相似，财务杠杆是否相似，总收入是否相似，人数是否相似等等。所以在做聚类之前，需要先选择要通过这些特征中的哪几个来定义两家公司是否“相似”。这些特征往往不会都选，因为都选会导致模型很复杂，还可能会产生过度拟合的问题。

假设最终选出了这些特征中建模人员认为最有代表性的三个特征，其余的类似董事长生日是否相似等被认为不重要的特征就不选了。选出了三个这特征后，就可以算出最终的“距离”（distance），距离更近的公司之间更相似。

所以通过以上例子可以看出，feature set在聚类算法里的作用是算最终的距离，而不是被打上input还是output的标签。加油~

提问：数量讲义238页，关于unsupervised learning的例题

1 个答案

1

0

276

相关问题