我叫仙人涨 · 2020年01月05日

Clustering output

Clustering 的问题比如听歌识别，所以input的features是歌曲的节拍，歌词等等 Output是他们聚成的类，这个类别的种类我要提前设定么？比如歌曲分类，我提前告诉歌曲们，你们要分成摇滚和抒情么，然后你们自己去聚类么？还是提前不告诉歌曲你们要聚成啥，他们自己相似的聚在一起，然后我再看看是什么？但是有可能就是分成了周杰伦的和张学友的了，而不是摇滚的了？老师说有新的数据进来了，不打标签，就是分类，但是模型用之前的数据产出的类别有个名字吧，那个也是一个label吧？

添加评论

2 个答案

已采纳答案

我叫仙人涨 · 2020年01月06日

我的问题是要用例子去理解广义问题我我要自己判断这些cluster组团后的共性是什么，是按照曲风分类的，还是按照歌手分类的，我再给它label,机器也不会告诉你它是按照什么共性分类的。机器分类决于一开始input的feature，clustering出来的一个cluster共性也不一样结论：一开始没有labeling，数据自己组团，组完了，人类再去分析这个组的类别内的共性是什么，再贴一个label.

添加评论

星星_品职助教 · 2020年01月06日

clustering不需要贴label。机器来自行寻找相似点去分类。然后最后出来的那个类别可以起个名字，但是这个不是label，就是个命名。label是规定哪个变量是X哪个是Y

我叫仙人涨 · 2020年01月06日

好滴，这个解释完美，多谢！

星星_品职助教 · 2020年01月05日

同学你好，

这个细节问题也没必要深究，听歌识别这种细节不可能考的，最多做个背景。机器学习这章是一个算法简介，而不会考察算法的细节应用。

简单说一下你的问题，首先clustering是unsupervised learning，这个一定不会有label，这个是需要重点掌握的结论。要聚的类也不用提前设定，而是由算法自己去找相似点。

其次就是聚类的过程，重点是知道流程。例如层次聚类中的agglomerative clustering（自下而上的方法）就是从单个观察值（每首歌）出发。一开始认为每一首歌就是一类，此后根据算法自己找到的一些特征（例如重合的歌词，歌词中的近义词，曲调等）逐渐将相似的歌聚成小类，再聚成大群，直到聚成一个总的大的分类为止。

这只是聚类中的一种流程而已，区分歌曲还可能根据K-means聚类，也可能根据自上而下层次聚类等等。重点是每种方法的流程要知道，但具体载体是不重要的，考试的时候不会问具体一个歌曲或者一个期权是怎么被分类的细节。上课的时候老师讲这些例子也是为了辅助说明流程的。

添加评论

Clustering output

2 个答案

2

0

326

相关问题