开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

我叫仙人涨 · 2020年01月05日

Clustering output

Clustering 的问题 比如听歌识别,所以input的features是歌曲的节拍,歌词等等 Output是他们聚成的类,这个类别的种类我要提前设定么? 比如歌曲分类,我提前告诉歌曲们,你们要分成摇滚和抒情么,然后你们自己去聚类么? 还是提前不告诉歌曲你们要聚成啥,他们自己相似的聚在一起,然后我再看看是什么?但是有可能就是分成了周杰伦的和张学友的了,而不是摇滚的了? 老师说有新的数据进来了,不打标签,就是分类,但是模型用之前的数据产出的类别有个名字吧,那个也是一个label吧?
2 个答案
已采纳答案

我叫仙人涨 · 2020年01月06日

我的问题是要用例子去理解广义问题 我我要自己判断这些cluster组团后的共性是什么,是按照曲风分类的,还是按照歌手分类的,我再给它label,机器也不会告诉你它是按照什么共性分类的。 机器分类决于一开始input的feature,clustering出来的一个cluster共性也不一样 结论:一开始没有labeling,数据自己组团,组完了,人类再去分析这个组的类别内的共性是什么,再贴一个label.

星星_品职助教 · 2020年01月06日

clustering不需要贴label。机器来自行寻找相似点去分类。然后最后出来的那个类别可以起个名字,但是这个不是label,就是个命名。label是规定哪个变量是X哪个是Y

我叫仙人涨 · 2020年01月06日

好滴,这个解释完美, 多谢!

星星_品职助教 · 2020年01月05日

同学你好,

这个细节问题也没必要深究,听歌识别这种细节不可能考的,最多做个背景。机器学习这章是一个算法简介,而不会考察算法的细节应用。

简单说一下你的问题,首先clustering是unsupervised learning,这个一定不会有label,这个是需要重点掌握的结论。要聚的类也不用提前设定,而是由算法自己去找相似点。


其次就是聚类的过程,重点是知道流程。例如层次聚类中的agglomerative clustering(自下而上的方法)就是从单个观察值(每首歌)出发。一开始认为每一首歌就是一类,此后根据算法自己找到的一些特征(例如重合的歌词,歌词中的近义词,曲调等)逐渐将相似的歌聚成小类,再聚成大群,直到聚成一个总的大的分类为止。

这只是聚类中的一种流程而已,区分歌曲还可能根据K-means聚类,也可能根据自上而下层次聚类等等。重点是每种方法的流程要知道,但具体载体是不重要的,考试的时候不会问具体一个歌曲或者一个期权是怎么被分类的细节。上课的时候老师讲这些例子也是为了辅助说明流程的。

  • 2

    回答
  • 0

    关注
  • 326

    浏览
相关问题