星星_品职助教 · 2020年11月30日
同学你好,
这三类算法区别比较明显。
CART:如果是二分的话,就是二元分类的决策树。CART假设在每一个决策点都对应着两种可能,“是”或者“否”。根据每一个决策点的cutoff value不断向下分类。
我们一般遇到的CART都是二分的形式。但实际上CART不止仅有二分。
-------
K nearest neighbors(KNN算法):用来判断一个新增的数据应该被归类为已有类别中的哪一类。是一个“物以类聚”的过程。例如对一家新成立的公司进行分类,可以首先设定数据集里现有的公司都属于哪个类别,然后看新加入的公司“最近的邻居”是哪类公司,这个最近的邻居公司所在的类别就是新公司的最终分类。
以上两者属于Supervised learning
K means clustering属于unsupervised learning中的clustering,与KNN算法类似,都是将相似的数据放到一起。但KNN本质还是要给数据分类别贴上标签。而K均值算法则只是将距离近的数据聚在一起自动分组。K值为提前指定的超参数,代表要把数据分成几群