开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

FRM® current issues中的“监督式学习”是个啥?

  • 原创 2019-10-20
  • 隔壁班小妞

今年FRM二级current issues7篇金融热点文章中有5个都是FINTECH主题,其中关于大数据、机器学习、人工智能等等的分量也是逐年增加。上期咱们比较了机器学习中关于深入学习与强化学习的异同,今天接着来解读一下机器学习的另外两种类型:监督学习(supervised learning)和非监督学习(unsupervised learning)。

◆   ◆◆   ◆◆   ◆




 监督学习



我们平时在学习中需要使用一些方法才能更好地理解知识点之间的关系,从而更快的掌握学习内容。机器学习也一样,通过各种各样的方法来研究海量数据样本、得出数据之间的规律,这样下次遇到新的数据就能进行恰当的分析与处理啦。


“监督学习” (supervised learning)可以说是机器学习会用到的最普遍、最基础的方法。它的显著特点就是先将现有数据分类并贴标签,使用标签化的数据(labbled data)进行学习训练。这个标签呢,常常是对属性的划分,比如把动物分为爬行类与哺乳类。

那么,计算机拿到这些数据以后要干啥呢?这可以简单类比为我们小时候解方程:把自变量X代入方程求得因变量Y。在监督学习中,X是被事先贴好标签突显出各种特征的一堆数据,这相当于给计算机的学习进行了第一层的“监督指导”;而接下来还有第二层“监督”,那就是除了给出已知特征的X数据,我们还会告诉计算机目标数据Y是哪些,命令计算机在这样两组数据中找出从特征到目标之间的函数关系。


正是因为在监督式学习中,计算机通过各种数据集学习算法(数据之间的运算关系也可以称为“算法”)是有“人为干预”、层层指导的,所以这种学习方法倡导的是“老师”对学习过程进行“监督”,于是有了这样的名字。

而输出结果Y的类型可能是连续的值,也可能是一个个分类标签,所以监督学习又可以进一步划分为回归分析(regression)与分类(classification)。



 回归


回归分析的最大特点是预测结果是连续的。例如,我们用房屋面积来预测房屋价格。房屋面积可以看成是输入值,房屋价格就是输出值。通过获取大量房屋面积数据,我们可以找到预测房屋价格这样一个一元回归模型。如果我们再增加房龄、地理位置、是否为学区房等其他变量特征,就能得到多元回归模型。


分类

在分类技术中,计算机根据输入样本数据中的X和以分类方式显示的Y进行学习,得出算法模型以后将新的观察数据套入得出定性的结论。比如银行发放信用卡时会获得大量持卡人的数据,如果银行想判断持卡人是否会违约,可以根据历史数据中持卡人的刷卡频率、刷卡金额、还款情况等特征来训练算法,输出结果用“0”代表无违约、“1”代表有违约。计算机经过海量数据的学习之后,就可以对新输入的数据,得到是否会违约的分类结果了。



 非监督学习


非监督学习与监督学习最大的不同就在于非监督学习不使用标签数据,并且只有特征(X)而没有目标(Y)。在整个学习过程中,没有老师的指导,没有正确答案,直接将原始信息输入到计算机中直到获得“有价值”的东西。所以,非监督学习通过建立一种相对“主观”的价值体系来筛选和分析数据。


根据学习任务不同,无监督学习可以划分为聚类(clustering)和降维(reducing dimension)。


聚类

非监督学习最典型的就是聚类(clustering)算法,即通过给定的没有明确标签的数据集,计算机自行识别归纳数据的特征之后,把相似的聚在一起。例如,对不同的公司进行聚类:不需要事先对公司进行行业等等的划分,只是一股脑儿地把各公司的各种数据表现输入,计算机经过判断可能会把股票收益率相似的公司聚在一起——因为计算机通过海量数据的学习会自行总结哪个指标最大程度地影响过历史数据,从而依据这样的指标“自己”进行分类。

一个典型例子就是Google新闻。通过大量收集新闻和浏览数据,Google会对这些信息进行分类,自动分成几十个不同的组(政治、经济、娱乐等)。


降维

降维算法是指筛选已有数据集,将海量数据变量变得少而精,同时还能保证传达重要信息。比如,量化投资为了避免输入冗余信息,可以使用一些方法实现用低维特征(较少的数据)来替代高维特征(较多的数据),使误差最小并最大限度反应原有信息。

好啦,今天的机器学习就说到这里。不可否认,机器学习在许多方面已经超越人类大脑并且向着更强大更智能的方向发展。对我们而言,用更开放的心态拥抱机器学习带来的便利与创新,并保持危机感不断提高自身优势,才能在机器学习的不断发展迭代中立于不败之地。

◆   ◆◆   ◆◆   ◆

配图来源网络