手把手教你理解FINTECH关键词：“数据科学”-FRM篇-原创文章-品职教育专注CFA ESG FRM CPA 考研等财经培训课程

前面几期我们分别认识了大数据、机器学习的相关概念，相信大家对这些新型技术有了初步了解。而数据科学（data science），是这些技术中的一个关键词，它将大数据和机器学习结合起来，使得人们可以利用计算机科学（如机器学习等技术）从大数据中挖掘和提取到有价值的信息。这对很多公司的业务发展可是有着巨大的效用！

一个简单的例子：某电商发现情人节当天避孕套的销量大增，它就能向购买该产品的客户精准推送避孕药等其他周边产品，以此牢牢把握与发掘客户群体的需求。这，就是利用数据科学进行精准营销的魅力之一。

今天，我们就结合Readings教材具体看一下它是怎么做到的。

怎样分析处理不是“数”的数据？

大数据具有多样性、复杂性的特点，我们以前提到过大数据可以分为传统结构化数据（规规矩矩的“数”）和非结构化数据（unstructured data: 文本、声音、图像等等）。与传统结构化数据相比，我们在得到非结构化数据时需要做进一步处理才能使用。而这个过程主要包括数据采集（data collection）、数据准备和整理（data preparation and wrangling）等。

数据采集

在数据大爆炸的互联网时代，通过各类电子设备和社交媒体我们就能得到大量非结构化数据。比如，智能手机、射频识别芯片（radio-frequency identification readers）、无线传感器、卫星等电子设备都可以收集信息数据。而随着传感器使用的几何级增长，“万物互联”得以实现，数据的来源就更多了！这样的数据通常都是非结构化的。

通过计算机系统自动识别关键词，我们可以在海量数据中分拣出所需要的信息。另外，网络爬虫程序（web spidering program）可以专门在网站上收集信息——就像一只虫子在一幢楼里不知疲倦地爬来爬去。之前有人专门统计过爬虫最爱出没的地方：出行、社交、电商这三个领域是爬虫的最爱。而出行中最受爬虫青睐的毫无疑问是12306。为啥？因为数据源多呗！

根据公开数据报道，12306的点击量最高峰时1天浏览量达813.4亿次，1小时最高点击量59.3亿次，平均每秒164.8万次，这还是加上验证码防护之后的数据。所以，大家就不用再吐槽各种奇葩的登陆验证问题了——不设置点障碍推迟登陆很容易被海量数据瞬间聚集给挤瘫痪啊。

数据准备和整理

采集到那么多数据以后怎么使用呢？举个例子，商家如果仅获得用户的微博ID是没有多少商业价值；但如果能获取每个ID点赞以及转发的信息内容，并且获得ID号所关联的淘宝账号的购物信息，那么很容易给这个ID用户进行画像并分析出不同人群的购物偏好。这样商家就可以针对不同人群推送不同明星代言的产品。

此时，就需要对收集到的数据进行过滤和整理啦。具体而言，就是通过数据清理（data cleansing）来去掉一些与解决问题无关的内容，并将与问题相关的数据进行标准化格式的处理。

因为现在的数据更多地来自非传统渠道（各种文字、音频视频等），对这些数据，传统的定量方法在处理时显得无能为力。而近些年得益于人工智能的日渐成熟，我们现在掌握的分析工具（analytical tool）有了巨大的进步——借助机器学习，将形形色色的数据进行数字标注、多维度划分、分析趋势与特点、甚至建立模型进行预测都可以非常简单而高效地实现。

怎样更好地呈现数据分析结果

大家都有一个经验，就是看一堆密密麻麻的数往往不容易看出变化趋势或者整体特点，如果转化为图形就可以一目了然、更加直观。这就是数据的可视化（data visualization）。

对传统结构化数据，可视化相对简单，比如利用Excel就可以轻松GET到各种趋势图、柱状图、饼状图等。而对非结构化数据，就不能用简单的图形展现，还要引入新的工具。比如，热图（heat map）可以非常直观地显示网络用户的行为，包括对某网站的访问量、访问内容、访问周期等等：浏览量大、点击量大用红色表示，反之呈无色、蓝色。常见热图有点击热图、注意力热图、分享热图、对比热图等。