开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

ladycoco想放假 · 2020年10月16日

问一道题:NO.PZ201512020300000609 第9小题 [ CFA II ]

* 问题详情,请 查看题干

问题如下:

The output created in Steele’s Step 3 can be best described as a:

选项:

A.

bag-of-words.

B.

set of n-grams.

C.

document term matrix.

解释:

A is correct. After the cleansed text is normalized, a bag-of-words is created. A bag-of-words (BOW) is a collection of a distinct set of tokens from all the texts in a sample dataset.

这道题为什么不选b呢?题干里哪里体现了是否要体现顺序?
2 个答案
已采纳答案

星星_品职助教 · 2020年10月17日

@ladycoco想放假

数据清洗完的下一步就是BOW的过程,BOW结束后是建立DTM,这个是文本化数据预处理的固定步骤。这个需要记忆一下。

 如果针对BOW这一步考察BOW有什么缺陷,则n-grams可以针对BOW去保留顺序问题。这个是 n-grams的考法。

星星_品职助教 · 2020年10月16日

同学你好,

在step 2也就是 cleansed text is normalized之后要做的一步就是创建BOW,不是其他另外的两个。

-----

机器学习和大数据的这些题目在课后题或经典题里都讲过,可以做完题后先听一下里面的讲解。不用硬想~

ladycoco想放假 · 2020年10月17日

这道题只能当成结论记吗?清洗数据之后就只能进行BOW,不能进行n gram吗?经典题还没看,课后题我觉得讲的没有回答到我的疑问我才提问的