开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

Dinny · 2020年06月01日

大数据这一章,为什么讲义上说stemming和lemmatization降低了词的重复?

如果都弄成同一个次干或者单词原型,这明明增加了单词的重复啊?

1 个答案

星星_品职助教 · 2020年06月01日

同学你好,

这两种方法降低的是单词/token的数量,同样的词干/词形作为同一个token来处理。

Stemming会去掉复数,过去式,进行时等,只保留词根,例如,“analyzed”和“analyzing”在处理前会显示为两个token,但做了stemming处理后,这两个单词会变成一个token:“analyz”,这就减少了token出现的次数。简而言之就是多个单词都弄成同一个词干后,就变成了一个单词。

Lemmatization与stemming类似,但这种方法还原后的词形仍是一个完整的单词。如“analyzed”和“analyzing”的词形还原都为“analyze”,同样是两个单词变成了一个单词

 

Dinny · 2020年06月03日

谢谢!

  • 1

    回答
  • 0

    关注
  • 364

    浏览
相关问题