开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

410140980 · 2022年08月02日

data exploration

老师请问在unstructure data当中data exploration计算词频的时候为什么high frequency 也是要remove的?我理解的是一篇文章在反复讨论的话题,那一定是重要信息啊,所以不该remove唉

410140980 · 2022年08月02日

还有document frequency越大,说明出现这个单子的句子太多,也说明这个单词不重要。可是我觉得只有反复提的单词那肯定重要啊

1 个答案

星星_品职助教 · 2022年08月03日

同学你好,

一篇文章中出现最多的词是a/an, the, of, to, in/on等等没有意义的词汇,对识别文本内容没有价值,所以需要删除。

只有次高频的词汇才是真的重要信息词。

  • 1

    回答
  • 0

    关注
  • 345

    浏览
相关问题