开发者:上海品职教育科技有限公司 隐私政策详情

应用版本:4.2.11(IOS)|3.2.5(安卓)APP下载

157****0450 · 2024年07月23日

卡方和MI互信息一样吗?都在什么情况下使用?

NO.PZ2023050402000016

问题如下:

检验单词和类别是否相互独立时,高卡方统计量代表什么?

选项:

A.这个单词对这个类别没有指向性,相互独立 B.这个单词对这个类别有指向性,并不相互独立 C.这个单词对这个类别有指向性,相互独立 D.这个单词对这个类别没有指向性,并不相互独立

解释:

正确答案是B选项。高卡方统计量代表这个单词在这个类别中出现的更频繁,也就是这个单词对这个类别有指向性,并不相互独立。这个时候这个单词就是应该被选择的一个特征。

高卡方意味着这个单词对这个类别有指向性,不相互独立;MI越接近1,说明单词对这个分类的贡献越大。如果以“足球”这个单词和“体育”这个类别来说,足球应该是高卡方,高MI的对吧,那么这两种方法应该是一样的才对,是使用情况不同么?

1 个答案

Tina_品职助教 · 2024年07月24日

嗨,从没放弃的小努力你好:


在检验单词和类别的相互独立性时,高卡方统计量表示单词对类别有指向性并且不相互独立(选项B)。虽然卡方检验和互信息在目的上有相似之处,但它们的计算方法和应用情境有所不同。卡方检验更常用于检测显著性关联,特别适合文本分类中的特征选择。互信息更常用于评估信息增益,适合各种机器学习模型中的特征选择。在特征选择中,可以根据具体的需求和数据特点选择合适的方法。

卡方检验(Chi-Square Test)

  • 目的:检验两个分类变量之间是否存在显著的关联性。
  • 使用情况:常用于文本分类中单词与类别的关联性检测。高卡方统计量表示单词和类别之间的显著关联,说明单词在该类别中出现的频率高于预期。
  • 高卡方统计量的意义
  • 高卡方统计量:说明该单词对该类别有指向性,单词和类别并不相互独立。换句话说,单词在这个类别中比在其他类别中出现的频率高。
  • 低卡方统计量:说明该单词对该类别没有指向性,单词和类别相互独立。

互信息(Mutual Information, MI)

  • 目的:测量两个随机变量之间的依赖关系。
  • 使用情况:在特征选择中用于评估单词对类别的贡献。MI越高,说明单词对类别的信息增益越大。
  • 高MI的意义
  • 高MI:表示该单词对类别有很大的贡献,说明单词和类别之间的关联性很强。
  • 低MI:表示该单词对类别的贡献较小,说明单词和类别之间的关联性较弱。


----------------------------------------------
就算太阳没有迎着我们而来,我们正在朝着它而去,加油!