6.3排序式检索 tf-idf权重计算

提示:
信息检索:文档评分-词项权重计算-向量空间模型
 第三部分:tf-idf权重计算


tf-idf权重计算

在进行排序时,除了词项频率tf之外,我们通常还需要词项在整个文档集中的频率和评分。
原因,当词项A和词项B在文档1中tf相同时,但词项B在文档集中每个文档中都有,而词项A只存在于文档1中,那么A和B需要有一个重要性的排序。

权重

罕见词项要比常见词项蕴含的信息要多很多,它出现的频率越低,那么出现它的文档就显得相关性更高。那么我们就希望给它更高的权重。
那么对于常见词而言,相对蕴含信息就相对偏少,给一个低的权重即可。

文档频率df

出现词项的文档数目
在这里插入图片描述
在这里插入图片描述

idft是反映信息量的一个指标。
用log10(N/dft)来限制N/dft的作用
影响

idf计算举例

N=1000000
在这里插入图片描述

cf VS df

在这里插入图片描述

vs
文档集频率cf t在整个文档集中出现的次数
文档频率df 包含t的文档数目

在这里插入图片描述

哪一个更适合查询?即赋予更高的权重?
通过上图,df(idf)的更适合做查询

※tf-idf权重

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

本图文内容来源于网友网络收集整理提供,作为学习参考使用,版权属于原作者。
THE END
分享
二维码
< <上一篇
下一篇>>