首页 > 代码库 > 语言统计学中的几个定律,可作为设计检索的参考
语言统计学中的几个定律,可作为设计检索的参考
30定律:出现频率最高的30个词占全文本总词数的30%
如果剔除150个最高频率的词(由于df过大被认为是停用词):倒排表记录总个数会减少25-30%
Zipf定律: 在自然语料库中所有term的freq(频度)排名和其freq(频度)的乘积大致是一个常数
freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N
那也就是说排名第二多的词的频度是第一多的一半,排名第三的词频度是第一的1/3,这样以此类推
heaps定律,在自然语料库中不重复term的个数和语料库数据量成指数关系
因为是指数关系,可以知道下面几个特征
1 文档数无限增大,不重复term的个数也不会趋于一个常数
2 随着文档数的增加,不重复term的增长率会有所下降,增长率渐渐趋于平稳
Benford law:在自然形成的十进制数据中,任何一个数据的第一个数字d出现的概率大致log10(1+1/d)
语言统计学中的几个定律,可作为设计检索的参考
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。