语言统计学中的几个定律，可作为设计检索的参考

2024-07-28 00:01:40 217人阅读

30定律：出现频率最高的30个词占全文本总词数的30％

如果剔除150个最高频率的词（由于df过大被认为是停用词）：倒排表记录总个数会减少25－30％

Zipf定律：在自然语料库中所有term的freq（频度）排名和其freq（频度）的乘积大致是一个常数

freq_NO1 * 1 = freq_NO2 * 2 = freq_NO3 * 3 = freq_NOn * N

那也就是说排名第二多的词的频度是第一多的一半，排名第三的词频度是第一的1／3，这样以此类推

heaps定律，在自然语料库中不重复term的个数和语料库数据量成指数关系

因为是指数关系，可以知道下面几个特征

1 文档数无限增大，不重复term的个数也不会趋于一个常数

2 随着文档数的增加，不重复term的增长率会有所下降，增长率渐渐趋于平稳

Benford law：在自然形成的十进制数据中，任何一个数据的第一个数字d出现的概率大致log₁₀(1+1/d)

语言统计学中的几个定律，可作为设计检索的参考

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们