《数学之美》第14章余弦定理和新闻的分类

2024-08-08 13:00:27 219人阅读

基本思想

建立一个字典向量，字典里包含这种语言的所有词组；
统计各个词组的出现次数，填充到对应词组的位置，构成文本的特征向量；
两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度，是因为不同新闻的长度可能不同，用夹角表示不需要考虑长度（即向量的模长）的差异影响。

采用特殊位置加权的办法，可以有效地提高算法效率。例如，标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因，你懂的！

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们