首页 > 代码库 > 《数学之美》第14章 余弦定理和新闻的分类
《数学之美》第14章 余弦定理和新闻的分类
转载请注明原地址:http://www.cnblogs.com/connorzx/p/4170043.html
基本思想
- 建立一个字典向量,字典里包含这种语言的所有词组;
- 统计各个词组的出现次数,填充到对应词组的位置,构成文本的特征向量;
- 两个特征向量之间用余弦定理求夹角。这个值表明向量之间的相关程度。之所以用夹角而不用长度,是因为不同新闻的长度可能不同,用夹角表示不需要考虑长度(即向量的模长)的差异影响。
自动分类
- 所有特征向量(N个)两两相关,将结果大于某一阈值的归为一类,共N1个小类。显然,N1<N;
- 将每个小类看做一个整体,计算其特征向量,每个小类之间求夹角,相关值大于阈值的归为一类,共N2类。其中,N2<N1;
- 重复上述步骤,直到所有相关值都小于阈值。停止操作,分类结束。
降低算法复杂度方法
- 保存每个向量的模值;
- 删除所有虚词。因为虚词不但不起作用,还有可能造成干扰。
- 计算时跳过由零元素的。
提高准确性方法
采用特殊位置加权的办法,可以有效地提高算法效率。例如,标题、首位段以及每一段的第一句话出现的关键字都应该进行额外的加权。至于原因,你懂的!
《数学之美》第14章 余弦定理和新闻的分类
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。