首页 > 代码库 > 中文分词选取-不成词个数判断法
中文分词选取-不成词个数判断法
运用前面几篇文章中的分词算法,可以把中文中的词语分出来,但是不同算法可能得到的分词结果不一样,到底如何确定那种分词效果最好呢。我们在这篇文章中探讨一种判断分词效果好坏的方法。
在分词的时候,有些单字是不成词的。可以搜索所有分词的可能性,然后对每一种分词结果进行统计,规则如下:每分出一个词就给分词统计结果加一,如果遇到不成词的单字就再给该分词结果加一。得到的结果分别计算出来。选出一个得分最低的就是所要分词的字符串的结果。
下面就用代码实现一下上面的思想。分别用正向最大匹配和逆向最大匹配,然后在对分词结果进行统计,选出一个最好的结果
package com; import java.util.ArrayList; import java.util.List; public class Segmentation4 { private List<String> dictionary = new ArrayList<String>(); private List<String> notWords = new ArrayList<String>(); private static String request = "他说的确实在理"; public void setDictionary() { dictionary.add("的确"); dictionary.add("确实"); dictionary.add("实在"); dictionary.add("在理"); } public void setNotWords() { notWords.add("确"); notWords.add("实"); notWords.add("理"); } public String leftMax() { String response = ""; String s = ""; for(int i=0; i<request.length(); i++) { s += request.charAt(i); if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) { response += (s + "/"); s = ""; } else if(aheadCount(s, dictionary) > 0) { } else { response += (s + "/"); s = ""; } } return response; } private boolean isIn(String s, List<String> list) { for(int i=0; i<list.size(); i++) { if(s.equals(list.get(i))) return true; } return false; } private int aheadCount(String s, List<String> list) { int count = 0; for(int i=0; i<list.size(); i++) { if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++; } return count; } public String rightMax() { String response = ""; String s = ""; for(int i=request.length()-1; i>=0; i--) { s = request.charAt(i) + s; if(isIn(s, dictionary) && tailCount(s, dictionary)==1) { response = (s + "/") + response; s = ""; } else if(tailCount(s, dictionary) > 0) { } else { response = (s + "/") + response; s = ""; } } return response; } private int tailCount(String s, List<String> list) { int count = 0; for(int i=0; i<list.size(); i++) { if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(list.get(i).length()-s.length(), list.get(i).length())))) count ++; } return count; } public int getCount(String s) { String[] words = s.split("/"); int count = words.length; for(String word : words) { if(isIn(word, notWords)) count++; } return count; } public static void main(String[] args) { System.out.println(request); String response; Segmentation4 seg = new Segmentation4(); seg.setDictionary(); seg.setNotWords(); String response1 = seg.leftMax(); System.out.println(response1); String response2 = seg.rightMax(); System.out.println(response2); if(seg.getCount(response1)<=seg.getCount(response2)) response = response1; else response = response2; System.out.println(response); } }
上面程序运行的结果是:
他说的确实在理
他/说/的确/实在/理/
他/说/的/确实/在理/
他/说/的/确实/在理/
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。