（3.1）用ictclas4j进行中文分词，并去除停用词

首页 > 代码库 > （3.1）用ictclas4j进行中文分词，并去除停用词

（3.1）用ictclas4j进行中文分词，并去除停用词

2024-07-25 12:18:35 220人阅读

酒店评论情感分析系统——用ictclas4j进行中文分词，并去除停用词

　　ictclas4j是中科院计算所开发的中文分词工具ICTCLAS的Java版本，因其分词准确率较高，而备受青睐。

1.　　下载ictclas4j

　　后面的附件中，我有放上ictclas4j的源码包ictclas4j.zip

2.　　在Eclipse中新建项目并进行相关配置

　　首先把 ictclas4j解压缩，然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你Eclipse项目的 bin目录下，把src目录下的org文件夹整个拷贝到 Eclipse项目的src目录下。

3.　　导入外部包commons-lang-2.0.jar

4.　　测试分词结果

 1 import org.ictclas4j.bean.SegResult;   2 import org.ictclas4j.segment.SegTag;   3    4 public class TextSegmentation {   5    6     public static void main(String[] args) {   7         String fileContent = "中国科学院计算技术研究所在多年研究基础上，" +   8                 "耗时一年研制出了ICTCLAS汉语词法分析系统";   9         SegTag segTag = new SegTag(1);// 分词路径的数目          10         SegResult segResult = segTag.split(fileContent.trim());  11         String classifyContent = segResult.getFinalResult();  12         System.out.println("分词结果\n"+classifyContent);  13     }  14 }

输出带有词性的标注结果：

1 分词结果    2 中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ，/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

5.　　用ictclas4j进行中文分词，并去除停用词

1) 在Eclipse中新建一个java project（如：sentence）

2) 按照上述第1,2，3的步骤配置好ictclas4j

3) 在sentence文件目录中新建destFile目录（用于存放分词和去停用词后的结果）和srcFile目录（用于存放需要分词的文本文件和停用词表）

　　　　srcFile目录下：

　　　　destFile目录下：

4) 新建一个class（如：FileExcludeStopWord.java）

 1 import java.io.BufferedReader; 2 import java.io.BufferedWriter; 3 import java.io.File; 4 import java.io.FileInputStream; 5 import java.io.FileNotFoundException; 6 import java.io.FileOutputStream; 7 import java.io.InputStreamReader; 8 import java.io.OutputStreamWriter; 9 import java.util.*;10 11 import org.ictclas4j.bean.SegResult;  12 import org.ictclas4j.segment.SegTag;13 //import ICTCLAS.I3S.AC.ICTCLAS50;14 15 public class FileExcludeStopWord {16     //停用词词表17     public static final String stopWordTable = "." + File.separator + "srcFile" + File.separator + "StopWordTable.txt";18 19     public static void main(String[] args) {20 21         //源文件和目的文件22         String srcFile = "." + File.separator + "srcFile" + File.separator + "酒店评论.txt";23         String destFile = "." + File.separator + "destFile" + File.separator + "酒店评论.txt";24         new FileExcludeStopWord().fileExcludeStopWord(srcFile, destFile);25     }26     27     public void fileExcludeStopWord(String srcFile,String destFile){28         try {29             //读取原文件和停用词表30             BufferedReader srcFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(srcFile))));31             BufferedReader StopWordFileBr = new BufferedReader(new InputStreamReader(new FileInputStream(new File(stopWordTable))));32             33             //将去除停用词的文本信息存入输出文件34             BufferedWriter destFileBw = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File(destFile))));35             36             //用来存放停用词的集合37             Set<String> stopWordSet = new HashSet<String>();38             39             //初始化停用词集40             String stopWord = null;41             for(; (stopWord = StopWordFileBr.readLine()) != null;){42                 stopWordSet.add(stopWord);        43             }            44             45             String paragraph = null;46             for(; (paragraph = srcFileBr.readLine()) != null;){47                 //对读入的文本进行分词48                 SegTag segTag = new SegTag(1);// 分词路径的数目          49                 SegResult segResult = segTag.split(paragraph);50                 String spiltResultStr = segResult.getFinalResult();    51                 //得到分词后的词汇数组，以便后续比较52                 String[] resultArray = spiltResultStr.split(" ");53                                 54                 //过滤停用词            55                 for(int i = 0; i< resultArray.length; i++){56                     //System.out.println(resultArray[i]);57                     if(stopWordSet.contains(resultArray[i])){58                         resultArray[i] = null;59                     }60                     //System.out.println(resultArray[i]);    61                 }62                 63                 //把过滤后的字符串数组存入到一个字符串中64                 StringBuffer finalStr = new StringBuffer();65                 for(int i = 0; i< resultArray.length; i++){66                     if(resultArray[i] != null){67                         finalStr = finalStr.append(resultArray[i]).append(" ");68                     }69                 }70                 71                 //将过滤后的文本信息写入到指定文件中72                 destFileBw.write(finalStr.toString());73                 destFileBw.newLine();74                 //输出最后的去停用词之后的结果75                 System.out.println(finalStr);76             }77             78             //关闭输入流79             destFileBw.close();80             StopWordFileBr.close();81             srcFileBr.close();            82             83         } catch (FileNotFoundException e) {84             // TODO Auto-generated catch block85             e.printStackTrace();86         } catch(Exception e){87             e.printStackTrace();88         }89     }90 }

酒店评论.txt中的内容：

总体评价：性价比很高，交通便利，周边吃喝玩乐设施齐全，对面就是家乐福。但是前台男客服服务态度很一般，酒店光线太暗看不清，总感觉脏脏的，并且隔音效果一般，有一点点吵，导致晚上睡觉不踏实。对于价钱，三星级价格有点高，一次性用品要收费。

上述代码输出结果：

总体 评价 性 价 高 交通 便利 周边 吃喝玩乐 设施 齐全 对面 家乐福 前台 男客 服 服务 态度 酒店 光线 太 暗 清 总 感觉 脏脏 隔音 效果 一点点 吵 导致 晚上 睡觉 踏实 价钱 三星级 价格 点 高 一次性 用品 收费

注：

　　ictclas4j的分词结果中本来是带有词性标注的，但是停用词表中是没有词性标注，故要从分词结果中除去停用词，则原本的分词词性结果不应该出现，所以为了让分词的结果中不进行词性的标注，进行了如下更改：

打开.../src/org/ictclas4j/segment中的SegTag.java文件，修改outputResult()函数，将：

result += sn.getSrcWord() + "/" + temp + " ";

改为：

result += sn.getSrcWord() + " ";

6.　　ictclas4j分词过程中可能遇到的问题和解决方案

① 分词的结果中不需要进行词性的标注
打开.../src/org/ictclas4j/segment中的SegTag.java文件，修改outputResult()函数，将：

result += sn.getSrcWord() + "/" + temp + " ";

改为：

result += sn.getSrcWord() + "  ";

② “org.apache”

　　这个新建的测试类可能会提示错误："The import org.apache cannot be resolved"，这是由于系统需要一个Apache的commons的jar包（如：commons-lang-2.0.jar）。

③ 在读取外部文件的内容进行分词时出现错误，如下所示：
Exception in thread "main" java.lang.NullPointerException atorg.ictclas4j.bean.Dictionary.getMaxMatch
打开../src/org/ictclas4j/bean中的Dictionary.java文件，修改getMaxMatch()函数，在：

for (int j = 0; j < wis.size(); j++) {

之前加上如下语句，判断为空条件：

if (wis == null) { return null; }

④ 读取外部文件时由于编码问题引起的错误

　　注意文件的读取方式，在打开文件的同时注意指定文件的编码:

InputStreamReader read = new InputStreamReader (new FileInputStream(f),"UTF-8");

　　举例如下：

 1 import java.io.BufferedReader; 2 import java.io.File; 3 import java.io.FileInputStream; 4 import java.io.FileReader; 5 import java.io.InputStreamReader; 6  7 import org.ictclas4j.bean.SegResult; 8 import org.ictclas4j.segment.SegTag; 9 10 public class Test {11     public static void main(String[] args) throws Exception{12         SegTag st = new SegTag(1);13         String str = "";14         int n = 0;15         File f = new File("E:/corpus/traindatas/train_uy2ch.ch.txt");16         InputStreamReader read = new InputStreamReader (new FileInputStream(f),"UTF-8");17         BufferedReader reader=new BufferedReader(read);18         String line;19         while ((line = reader.readLine()) != null&&n<20) {20             SegResult sr = st.split(line);21             System.out.println(sr.getFinalResult());22             n ++;23             }24         }25     }

⑤ 在对大文件进行中文分词时，出现了以下的错误信息：

java.lang.ArrayIndexOutOfBoundsException: -39       at java.util.ArrayList.get(ArrayList.java:324)       at org.ictclas4j.bean.Dictionary.findInOriginalTable(Dictionary.java:422)       at org.ictclas4j.bean.Dictionary.getFreq(Dictionary.java:632)       at org.ictclas4j.segment.GraphGenerate.biGenerate(GraphGenerate.java:170)       at org.ictclas4j.segment.Segment.split(Segment.java:81)       at com.ictclas4j.test.MyTest.main(MyTest.java:19)

可能的出错原因：

分词过程中出现了未能识别的字，如繁体字等

改错方法：在Dictionary.java文件中找到findInOriginalTable()方法，将其中的：

if (res != null && wts != null) {

改为：

if (res != null && wts != null &&index>=0 &&index<wts.size()) {

感谢如下博客：

1.使用ictclas4j进行中文分词

2.使用ictclas4j进行中文分词(续)

3.使用继续完善前人写的文章：使用ICTCLAS JAVA版（ictclas4j）进行中文分词

4.Java过滤停用词源码

附件：ictclas4j+commons-lang-2.4.jar+stopword

（3.1）用ictclas4j进行中文分词，并去除停用词

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > （3.1）用ictclas4j进行中文分词，并去除停用词

（3.1）用ictclas4j进行中文分词，并去除停用词

看完仍有疑问？有类似问题直接问程序猿