Java实现使用IK Analyzer实现中文分词

2024-07-05 07:20:17 225人阅读

需要在项目中引入：

IKAnalyzer.cfg.xml

IKAnalyzer2012.jar

lucene-core-3.6.0.jar

stopword.dic

什么都不用改

示例代码如下(使用IK Analyzer):

[java] view plaincopy

package com.haha.test;

import java.io.IOException;

import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;

import org.apache.lucene.analysis.TokenStream;

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;

import org.wltea.analyzer.lucene.IKAnalyzer;

public class Test2 {

public static void main(String[] args) throws IOException {

String text="基于java语言开发的轻量级的中文分词工具包";

//创建分词对象

Analyzer anal=new IKAnalyzer(true);

StringReader reader=new StringReader(text);

//分词

TokenStream ts=anal.tokenStream("", reader);

CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);

//遍历分词数据

while(ts.incrementToken()){

System.out.print(term.toString()+"|");

}

reader.close();

System.out.println();

}

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们