首页 > 代码库 > THULAC:一个高效的中文词法分析工具包(z'z)
THULAC:一个高效的中文词法分析工具包(z'z)
网址:http://thulac.thunlp.org/
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。THULAC具有如下几个特点:
-
能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。
-
准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。
-
速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。
python版(兼容python2.x和python3.x)
-
源代码下载
将thulac文件放到目录下,通过 import thulac 来引用 thulac需要模型的支持,需要将下载的模型放到thulac目录下。
-
pip下载
sudo pip install thulac 通过 import thulac 来引用
import thulac thu1=thulac.thulac() text1=thu1.cut("通过python程序import thulac,新建thulac.thulac(args)类,其中args为程序的参数。之后可以通过调用thulac.cut()进行单句分词",text=True) print(text1)
THULAC:一个高效的中文词法分析工具包(z'z)
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。