首页 > 代码库 > 中文文档预处理

中文文档预处理

最近做个东西,需要对中文文档进行预处理。

首先是统一编码和删除标点符号等操作,用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换,可以用来批处理。

然后是分句和分词,分句一般是在去标点符号前(标点符号可以用停用表去),一般是用句号进行分句。分词我用的是现成的库,jieba分词,对中文的支持比较好。而且它可以用自定义词典限制分词的结构。

当然需要进行批处理的话最好自己弄个python脚本。jieba好像有个依赖库我给忘了。

然后是去停用词。分词以后去停用词就很简单了,自己写个脚本。但是停用词库如果有特殊需求的话最好还是自己造一个,如果只是通用的停用词的话网上随便一搜都是。

去完了预处理大概就差不多了,如果是跟语义有关系的话最好用一个浅层的work2vec实现对词义的向量化。(在有大量训练集的前提下)python里面有一个支持它的框架叫gensim。

over

中文文档预处理