首页 > 代码库 > 中文文档预处理
中文文档预处理
最近做个东西,需要对中文文档进行预处理。
首先是统一编码和删除标点符号等操作,用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换,可以用来批处理。
然后是分句和分词,分句一般是在去标点符号前(标点符号可以用停用表去),一般是用句号进行分句。分词我用的是现成的库,jieba分词,对中文的支持比较好。而且它可以用自定义词典限制分词的结构。
当然需要进行批处理的话最好自己弄个python脚本。jieba好像有个依赖库我给忘了。
然后是去停用词。分词以后去停用词就很简单了,自己写个脚本。但是停用词库如果有特殊需求的话最好还是自己造一个,如果只是通用的停用词的话网上随便一搜都是。
去完了预处理大概就差不多了,如果是跟语义有关系的话最好用一个浅层的work2vec实现对词义的向量化。(在有大量训练集的前提下)python里面有一个支持它的框架叫gensim。
over
中文文档预处理
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。