中文文档预处理

2024-09-20 00:39:44 219人阅读

最近做个东西，需要对中文文档进行预处理。

首先是统一编码和删除标点符号等操作，用ULTRAEDIT和EDITPLUS可以分别很快的做到这一点。UITRAEDIT的替换里可以对一个文件夹目录的所有文件同时替换，可以用来批处理。

然后是分句和分词，分句一般是在去标点符号前（标点符号可以用停用表去），一般是用句号进行分句。分词我用的是现成的库，jieba分词，对中文的支持比较好。而且它可以用自定义词典限制分词的结构。

当然需要进行批处理的话最好自己弄个python脚本。jieba好像有个依赖库我给忘了。

然后是去停用词。分词以后去停用词就很简单了，自己写个脚本。但是停用词库如果有特殊需求的话最好还是自己造一个，如果只是通用的停用词的话网上随便一搜都是。

去完了预处理大概就差不多了，如果是跟语义有关系的话最好用一个浅层的work2vec实现对词义的向量化。（在有大量训练集的前提下）python里面有一个支持它的框架叫gensim。

over

中文文档预处理

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们