首页 > 代码库 > coreseek/sphinx自定义词库
coreseek/sphinx自定义词库
1、在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库
国内只有搜狗提供公开词库
网址是:http://pinyin.sogou.com/dict/
有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件或者自己手写一个,我用的是深蓝提供的词库转换工具
假设以上步骤已经完成,txt文件已经生成,则只需要下面的步骤就可以生成词库
mmseg词库的格式是
中文词 \t 1
x:1
由于生成的txt文件的格式是
富马酸单乙酯
乙酰氧基乙酸
羧基二苯甲酮
邻苄基苯甲腈
溴磺酸基联苯
氯二苯氯甲烷
氯甲基甲基萘
乙二酸二苄酯
甲基二苯甲醇
二溴氰乙酰胺
羟乙基二苯酮
三吗啉基氧磷
邻甲苯基双胍
硝基甲基吡啶
二乙氧基苯胺
氯甲氧基苯胺
氨苄青霉素钠
.....
所以需要事先处理一下
linux下执行以下命令
#sed -i "s/$/\t1\nx:1/g" file.txt
以上就是处理词库文件
下面来生成词库
#cd /usr/local/mmseg3/etc
#/usr/local/mmseg3/bin/mmseg -u file.txt
#mv uni.lib uni.lib.old
#mv file.txt.uni uni.lib
通过以上步骤就完成了mmseg自定义词库
接下来就是创建sphinx索引
这些不常用的技术由于用的次数比较少,所以记录一下,一遍以后用到
本文出自 “Jeff” 博客,转载请与作者联系!
coreseek/sphinx自定义词库
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。