首页 > 代码库 > coreseek/sphinx自定义词库

coreseek/sphinx自定义词库

1、在一些专业领域中,全文搜索需要定义专业的名词,这里以化学为例来说明自定义词库


国内只有搜狗提供公开词库

网址是:http://pinyin.sogou.com/dict/


有些可以直接下载TXT的,有些则需要自己处理成txt文件,如果能下载txt的则只需要更改一下就可以,如果不能下载,则用其他软件或者自己手写一个,我用的是深蓝提供的词库转换工具


假设以上步骤已经完成,txt文件已经生成,则只需要下面的步骤就可以生成词库

mmseg词库的格式是

中文词 \t 1

x:1

由于生成的txt文件的格式是

富马酸单乙酯

乙酰氧基乙酸

羧基二苯甲酮

邻苄基苯甲腈

溴磺酸基联苯

氯二苯氯甲烷

氯甲基甲基萘

乙二酸二苄酯

甲基二苯甲醇

二溴氰乙酰胺

羟乙基二苯酮

三吗啉基氧磷

邻甲苯基双胍

硝基甲基吡啶

二乙氧基苯胺

氯甲氧基苯胺

氨苄青霉素钠

.....


所以需要事先处理一下

linux下执行以下命令

#sed -i "s/$/\t1\nx:1/g" file.txt


以上就是处理词库文件

下面来生成词库

#cd /usr/local/mmseg3/etc

#/usr/local/mmseg3/bin/mmseg -u file.txt

#mv uni.lib uni.lib.old

#mv file.txt.uni uni.lib


通过以上步骤就完成了mmseg自定义词库

接下来就是创建sphinx索引


这些不常用的技术由于用的次数比较少,所以记录一下,一遍以后用到

本文出自 “Jeff” 博客,转载请与作者联系!

coreseek/sphinx自定义词库