输入法之核心词典构建

2024-09-28 02:35:39 217人阅读

拼音输入法输出的候选分成两个部分，系统词以及短句(智能组词),智能组词是通过model以及解码弄出来的，兴许再说。

系统词就是那些经常使用的词(词组)收录到词典中，用户的输入和词典中的词match时，直接吐出来，而不须要解码获得。

系统词以及相应的rank(score)对输入法的体验非常大，毕竟大多数用户还是继续短词输入。

系统词包括几个部分：

1.基础词

2.高频短串

3.细胞词库

当中基础词的比較复杂，也没有统一的方法。

一般的做法是：

1.对训练语料进行分词，然后取top 20-50w的词作为基础词，假设有知识库等分类的词典，能够依照类别。比方电商等能够引入一些词

2.获取第三方的核心词典。将大家都有的，或者基于一定的规范。选择出来。作为核心词典。

这个非常重要，可是基本上高频的都能被cover住，而中低频的就看产品需求了。

针对高频短串。比方“去哪里”等等，没有必要通过智能组词来解决。智能组词毕竟是有错误率的。

同一时候。加到核心词库里面后。在展现上比較方便控制。

毕竟智能组词一版智能选一个最好的。而系统词能够有多个。“去哪里”去那里“

输入法之核心词典构建

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们