首页 > 代码库 > 汉语语义消歧之 -- 词义消歧简介
汉语语义消歧之 -- 词义消歧简介
词义消歧,亦称语义消歧,是计算语言学领域的基础性关键研究课题。
对于许多词语(特别是汉语词语和一部分专有名词),一个词有许多种意思。
例如专有名词"卡特",我们可以找到非常出名的两种含义:
1. 文斯·卡特(Vince Carter),美国职业篮球运动员
2. 詹姆斯·厄尔·卡特,1977年任美国第39任总统。
以及非常多的其他含义,包括:考古学家,斯诺克选手,记者,公司以及。。。LOL人物(汗)
如果查询的是"詹姆斯"之类的专有名词,则含义会变得更多,而且纷繁复杂。
除去专有名词,一些普通名词会有一些大相径庭的意思。
比如"仪表",同时表示了"人的外表"(appearance)、"各种测定仪"(meter)两种含义。
当然不可能我们在读到的时候随机一个含义(虽然有一定的概率随机到的含义是对的2333)
当一个人读到一个单词的时候,他是无意识或有意识的定向到该词一个特定意思上去的。
但是计算机,就不能够做到这一点(恩,废话),于是我们需要通过特定的好的算法来找到合适的意思,这就是消歧的作用。
好了词义消歧介绍完毕。(雾!其实是才开始的说。。。)
先说说词义消歧的重要性:"词义消歧是计算语言学领域的基础性关键研究课题,作为一个"中间任务",直接关系到信息检索、机器翻译、文本分类、语音识别等语言处理应用系统的效率和成败。然而,正如Ids和Veronis(1998)所指出的那样,虽然历经半个多世纪的努力,词义消歧研究并没有取得突破性进展 。现在10个春秋又逝去了,词义消歧依然是学人们孜孜以求攻克的难关 。"[1]
在这个词义消歧研究中,关涉到的三个主要问题是:资源、方法与评测。
资源,指每个词意思的来源,在研究中主要是语义词典和词义标注语料库。(我的研究是从百度百科上爬的资料)
------------未完待续--------------------
[1] : 引用自《词义消歧研究:资源 、方法与评测》 北京大学 吴云芳
汉语语义消歧之 -- 词义消歧简介