首页 > 代码库 > (paper reading)Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions
(paper reading)Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions
给定一个包含一系列实体E的知识库,以及提到了M个已确定实体的文本集合,实体链接的目的是将文本中提到的每个实体m∈M链接到知识库中对应的实体e∈E上。如果文本中提到的实体在知识库中没有对应,则被称为unlinkable mentions,对这样的一类实体,一个实体链接系统会给它加上一个特殊的标签NIL。
一个典型的实体链接系统应该包含三个模块:
- Candidate entity generation
对M当中的每一个m,实体链接系统需要在知识库中找出候选的实体集合Em,主要的实现方法有:
-
- dictionary based techniques
利用wikipedia的一些属性构造一个字典,然后在字典当中进行查找。
-
- surface form expanssion from the local document
使用一些方法将要链接的实体m展开成全名,别名等。
-
-
- Heuristic Based Methods
- Supervised Learning Methods
- methods based on search engine
-
一些搜索引擎集成了寻找相似名称的实体的功能,所以存在直接利用搜索引擎的方法。
- Candidate entity ranking
将候选的实体集合按照一定的准则进行排序,挑选出最有可能满足条件的实体。
确定准则需要了解实体的features,context-independant features包括name string comparison,entity popularity和entity type,即只需要考虑实体本身和候选的实体集合本身,context-dependant features则需要分析实体出现的环境,包括textual context和coherence between mapping entities。
对候选实体的集合进行排序主要的实现方法有:
-
- supervised ranking methods
- binary classification methods
- learning to rank methods
- probabilistic methods
- graph based approaches
- model combination
- training data generation
- unsupervised ranking methods
- VSM based methods
- information retieval based methods
- supervised ranking methods
- Unlinkable mention prediction
确认排序最靠前的候选实体是否是m对应的目标实体,如果都不是需要给m加上unlikable mention的标签。
实体链接的应用主要有:
- Information Extraction
- Information Retrieval
- Content Analysis
- Question Answering
- Knowledge Base Population
作者认为未来的研究方向有:
1. 考虑对其他类型的mention进行链接,而不是文本中的。
2. 考虑计算复杂度,效率和可扩展性。
3. 考虑domain-specific entity linking system。
(paper reading)Entity Linking with a Knowledge Base: Issues, Techniques, and Solutions