首页 > 代码库 > CRF 条件随机场

CRF 条件随机场

条件随机场模型是Lafferty于2001年,在最大熵模型隐马尔科夫模型的基础上,提出的一种判别式概率无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。
CRF最早是针对序列数据分析提出的,现已成功应用于自然语言处理(Natural Language Processing,NLP) 、生物信息学、机器视觉及网络智能等领域。
1.序列标注的例子
标注(实体命名识别):任命 地名 组织名
标注(汉语词性标注):名词 动词 主次形容词 副词
简单地讲,随机场可以看成是一组随机变量的集合(这组随机变量对应同一个样本空间)。当给每一个位置按照某种分布随机赋予一个值之后,其全体就叫做随机场
当然,这些随机变量之间可能有依赖关系,一般来说,也只有当这些变量之间有依赖关系的时候,我们将其单独拿出来看成一个随机场才有实际意义。
马尔科夫随机场(MRF对应一个无向图。这个无向图上的每一个节点对应一个随机变量,节点之间的边表示节点对应的随机变量之间有概率依赖关系。因此,MRF的结构本质上反应了我们的先验知识——哪些变量之间有依赖关系需要考虑,而哪些可以忽略。
具有马尔科夫性质:离当前因素比较遥远(这个遥远要根据具体情况自己定义)的因素对当前因素的性质影响不
大。
现在,如果给定的MRF中每个随机变量下面还有观察值,我们要确定的是给定观察集合下,这个MRF的分布,也就是条件分布,那么这个MRF就称为CRF。它的条件分布形式完全类似于MRF的分布形式,只不过多了一个观察集合x。
最通用角度来看,CRF本质上是给定了观察值 (observations)集合的MRF。
设G=(V,E)是一个无向图,是G中以节点v位索引随机变量Y_v构成的集合,在给定X的条件下,如果每一个随机变量Y_v满足马儿可夫性,即P(Y_v|X,Y_u)

CRF 条件随机场