首页 > 代码库 > where are the exemplars?

where are the exemplars?

科学、医疗实验和研究获取大量数据,渴望更有效的计算方法去组织和分析,当处理大量的有噪数据集,科学家经常使用一种计算方法寻找数据簇。Frey和Dueck提出一种新的方法找最优簇集合,他们的算法检测特殊数据点叫做exemplars,并且联系每一个点到exemplar,该exemplar能够最好的表达该数据点,原则上,找到最优exemplars的集合是很困难的,但是该算法可以有效并且快速处理非常大的问题(如75000片段DNA分为2000簇),一个正常需要几千小时的计算时间,现在只需要几分钟。

在简单的簇下,检测exemplars,正如exemplars他们自身存储着压缩的信息。广泛的应用可能性中举例:语言的统计分析学,以你上一篇paper为例,考虑所有的句子为数据点,两个句子之间的相似度用标准信息论方法计算(也就是在两个句子包含一样的单词时,相似度会增加)知晓相似度,就可以检测文章中的exemplary 句子,该句子提供了一个最佳压缩描述。假使你只想略读,你可以直接读图4中Frey和Dueck的报告,发现他们文章最佳总结为四句话,但是理解这个方法需要更多的努力。

 

该方法起始于构造一个相似矩阵,一组数字建立每个数据与其他数据之间的关系,正如语义学中的例子,S(B,A)衡量数据A有多适合来表示B(S(B,A)≠S(A,B)),最优的exemplars的集合,是每一个数据点到它exemplar的similarity的和最大。一般的聚类方法中,有决定一个数据exemplars数目的先验知识,然后试图去找到它们,从一个随机初始化的选择开始,通过每一次迭代提纯的方法。

 

Frey和Dueck提出的方法叫做affinity propagation,并不固定exemplars的数目,相反,需要给B一个值P(B)去表示一个先验知识,B有多合适作为一个exemplar,在大部分情况下,所有点都是同等适合的,所以所有的P取同样的大小值,这个性质提供了一个可控的参数,P越大,更exemplar的那个则更容易找到。

 

AP在计算机科学中以消息传递算法而闻名,其目标是最大化网络相似度。实际上也是一个belief propagation的一个应用,该方法至少被创造了两次,一次是在通信理论,现在是最佳纠错机智的核心,随后是在推理问题的研究中。

 

消息传递可以通过采取拟人化的观点来理解,想像你是一个数据点,你希望得到一个exemplar和你最相像,但是你的选择是有约束的。如果你选择其他点A作为一个exemplar,那么A必须是其自己的exemplar,这就对每一个数据点做了一个约束,建立了一个大的约束网络,即所有点都必须符合该要求,当网络相似度达到最大时,并且所有约束满足,实际的exemplars集合就出现了。

 

想像每一数据点旁边站了一个守护天使,告知是否其他点选择了该点作为exemplar,那么冲突约束的复杂网络的可以在所有characters(天使)都已经和其他点说过话后获得一个近似解。在一个给定的时间,所有天使传送消息到所有数据点,所有数据点回答所有天使,一个数据点告诉其他数据点的天使,它喜好exemplars的排名列表,一个天使告诉所有其他点在天使的约束下,他的列表的匹配程度。每一个发送的消息通过一个基于接受消息和相似度矩阵的简单计算来评估,在几个消息传递的回合中,所有characters达成一致,每一个点知道了它的exemplar,在实际中,算法运行时间与相似度的数目成线性扩展关系(就是线性相关?).

 

作为一个例子,AP可以是一种有力是方法去获取画廊图片的代表性人脸,输入为数值相似度(成对数据),可能使用一个模型来测量、计算得到,或者在当前例子中,设置为视觉检查(缺失的相似性值表明,在问题标记下,可通过算法获得)。每一张脸都是一个数据点,与其他人脸和守护天使交换信息。在一些消息传递的迭代后,一个全局的协议达成,即exemplars的集合。

 

这样的消息传递方法已经在很多很困难的问题,包括纠错显示出卓著有效的结果,神经网络学习、计算机视觉和确定逻辑的可满足公式。在很多场合,他们是最好的可获得算法,以及这个新的应用到聚类分析看起来很强大,了解他们的极限是一个主要公开的挑战,这种方法的最低水平是控制收敛性或者谈找到近似解的质量,一个更有野心的目标是特征化(characterize)问题,他们更有用。这些概念和方法在统计物理学中发展,去研究集合行为,在这方面提供最有希望的前景,belief propagation(这里是affinity propagation)是一个均值域型(mean field-type)方法,也就是,给出目标(一个数据点)的复杂迭代,在所有其他点是一个平均有效迭代的近似。尽管这些在很多应用的很好,它在系统靠近相位过度时,会陷入问题,一些统计相关变得极其远程控制(?)。恰当的修正需要更复杂的信息,在一些特殊的领域已经解决,但是其适用性的变化一直在找。

 

 

消息传递拟人化的解释主要的特征

  •  困难的问题,该策略使用简单的方法可以找到一个极佳的近似解
  • 分布式系统中嘻嘻交换,简单的更新规则(局部更新)
  • 在实际中实现了一个新的计算体制:

               分布式元素   平行操作  神经计算精神

希望找到规则,在活的生物或者社会系统中可以有用,消息传递的每一个新的应用,如AP,都会增加我们对复杂系统的理解。

where are the exemplars?