首页 > 代码库 > 跨语言论文阅读笔记———第一篇
跨语言论文阅读笔记———第一篇
Cross-lingual Transfer of Named Entity Recognizers
without Parallel Corpora
1.布朗聚类:
布朗聚类是一种针对词汇的聚类方法,Input是一系列的文章或者句子,Output有两种:
第一种是:一系列的词组,具体多少个类看你之前的设定:
第二种是:每个词都有一长串的二进制码,用类似霍夫曼编码的方式对每个词进行编码
可以显而易见的是,前缀相似度更高的词就越相近
什么样的词汇相似呢?一个直觉的想法就是:相似的词出现在相似的位置。
更精确的说法就是:相似词的前驱词和后继词的分布相似,也就是它前面的词和后面的词出现得是相似的。
跨语言论文阅读笔记———第一篇
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。