首页 > 代码库 > Penn Treebank
Penn Treebank
NLP中常用的PTB语料库,全名Penn Treebank。
Penn Treebank是一个项目的名称,项目目的是对语料进行标注,包括词性标注以及句法分析。
语料来源为:1989年华尔街日报
语料规模:1M words,2499篇文章
语料价格:$1700
Penn Treebank项目有两个发行版,Treebank-2与Treebank-3,委托Linguistic Data Consortium (LDC) 发行与收费。
这两个版本的语料内容是一样的,除了发行时间不清楚还有啥区别……
ref:
http://www.cis.upenn.edu/~treebank/
https://catalog.ldc.upenn.edu/LDC95T7
https://catalog.ldc.upenn.edu/LDC99T42
Penn Treebank
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。