首页 > 代码库 > nutch - hbase 的存储结构
nutch - hbase 的存储结构
webpage字段解释
webpage各阶段的字段值变化
ROW com.2345.www:http/COL f : fi //fetchIntervalCOL f : ts //fetchTime
id主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息(这里说的不对,会保留历史版本的,每个row都有时间戳,会保留一定量的历史版本,过低的可能会删除)。
rowkey为 reversed domain name:protocol:port and path 举例: com.2345.www:http/
nutch基本是用 url 作为rowkey的, 用这个实现url的去重。 然后通过“fetchTime” 来看是否达到generate的日期。
nutch - hbase 的存储结构
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。