首页 > 代码库 > nutch - hbase 的存储结构

nutch - hbase 的存储结构

webpage字段解释

webpage各阶段的字段值变化


ROW    com.2345.www:http/COL    f : fi    //fetchIntervalCOL    f : ts    //fetchTime
id主键,根据网页url生成(格式:reversed domain name:protocol:port and path),因此,Nutch2只能保存当前网页的状态,而不能保存历史信息(这里说的不对,会保留历史版本的,每个row都有时间戳,会保留一定量的历史版本,过低的可能会删除)。
rowkey为 reversed domain name:protocol:port and path  举例: com.2345.www:http/

nutch基本是用 url 作为rowkey的, 用这个实现url的去重。   然后通过“fetchTime” 来看是否达到generate的日期。

 

nutch - hbase 的存储结构