首页 > 代码库 > Hadoop合并小文件的几种方法
Hadoop合并小文件的几种方法
1、Hadoop HAR
将众多小文件打包成一个大文件进行存储,并且打包后原来的文件仍然可以通过Map-Reduce进行操作,打包后的文件由索引和存储两大部分组成;
缺点: 一旦创建就不能修改,也不支持追加操作,还不支持文档压缩,当有新文件进来以后,需要重新打包。
2、SequeuesFile
适用于非文体格式,可作小文件容器,并可压缩;
3、CombineFileInputFormat
将多个文件合并成一个split作为输入,减少map输入与HDFS块的耦合;
4、Java代码实现,使用HDFS API;更灵活可控;
Hadoop合并小文件的几种方法
声明:以上内容来自用户投稿及互联网公开渠道收集整理发布,本网站不拥有所有权,未作人工编辑处理,也不承担相关法律责任,若内容有误或涉及侵权可进行投诉: 投诉/举报 工作人员会在5个工作日内联系你,一经查实,本站将立刻删除涉嫌侵权内容。