cloudera learning5:Hadoop集群高级配置 - 程序员工具箱

2000万优秀解决方案库，覆盖所有编程及软件开发类，极速查询

今日已更新 714 篇代码解决方案

首页 > 代码库 > cloudera learning5:Hadoop集群高级配置

cloudera learning5:Hadoop集群高级配置

2024-08-15 06:56:22 221人阅读

HDFS-NameNode Tuning:

dfs.namenode.handler.count:

NameNode可开启的thread number,thread为从NameNode到DataNode的RPC请求。Default值为30(CM，Non CM is 10)。推荐设置为集群node数量*20 再取log。如果设置的太小，当DataNode试图从NameNode上获取block信息时，DataNode log会报“connect refused”。

HDFS-DataNode Tuning:

dfs.datanode.failed.volumes.tolerated：

磁盘挂掉几块时，dataNode自动下线。默认为0,即DataNode不自动下线。

dfs.datanode.max.locked.memory：

DataNode最大的缓存size,默认为4G。

io.compression.codecs文件压缩：

配置Hadoop集群文件压缩策略:DefaultCodec, GzipCodec, BZip2Codec, DeflateCodec, SnappyCodec,Lz4Codec

YARN/GateWay Tuning

mapreduce.job.reduce.slowstart.completedmaps:

Map tasks执行完成百分之多少，开始创建reducer执行的容器。

mapreduce.reduce.shuffle.parallelcopies reducer：

Reducer内部可开的线程数。CM默认为10。推荐值计算方式：ln(count(cluster nodes)*4)

Hadoop cluster产线环境的HA配置：

HA主要是解决NameNode的单点故障，主要指NameNode crash, NameNode manitenance。

启用HA之后，会有两个NameNode(active,standby)和两个Failover Controllers以及若干个同步NameNode的Journal Nodes。不在需要SecondaryNameNode。

技术分享

clients只连接actvie NameNode。

DataNodes的heartbeat会同时发给active和standby NameNode。

Active NameNode会把metadata写入指定数目（奇数个）的JournalNode。

Standby NameNode从JournalNodes读取metadata信息，完成与Active的sync。

ZooKeeper failover Controller 自动进行Failover。

没有failback，恢复的NameNode自动变为standby。

配置选项：dfs.ha.automatic-failover.enabled

配置HA之后，Hive,impala,Hue均要进行一定的update。

cloudera learning5:Hadoop集群高级配置

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们