hadoop常见问题

首页 > 代码库 > hadoop常见问题

2024-09-23 11:03:05 215人阅读

1。运行mapreduce程序出错，
connection to resourcemanager
retrying ...
retrying ...
原因是没有启动yarn或者启动失败

2.hdfs namenode -format 只是初始化了namenode的工作目录
而datanode的工作目录是在datanode启动后自己初始化的

3。datanode 不被namemode识别的问题
namenode在format初始化的时候会形成两个标识
blockpoolId
clusterId
新的datanode加入时，会获取这两个标识作为自己工作目录中的标识
一旦namenamenode重新format后，namenode的身份标识已经改变，而datanode如果依然持有原来的ID，就不会被namenode识别
解决办法是删除（清空）datanode的工作目录

4。datanode下线后多久看到效果，（页面上不会立即显示出已经下线）
有一个超时时间，超过了这个时间才被认定下线

5.关于副本数量的问题
副本数由客户端的参数dfs.replication决定（优先级：代码中的conf.set> 自定义配置文件>jar包中的hdfs-default.xml)

上传数据时 datanode的选择策略
1第一个副本先考虑跟client最近的datanode
第二个副本再考虑跨机架挑选一个datanode，增加副本的可靠性
3.选择同机架的一个datanode

文件传输是以packet为单位的64kb ,在packet中有chunk概念，chunk是512字节会校验一次

hadoop常见问题

声明：以上内容来自用户投稿及互联网公开渠道收集整理发布，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任，若内容有误或涉及侵权可进行投诉：投诉/举报工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。

联系
我们

首页 > 代码库 > hadoop常见问题

hadoop常见问题

看完仍有疑问？有类似问题直接问程序猿