首页 > 代码库 > hadoop优化
hadoop优化
hadoop 分散磁盘I/O
配置 dfs.data.dir,将其值配置为多块磁盘
<key>dfs.data.dir</key>
<value>/data/data1,/data/data2,/data/data3</value>
####假设多块磁盘被挂在以上目录中
2. mapreduce中间数据临时文件分散写
老的配置参数为,mapred.local.dir,新配置待查。
3. 以noatime和nodiratime方式装载磁盘
#atime:linux中文件在创建、修改、访问的时候会更新时间信息,是一笔很大的资源开销。
#diratime:每一次访问需要更新inode在文件系统中的访问时间。
设置:
#1:卸载磁盘
#2:修改
vi /etc/fstab
/dev/xvdc /mnt/is1 ext3 defaults,noatime,nodiratime 0 0
/dev/xvdd /mnt/is2 ext3 defaults,noatime,nodiratime 0 0
#3:重新挂载
4. 取消特权块空间
默认情况下,会保留一些文件块供特权进程使用,为防止用户进程将空间占满,使得系统进程饿死。
因为我们的集群就是使用hadoop,所以可以降低这些块的百分比。
5. vm.swappiness
该参数用来定义将内存页交换到磁盘中的主动程序,值越低表示交换频率越低。
如果交换频率过高,会导致regionserver进程因为zookeeper会话超时而被强制终止。
本文出自 “卯时” 博客,请务必保留此出处http://hellowode.blog.51cto.com/8646864/1549262
hadoop优化