首页 > 代码库 > 分布式文件系统之MogileFS实现
分布式文件系统之MogileFS实现
一、简介
1、分布式文件系统
分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的节点以及PB级的数量存储。
相对地,在一个分享的磁盘文件系统中,所有节点对数据存储区块都有相同的访问权,在这样的系统中,访问权限就必须由客户端程序来控制。
分布式文件系统可能包含的功能有:透通的数据复制与容错。也就是说,即使系统中有一小部份的节点脱机,整体来说系统仍然可以持续运作而不会有数据损失
2、各种分布式文件系统介绍
MogileFS:擅长处理海量小文件 Google Filesystem :GFS+MapReduce擅长处理单个大文件 Hadoop Distibuted Filesystem :GFS山寨版+MapReduce 擅长处理单个大文件 GlusterFS :擅长处理单个大文件 Taobao Filesystem :擅长处理海量小文件 Ceph :PB级别的分布式文件系统 MooseFS :通用简单 Lustre :一种平行分布式文件系统
3、MogileFS
MogileFS 是一个开源的分布式文件系统,用于组建分布式文件集群,由 LiveJournal 旗下 Danga Interactive 公司开发,Danga 团队开发了包括 Memcached、MogileFS、Perlbal 等不错的开源项目:(注:Perlbal 是一个强大的 Perl 写的反向代理服务器)。目前国内使用 MogileFS 的有图片托管网站 yupoo 等
①、MogileFS 特性
应用层 – 不需要特殊的核心组件 无单点失败 — MogileFS分布式文件存储系统安装的三个组件(存储节点、跟踪器、跟踪用的数据库),均可运行在多个 机器上,因此没有单点失败.(你也可以将跟踪器和存储节点运行在同一台机器上,这样你就没有必要用4台机器)推荐至少两台机器. 自动的文件复制 — 基于不同的文件“分类”,文件可以被自动的复制到多个有足够存储空间的存储节点上,这样可以满足这个“类别”的最少复制要求.比如你有一个图片网站,你可以设置原始的JPEG图片需要复制 至少三份,但实际只有1or2份拷贝,如果丢失了数据,那么MogileFS分布式文件存储系统可以重新建立遗失的拷贝数.用这种办法,MogileFS(不做RAID)可以节约磁盘,否则你将存储同样的拷贝多份,完全没有必要. “比RAID好多了”– 在一个非存储区域网络的RAID(non-SAN RAID)的建立中,磁盘是冗余的,但主机不是,如果你整个机器坏了,那么文件也将不能访问. MogileFS分布式文件存储系统在不同的机器之间进行文件复制,因此文件始终是可用的. 传输中立,无特殊协议 — MogileFS分布式文件存储系统客户端可以通过NFS或HTTP来和MogileFS的存储节点来通信,但首先需要告知跟踪器一下. 简单的命名空间 –文件通过一个给定的key来确定,是一个全局的命名空间.你可以自己生成多个命名空间,只要你愿意,不过这样可能在同一MogileFS中会造成key冲突. 不用共享任何东西 — MogileFS分布式文件存储系统不需要依靠昂贵的SAN来共享磁盘,每个机器只用维护好自己的磁盘. 不需要RAID — 在MogileFS中的磁盘可以是做了RAID的也可以是没有,如果是为了安全性着想的话RAID没有必要买了,因为MogileFS分布式文件存储系统已经提供了.
②、组成
Tracker(调度器)- (MogileFSd 进程) //这个是 MogileFS 的核心部分,通俗点讲,就他是一个调度器.MogileFSd 进程就是 trackers 进程程序,类似 MogileFS 的 wiki 上介绍的,tracker可以完成很多工作,比如说replication,deletiont等,这个是基于事件的(event-based ) 父进程/消息总线来管理所有来之于客户端应用的交互(requesting operations to be performed), 包括将请求负载平衡到多个"query workers"中,然后让 MogileFSd 的子进程去处理. //mogadm,mogtool 的所有操作都要跟 trackers 打交道,Client 的一些操作也需要定义好 trackers,因此最好同时运行多个 trackers 来做负载均衡.trackers 也可以只运行在一台机器 上,也可以跟其他程序运行在一起(不建议). //tracker 配置文件: /etc/mogilefs/mogilefsd.conf 数据库(MySQL)部分 //数据库用来存放 MogileFS 的元数据 (命名空间, 和文件在哪里). 是 Trackers 来操作和管理它.你可以用 mogdbsetup 程序来初始化数据库.因为数据库保存了MogileFS的所有元数据,如果这儿挂了,那么整个 MogileFS 将处于不可用状态.因此最好是HA结构. 存储节点(Storage Nodes )-(mogstored 进程, Apache 和 Nginx 等) //实际文件存放的地方. 存储节点是一个 HTTP 服务器,用来做删除,存放,重命名等事情.任何 WebDAV 服务器都可以, 不过推荐使用 mogstored . MogileFSd 可以配置到两个机器上使用不同端口… mogstored 来进行所有的 DAV 操作和流量,IO监测, 并且你自己选择的 HTTP 服务器(默认为 perlbal)用来做 GET 操作给客户端提供文件. //典型的应用是一个挂载点有一个大容量的 SATA 磁盘,它们被挂载到 /var/mogdata/devNN. 只要配置完配置文件后 mogstored 程序的启动将会使本机成为一个存储节点.当然还需要 mogadm 这个工具增加这台机器到 Cluster 中. //mogstored 的配置文件: /etc/mogilefs/mogstored.conf
③、服务进程
MogileFSd — MogileFS 的主守护进程: //就是上面指的 trackers(跟踪器 ),由 /etc/MogileFS/MogileFSd.conf 这个配置文件控制. mogstored — MogileFS 存储守护进程 //这个就是上面指的存储节点(Storage Nodes )由/etc/mogilefs/mogstored.conf这个配置文件来控制.
④、核心角色
tracker节点:借助于数据库保存各节点文件的元数据信息,保存每个域中所有键的存储位置分布,方便检索定位数据位置的同时并监控各个节点,告诉客户端存储区位置并指挥storage节点复制数据副本,进程名mogilefsd/端口7001 atabase节点:为tracker节点提供数据存取 storage节点:将指定域中的键转换为其特有的文件名存储在指定的设备文件中,转换后的文件名为值,storage节点自动维护键值对应关系,storage节点由于使用http进行数据传输,因此依赖于perlball,storage节点前段可以使用nginx进行反向代理,但需要安装nginx的第三方模块nginx-mogilefs-module-master,进程mogstored/7500端口,perlbal/7500端口 Domain:一个域中的键值是唯一的,一个MogileFS可以有多个域,域可以存储不同应用类型的数据的容器 Class:复制最小单位,文件属性管理,定义文件存储在不同设备上的分数
4、规划
系统 | IP | 服务 | hostname |
Centos 6.5 x86_64 | 172.16.12.1 | nginx(反向代理) | nginx |
Centos 6.5 x86_64 | 172.16.12.101 | mogilefs+mogstored | store1 |
Centos 6.5 x86_64 | 172.16.12.102 | mogilefs+mogstored | store2 |
Centos 6.5 x86_64 | 172.16.12.110 | mariadb | mysql |
二、安装配置
1、在mysql上进行数据库授权
MariaDB [(none)]> grant all on *.* to ‘root‘@‘172.16.%.%‘ identified by ‘mari‘; MariaDB [(none)]> grant all on mogilefs.* to ‘moguser‘@‘172.16.%.%‘ identified by ‘mogpass‘; MariaDB [(none)]> flush privileges;
2、在store1上
①、安装
[root@store1 ~]# yum install -y *.rpm perl-IO-AIO
②授权pid目录权限
[root@store1 ~]# chown -R mogilefs.mogilefs /var/run/mogilefsd/
③、配置mogilefs
[root@store1 ~]# vim /etc/mogilefs/mogilefsd.conf # Enable daemon mode to work in background and use syslog daemonize = 1 # Where to store the pid of the daemon (must be the same in the init script) pidfile = /var/run/mogilefsd/mogilefsd.pid #pid文件存放位置 # Database connection information db_dsn = DBI:mysql:mogilefs:host=172.16.12.110 #数据库文件所在位置 db_user = moguser #授权的用户 db_pass = mogpass #密码 # IP:PORT to listen on for mogilefs client requests listen = 172.16.12.101:7001 #监听本地址及端口
配置mogstored
[root@store1 ~]# vim /etc/mogilefs/mogstored.conf maxconns = 10000 #最大连接数 httplisten = 0.0.0.0:7500 #http请求监听的端口 mgmtlisten = 0.0.0.0:7501 docroot = /var/mogdata #domain目录
④、建立设备挂载点
[root@store1 ~]# mkdir -pv /var/mogdata/dev1 [root@store1 ~]# chown -R mogilefs.mogilefs /var/mogdata/
⑤、启动服务
[root@store1 ~]# mogdbsetup --dbhost=172.16.12.110--dbrootuser=root --dbrootpass=mari --dbuser=moguser --dbpass=mogpass --dbname=mogilefs --yes [root@store1 ~]# service mogilefsd start Starting mogilefsd [ OK ] [root@store1 ~]# service mogstored start Starting mogstored [ OK ]
检查端口:
[root@store1 ~]# ss -tnl | grep 750* LISTEN 0 128 *:7500 *:* LISTEN 0 128 *:7501 *:*
3、在store2上
[root@store2 ~]# yum install -y *.rpm perl-IO-AIO //store1上的配置文件穿过来 [root@store1 ~]# scp /etc/mogilefs/* 172.16.12.102:/etc/mogilefs/ [root@store2 ~]# vim /etc/mogilefs/mogilefsd.conf //修改如下内容 listen = 172.16.12.102:7001 [root@store2 ~]# mkdir -pv /var/mogdata/dev2 [root@store2 ~]# chown -R mogilefs.mogilefs /var/mogdata/dev2 /var/run/mogilefsd/
启动:
[root@store2 ~]# service mogilefsd start Starting mogilefsd [ OK ] [root@store2 ~]# service mogstored start Starting mogstored [ OK ]
4、mogilefs的具体配置
①、添加节点
[root@store1 ~]# mogadm --trackers=172.16.12.101:7001 host add 172.16.12.101 --ip=172.16.12.101 --status=alive [root@store2 ~]# mogadm --trackers=172.16.12.101:7001 host add 172.16.12.102 --ip=172.16.12.102 --status=alive [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 host list 172.16.12.101 [1]: alive IP: 172.16.12.101:7500 172.16.12.102 [2]: alive IP: 172.16.12.102:7500
②、添加设备
[root@store1 ~]# mogadm --trackers=172.16.12.101:7001 device add 172.16.12.101 1 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 device add 172.16.12.102 2 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 device list 172.16.12.101 [1]: alive used(G) free(G) total(G) weight(%) dev1: alive 0.383 18.303 18.686 100 172.16.12.102 [2]: alive used(G) free(G) total(G) weight(%) dev2: alive 0.379 18.307 18.686 100
注:
添加设备时所使用的设备ID号必须要/var/mogdata中的编号一致
③、建立区域
[root@store1 ~]# mogadm --trackers=172.16.12.101:7001 domain add images [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 domain add text [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 domain list domain class mindevcount replpolicy hashtype -------------------- -------------------- ------------- ------------ ------- images default 2 MultipleHosts() NONE text default 2 MultipleHosts() NONE
④、在每一个区域中建立class
[root@store1 ~]# mogadm --trackers=172.16.12.101:7001 class add images class1 --mindevcount=2 //至少两个副本 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 class add images class2 --mindevcount=2 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 class add text class1 --mindevcount=2 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 class add text class2 --mindevcount=2 [root@store1 ~]# mogadm --trackers=172.16.12.101:7001 class list domain class mindevcount replpolicy hashtype -------------------- -------------------- ------------- ------------ ------- images class1 2 MultipleHosts() NONE images class2 2 MultipleHosts() NONE images default 2 MultipleHosts() NONE text class1 2 MultipleHosts() NONE text class2 2 MultipleHosts() NONE text default 2 MultipleHosts() NONE
注释:
domain :区域 class:复制文件的最小单位 (最大为64M,如果一个单文件超出此大小将拆分为多个class存储) mindevcount:最小复制文件的份数 replpolicy :复制份数 hashtype:采用的hash的类型
⑤、上传文件测试
//上传图片 [root@store1 ~]# mogupload --trackers=172.16.12.101:7001 --domain=images --key=‘/img/1.jpg‘ --file=‘/root/test1.jpg‘ [root@store1 ~]# mogupload --trackers=172.16.12.101:7001 --domain=images --key=‘/img/2.jpg‘ --file=‘/root/test2.jpg‘ [root@store1 ~]# moglistkeys --trackers=172.16.12.101:7001 --domain=images /img/1.jpg /img/2.jpg // //上传文本 [root@store1 ~]# mogupload --trackers=172.16.12.101:7001 --domain=text --key=‘/test/passwd‘ --file=‘/etc/passwd‘ [root@store1 ~]# mogupload --trackers=172.16.12.101:7001 --domain=text --key=‘/test/fstab‘ --file=‘/etc/fstab‘ [root@store1 ~]# moglistkeys --trackers=172.16.12.101:7001 --domain=text /test/fstab /test/passwd
查看fid信息:
[root@store1 ~]# mogfileinfo --trackers=172.16.12.101:7001 --domain=images --key=/img/1.jpg - file: /img/1.jpg class: default devcount: 2 domain: images fid: 16 key: /img/1.jpg length: 245412 - http://172.16.12.102:7500/dev2/0/000/000/0000000016.fid - http://172.16.12.101:7500/dev1/0/000/000/0000000016.fid [root@store1 ~]# [root@store1 ~]# mogfileinfo --trackers=172.16.12.101:7001 --domain=text --key=/test/passwd - file: /test/passwd class: default devcount: 2 domain: text fid: 18 key: /test/passwd length: 1673 - http://172.16.12.101:7500/dev1/0/000/000/0000000018.fid - http://172.16.12.102:7500/dev2/0/000/000/0000000018.fid
通过fid路径访问:
图片:
文本:
5、配置nginx
①、安装nginx
在官网下载即可:http://nginx.org/en/download.html
nginx-mogilefs-module-master.zip
[root@nginx nginx-1.4.7]# groupadd -r nginx [root@nginx nginx-1.4.7]# useradd -r -g nginx nginx [root@nginx ~]# yum -y install pcre-devel [root@nginx ~]# tar xf nginx-1.4.7.tar.gz [root@nginx ~]# unzip nginx-mogilefs-module-master [root@nginx nginx-1.4.7]# ./configure --prefix=/usr --sbin-path=/usr/sbin/nginx --conf-path=/etc/nginx/nginx.conf --error-log-path=/var/log/nginx/error.log --http-log-path=/var/log/nginx/access.log --pid-path=/var/run/nginx/nginx.pid --lock-path=/var/lock/nginx.lock --user=nginx --group=nginx --with-http_ssl_module --with-http_flv_module --with-http_stub_status_module --with-http_gzip_static_module --http-client-body-temp-path=/var/tmp/nginx/client/ --http-proxy-temp-path=/var/tmp/nginx/proxy/ --http-fastcgi-temp-path=/var/tmp/nginx/fcgi/ --http-uwsgi-temp-path=/var/tmp/nginx/uwsgi --http-scgi-temp-path=/var/tmp/nginx/scgi --with-pcre --with-debug --add-module=../nginx-mogilefs-module-master [root@nginx nginx-1.4.7]# make && make install
②、配置nginx配置文件
worker_processes 1; events { worker_connections 1024; } http { include mime.types; default_type application/octet-stream; sendfile on; keepalive_timeout 65; //定义调度器集群,实现负载均衡 upstream mogfs_cluster { server 172.16.12.101:7001; server 172.16.12.102:7001; } server { listen 80; server_name localhost; location ~* ^(/img/.*)$ { ////当url路径为img时,转向images域 mogilefs_tracker mogfs_cluster; mogilefs_domain images; mogilefs_noverify on; mogilefs_pass $1 { proxy_pass $mogilefs_path; proxy_hide_header Content-Type; proxy_buffering off; } } location ~* ^(/test/.*)$ { ////当url路径为test时,转向text域 mogilefs_tracker mogfs_cluster; mogilefs_domain text; mogilefs_noverify on; mogilefs_pass $1 { proxy_pass $mogilefs_path; proxy_hide_header Content-Type; proxy_buffering off; } } error_page 500 502 503 504 /50x.html; location = /50x.html { root html; } } }
③、添加服务脚本
[root@nginx nginx-1.4.7]# vim /etc/rc.d/init.d/nginx #!/bin/sh # # nginx - this script starts and stops the nginx daemon # # chkconfig: - 85 15 # description: Nginx is an HTTP(S) server, HTTP(S) reverse # proxy and IMAP/POP3 proxy server # processname: nginx # config: /etc/nginx/nginx.conf # config: /etc/sysconfig/nginx # pidfile: /var/run/nginx.pid # Source function library. . /etc/rc.d/init.d/functions # Source networking configuration. . /etc/sysconfig/network # Check that networking is up. [ "$NETWORKING" = "no" ] && exit 0 nginx="/usr/sbin/nginx" prog=$(basename $nginx) NGINX_CONF_FILE="/etc/nginx/nginx.conf" [ -f /etc/sysconfig/nginx ] && . /etc/sysconfig/nginx lockfile=/var/lock/subsys/nginx make_dirs() { # make required directories user=`nginx -V 2>&1 | grep "configure arguments:" | sed ‘s/[^*]*--user=\([^ ]*\).*/\1/g‘ -` options=`$nginx -V 2>&1 | grep ‘configure arguments:‘` for opt in $options; do if [ `echo $opt | grep ‘.*-temp-path‘` ]; then value=http://www.mamicode.com/`echo $opt | cut -d"=" -f 2` if [ ! -d "$value" ]; then # echo "creating" $value mkdir -p $value && chown -R $user $value fi fi done } start() { [ -x $nginx ] || exit 5 [ -f $NGINX_CONF_FILE ] || exit 6 make_dirs echo -n $"Starting $prog: " daemon $nginx -c $NGINX_CONF_FILE retval=$? echo [ $retval -eq 0 ] && touch $lockfile return $retval } stop() { echo -n $"Stopping $prog: " killproc $prog -QUIT retval=$? echo [ $retval -eq 0 ] && rm -f $lockfile return $retval } restart() { configtest || return $? stop sleep 1 start } reload() { configtest || return $? echo -n $"Reloading $prog: " killproc $nginx -HUP RETVAL=$? echo } force_reload() { restart } configtest() { $nginx -t -c $NGINX_CONF_FILE } rh_status() { status $prog } rh_status_q() { rh_status >/dev/null 2>&1 } case "$1" in start) rh_status_q && exit 0 $1 ;; stop) rh_status_q || exit 0 $1 ;; restart|configtest) $1 ;; reload) rh_status_q || exit 7 $1 ;; force-reload) force_reload ;; status) rh_status ;; condrestart|try-restart) rh_status_q || exit 0 ;; *) echo $"Usage: $0 {start|stop|status|restart|condrestart|try-restart|reload|force-reload|configtest}" exit 2 esac [root@nginx nginx-1.4.7]# chmod +x /etc/rc.d/init.d/nginx
④、开机启动
[root@nginx nginx-1.4.7]# chkconfig --add nginx [root@nginx nginx-1.4.7]# chkconfig nginx on [root@nginx nginx-1.4.7]# chkconfig --list nginx nginx 0:off 1:off 2:on 3:on 4:on 5:on 6:off
⑤、访问nginx
成功~
本文出自 “斜视天花板” 博客,请务必保留此出处http://lemidi.blog.51cto.com/8601832/1409467