首页 > 代码库 > 深入理解keepalived+lvs

深入理解keepalived+lvs

深入理解keepalived+lvs


keepalived篇


master和bakeup之间的通信(vrrp协议)

master : 172.25.88.1
bakeup :172.25.88.2



1.在matser上抓vrrp的包

[root@server1 ~]# /etc/init.d/keepalived start
Starting keepalived:                                       [  OK  ]
[root@server1 ~]# tcpdump vrrp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes
15:07:23.710761 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:24.711710 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:25.712926 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:26.713916 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:27.714890 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20

发现master在向224.0.0.18发送广播包,分析包文的值优先级为102,是我们的master

2.在bakeup上抓vrrp的包

[root@server2 ~]# /etc/init.d/keepalived start
Starting keepalived:                                       [  OK  ]
[root@server2 ~]# tcpdump vrrp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes
15:07:38.022848 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:39.023899 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:40.024861 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:41.025770 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20
15:07:42.026831 IP 172.25.88.1 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 102, authtype simple, intvl 1s, length 20

由此发现,master工作时,bakeup不发送vrrp包,只是接受并返回master的包

3.将master的keepalived down了

[root@server1 ~]# /etc/init.d/keepalived stop
Stopping keepalived:                                       [  OK  ]

再次抓包

[root@server1 ~]# tcpdump vrrp
tcpdump: verbose output suppressed, use -v or -vv for full protocol decode
listening on eth0, link-type EN10MB (Ethernet), capture size 65535 bytes
15:22:43.293115 IP 172.25.88.2 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 52, authtype simple, intvl 1s, length 20
15:22:44.293714 IP 172.25.88.2 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 52, authtype simple, intvl 1s, length 20
15:22:45.294471 IP 172.25.88.2 > 224.0.0.18: VRRPv2, Advertisement, vrid 188, prio 52, authtype simple, intvl 1s, length 20

由优先级 prio 52可知,现在已经是bakeup在组播vrrp包。


总结:master只发不收,bakeup反之

其他主机也收不到vrrp包,因为有route_id限制



关于接管


BACKUP在确认没有收到MASTER的广播报文后,会主动发送组播报文,声明自己的keepalived状态,随后启用VIP。正式接管keepliaved。


关于谁来当master


1.当两个state均为master时,prio大的为master
2.当两个state均为master时且prio优先级相同时,双方都认为自己是master,双方会出现抢占ip的情况,导致地址冲突。


特殊说明


1.实现不回切 bakeup

vim /etc/keepalived/keepalived.conf

 29     no preempt      非抢占模式
 30     priority 150    且proi要比master大,我的master的proi为100

2.主备的virtual_router_id要相同,否则都会发组播报文

    virtual_router_id 188




lvs篇


工作机制


我们都知道netfilter加载iptables模块,实现了防火墙。

其实lvs,就是netfilter加载ipvs模块实现的!

lvs分为ipvs(内核)和ipvsadm(用户空间)两部分:

用户用过ipvsadm编写策略,而内核加载ipvs在netfilter生效!

ipvs 结合input链(也叫钩子函数)工作,发现用户请求的是一个集群服务,就转发至forward,转发至postrouting链,进入RS(后端服务器 )。



类型


1.nat 地址转换

定义:多目标的dnat(目标地址转换)

cip->vip->rip->vip->cip

技术分享

进出的连接都要经过DS,DR压力大,只能负载均衡10个rs左右。


rule:

1)DR和RS必须在同一个网络中。
2)RS网关指向DIP,因为DR要修改目的地址由VIP->RIP
3)RIP为私有地址,仅用于集群通信。
4)DR位于client和real server之间,负责处理所有通信,亚历山大,成为瓶颈。
5)DR支持端口映射。

6)RS可以使用任意系统


2.dr 直接路由

原理:DS在数据链路层直接修改mac地址,源IP和目标IP都没有改变

技术分享

只有进入的连接经过DS,能负载均衡100个rs左右。

DS:dip,vip
RS:rip,vip
vip是隐藏的,仅仅作为源地址不通信。可以配置在lo上,或者设置arp防火墙,
通信还是靠rip所在的网络设备


rule:

1)DR和RS必须在同一个物理网络中(同一网段)
2)RS一定网关不能指向DIP。
3)RIP不一定是私有地址,可以ssh上来管理,但有危险。
4)DR仅处理入栈请求,响应报文由RS发往client。
5)DR不支持端口映射,因为请求端口的时候,RS直接响应。
6)RS可以使用大多数操作系统,因为RS要隐藏vip。。



3.tun 隧道


基本同DR,但转发的时候,要封装隧道,再添加一个ip首部。


rule:

1)DR和RS必须可以跨越互联网
2)RIP必须是公网地址
3)DR仅处理入栈请求,响应报文由RS发往client。
4)响应报文一定不能通过DR
5)不支持端口映射 6)RS必须支持隧道协议OS

4.fullnat


调度算法(schedule method)


分为静态和动态:动态则考虑服务器的负载。



静态调度算法(4个)

     1.rr(轮叫调度)

     2.wrr(加权轮叫)

    3.sh(源地址哈希):基于session的会话绑定。一个用户访问过某个RS,下次访问就由这个RS给他提供服务。

    4.dh(目的地址哈希):不同用户,相同的访问需求,就访问同一个RS。


活动链接(active):客户与服务器建立连接并且有数据传送

非活动链接(inactive):只是建立连接,没有数据传送,没有断开连接


动态调度算法(6个)

     1.lc(最少链接):

                算法:active*256 + inactive

                因为在实际生产环境中,inactive的数量是巨大的,所以不能忽略


     2.wlc(加权最少链接)    LVS的默认算法    

               算法:active*256+inactive)/weight        比lc多考虑了权重

        

     3.sed(最短期望延迟

             基于wlc算法,避免wlc出现的问题。

        算法:(active+1)*256/weight (活动的连接数+1)*256/除以权重  谁小发给谁


      4.nq(用不排队)

    谁的链接数为0,直接将请求发送给他,一般和sed结合使用,因为有些机器即使空着也调度不到他。


      5.LBLC(基于本地的最少连接)类似于dh,目标地址hash

              这个算法主要用于Cache集群系统,因为Cache集群的中客户请求报文的目标IP地址的变化,将相同的目标URL地址请求调度到同一台服务器,来提高服务器的访问的局部性和Cache命中率。从而调整整个集群的系统处理能力。但是,如果realserver的负载处于一半负载,就用最少链接算法,将请求发送给活动链接少的主机。


      6.LBLCR(带复制的基于本地的最少链接)

               该算法首先是基于最少链接的,当一个新请求收到后,一定会将请求发给最少连接的那台主机的。但这样又破坏了cache命中率。但这个算法中,集群服务是cache共享的,假设A的PHP跑了一遍,得到缓存。但其他realserver可以去A那里拿缓存,这是种缓存复制机制。



各种术语


DS:Director Server。前端负载均衡调度器。

RS:Real Server。后端真实工作的服务器。

VIP:向外部直接面向用户请求,作为用户请求的目标的IP地址。

DIP:Director Server IP,主要用于和服务器内部通讯的IP。

RIP:Real Server IP,后端真实服务器的IP地址。

CIP:Client IP,客户端的IP地址。

端口映射:如用户访问80,可在RS上服务实际工作在8080。(只有dnat支持)


深入理解keepalived+lvs