首页 > 代码库 > linux集群系列(1) --- Linux集群系统基础

linux集群系列(1) --- Linux集群系统基础

一、简介

    1.1. Linux集群系统包括集群节点集群管理器两部分。

   集群节点有时简称为节点、服务器或服务器节点,是提供处理资源的系统,它进行集群的实际工作。一般来讲,它必须进行配置才能成为集群的一部分,也必须运行集群的应用软件。应用软件可以是专用于集群的软件,也可以是设计用于分布式系统的标准软件。

    Linux集群管理器则是将节点捆绑在一起,以构成单一系统外观的逻辑结构,它用于将任务分解到所有的节点。集群因多种不同的原因而有着不同的类型,建立Linux集群的最直接原因是共享CPU资源,在多个机器之间平衡负载,获得更多的系统可靠性,或在主机失败时提供后备系统(切换)。

    1.2. 最常见的三种集群类型包括:

   负载均衡集群:     LB:  load balancing

   高可用性集群:     HA: High Availability

  高性能也叫科学集群:  HP:  High Performance 


    1.3. 通过对相关软件的分析,实现集群负载的功能是通过流量管理实现的,有以下几种实现方法:

    直接路由(Direct Forwarding)是当参与集群的计算机和作为控制管理的计算机在同一个网段时可以使用此法。控制管理的计算机接收到请求包时,直接送到参与集群的节点。它的优点是返回给客户的流量不经过控制主机,速度快、开销少。

    可能大家比较熟悉网络地址转换(NAT)这种方法。地址转换器有能被外界访问到的合法IP地址,它修改来自专有网络的流出包的地址,外界看起来包是来自地址转换器本身。当外界包送到转换器时,它能判断出应该将包送到内部网的哪个节点。它的优点是节省IP地址,能对内部进行伪装;缺点是效率低,因为返回给请求方的流量要经过转换器。

    隧道技术(Tunneling)这种方式是Linux集群的节点不在同一个网段时采用的转发机制,是将IP包封装在其它网络流量中。从安全角度考虑,应该使用隧道技术中的VPN,也可使用租用专线。

    1.4. Linux集群所能提供的服务是基于TCP/IP的Web服务、Mail服务、News服务、DNS服务和Proxy服务器等。


集群系统的主要优点:

 高可扩展性:

 高可用性:集群中的一个节点失效,它的任务可以传递给其他节点。可以有效防止单点失效。

 高性能:负载平衡集群允许系统同时接入更多的用户。

 高性价比:可以采用廉价的符合工业标准的硬件构造高性能的系统



、集群类型1:LB ( load balancing )


3.1. 最常见的三种集群类型:

 3.1.1. 负载均衡集群:LB (load balancing)

  负载均衡集群为企业需求提供了更实用的系统。如名称所暗示的,该系统使负载可以在计算机集群中尽可能平均地分摊处理。该负载可能是需要均衡的应用程序处理负载或网络流量负载。这样的系统非常适合于运行同一组应用程序的大量用户。每个节点都可以处理一部分负载,并且可以在节点之间动态分配负载,以实现平衡。对于网络流量也是如此。通常,网络服务器应用程序接受了太多入网流量,以致无法迅速处理,这就需要将流量发送给在其它节点上运行的网络服务器应用。还可以根据每个节点上不同的可用资源或网络的特殊环境来进行优化。


 3.1.2.硬件负载均衡(Hardware): 1、F5,BIG IP 2、Citrix,Netscaler 3、A10

 3.1.3. 软件负载均衡(Software): 1、四层设备LVS  


负载均衡技术主要应用

1、DNS负载均衡 最早的负载均衡技术是通过DNS来实现的,在DNS中为多个地址配置同一个名字,因而查询这个名字的客户机将得到其中一个地址,从而使得不同的客户访问不同的服务器,达到负载均衡的目的。DNS负载均衡是一种简单而有效的方法,因此,对于同一个名字,不同的客户端会得到不同的地址,他们也就连结不同地址上的Web服务器,从而达到负载平衡的目的。例如 : 当客户端连结 www.51cto.com这名称时,DNS 有能力依序将名称解析到 202.1.1.1 、 202.1.1.2 、202.1.1.3和 202.1.1.4等不同的网络地址,而这些是提供相同服务的主机,让客户端不自觉有不同 .
2、代理服务器负载均衡 使用代理服务器,可以将请求转发给内部的服务器,使用这种加速模式显然可以提升静态网页的访问速度。然而,也可以考虑这样一种技术,使用代理服务器将请求均匀转发给多台服务器,从而达到负载均衡的目的。 
3、地址转换网关负载均衡 支持负载均衡的地址转换网关,可以将一个外部IP地址映射为多个内部IP地址,对每次TCP连接请求动态使用其中一个内部地址,达到负载均衡的目的。
4、协议内部支持负载均衡 除了这三种负载均衡方式之外,有的协议内部支持与负载均衡相关的功能,例如HTTP协议中的重定向能力等,HTTP运行于TCP连接的最高层。
5、NAT负载均衡 NAT(Network Address Translation 网络地址转换)简单地说就是将一个IP地址转换为另一个IP地址,一般用于未经注册的内部地址与合法的、已获注册的Internet IP地址间进行转换。适用于解决Internet IP地址紧张、不想让网络外部知道内部网络结构等的场合下。
6、反向代理负载均衡 普通代理方式是代理内部网络用户访问internet上服务器的连接请求,客户端必须指定代理服务器,并将本来要直接发送到internet上服务器的连接请求发送给代理服务器处理。反向代理(Reverse Proxy)方式是指以代理服务器来接受internet上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给internet上请求连接的客户端,此时代理服务器对外就表现为一个服务器。反向代理负载均衡技术是把将来自internet上的连接请求以反向代理的方式动态地转发给内部网络上的多台服务器进行处理,从而达到负载均衡的目的。
7、混合型负载均衡 在有些大型网络,由于多个服务器群内硬件设备、各自的规模、提供的服务等的差异,我们可以考虑给每个服务器群采用最合适的负载均衡方式,然后又在这多个服务器群间再一次负载均衡或群集起来以一个整体向外界提供服务(即把这多个服务器群当做一个新的服务器群),从而达到最佳的性能。我们将这种方式称之为混合型负载均衡。此种方式有时也用于单台均衡设备的性能不能满足大量连接请求的情况下。


3.2. LVS:Linux Virtual Server  四层路由设备

  3.2.1. Virtual Server via NAT (VS-NAT):地址转换型

  用地址翻译实现虚拟服务器地址转换器有能被外界访问到的合法IP地址,它修改来自专有网络的流出包的地址外界看起来包是来自地址转换器本身,当外界包送到转换器时,它能判断出应该将包送到内部网的哪个节点优点是节省IP地址,能对内部进行伪装;缺点是效率低,因为返回给请求方的流量经过转换器。

整个过程如图:CIP为客户Client的IP,VIP为服务器对外的IP,RIP为内部真实服务器的IP,DIP为主管Director IP

技术分享

    1、集群(cluster)节点跟Director必须在同一个IP网络中;

    2、RIP(real server IP)通常是私有地址,仅用于各集群节点间的通信;

    3、Director位于client和real server之间,并负责处理进出的所有通信

    4、real server必须将网关指向DIP;

    5、支持端口映射

    6、real server可以使用任意OS;

    7、较大规模应用场景中,director易成为系统瓶颈;


  3.2.2. Virtual Server via Direct Routing (VS-DR): 直接路由  

  用直接路由技术实现虚拟服务器当参与集群的计算机和作为控制管理的计算机在同一个网段时可以用此法,控制管理的计算机接收到请求包时直接送到参与集群的节点直接路由模式比较特别,很难说和什么方面相似,前2种模式基本上都是工作在网络层上(三层),而直接路由模式则应该是工作在数据链路层上(二层)。

  其原理为,DR和REAL SERVER都使用同一个IP对外服务。但只有DR对ARP请求进行响应,所有REAL SERVER对本身这个IP的ARP请求保持静默。也就是说,网关会把对这个服务IP的请求全部定向给DR,而DR收到数据包后根据调度算法,找出对应的 REAL SERVER,把目的MAC地址改为REAL SERVER的MAC并发给这台REAL SERVER。这时REAL SERVER收到这个数据包,则等于直接从客户端收到这个数据包无异,处理后直接返回给客户端。由于DR要对二层包头进行改换,所以DR和REAL SERVER之间必须在一个广播域,也可以简单的理解为在同一台交换机上。

DR模式:DR模式是这样工作的,当CIP访问VIP后,VIP把数据包通过DIP转交给RIP,RIP在收到数据包后通过网卡别名欺骗(节点的网卡配置别名,IP为VIP),直接用别名的VIP相应客户端,从而加快了回应速度,也避免了Director成为地址转换的单点故障.目前主要应用的为DR模式的负载均衡.

技术分享

    1、集群节点跟director必须在同一个物理网络中

    2、RIP可以使用公网地址,实现便捷的远程管理和监控

    3、director仅负责处理入站请求,响应报文则由real server直接发往客户端;

    4、real server不能将网关指向DIP;

    5、不支持端口映射


  3.2.3. Virtual Server via IP Tunneling (VS-TUN): 隧道 

  用IP隧道技术实现虚拟服务器这种方式是在集群的节点不在同一个网段时可用的转发机制,是将IP包封装在其他网络流量中的方法为了安全的考虑,应该使用隧道技术中的VPN,也可使用租用专线 集群所能提供的服务是基于TCP/IP的Web服务Mail服务News服务DNS服务Proxy服务器等等.

  TUN模式:采用NAT技术时,由于请求和响应报文都必须经过调度器地址重写,当客户请求越来越多时,调度器的处理能力将成为瓶颈。为了解决这个问题,调度器把请求报文通过IP隧道转发至真实服务器,而真实服务器将响应直接返回给客户,所以调度器只处理请求报文。由于一般网络服务应答比请求报文大许多,采用 VS/TUN技术后集群系统的最大吞吐量可以提高10倍。(通过重写ip来实现,真实服务器直接回复客户端。tun原理请参阅VPN原理!),与上图比较,注意节点的VIP和RIP的区别.

技术分享


    1、集群节点可以跨越Internet;

    2、RIP必须是公网地址;

    3、director仅负责处理入站请求,响应报文则由real server直接发往客户端;

    4、real server不能将网关指向DIP;

    5、只有支持隧道功能的OS才能用于real server;

    6、不支持端口映射;


  3.2.4.IPVS调度器实现了如下八种负载调度算法 

·1.轮叫(Round Robin

  调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上,它均等地对待每一台服务器,而不管服务器上实际的连接数和系统负载。


·2.加权轮叫(Weighted Round Robin

  调度器通过"加权轮叫"调度算法根据真实服务器的不同处理能力来调度访问请求。这样可以保证处理能力强的服务器处理更多的访问流量。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。


·3.最少链接(Least Connections

  调度器通过"最少连接"调度算法动态地将网络请求调度到已建立的链接数最少的服务器上。如果集群系统的真实服务器具有相近的系统性能,采用"最小连接"调度算法可以较好地均衡负载


·4.加权最少链接(Weighted Least Connections

  在集群系统中的服务器性能差异较大的情况下,调度器采用"加权最少链接"调度算法优化负载均衡性能,具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动问询真实服务器的负载情况,并动态地调整其权值。


·5.基于局部性的最少链接(Locality-Based Least Connections

  此调度算法是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器,若该服务器是可用的且没有超载,将请求发送到该服务器;若服务器不存在,或者该服务器超载且有服务器处于一半的工作负载,则用"最少链接"的原则选出一个可用的服务器,将请求发送到该服务器。


·6.带复制的基于局部性最少链接(Locality-Based Least Connections with Replication

  此调度算法也是针对目标IP地址的负载均衡,目前主要用于Cache集群系统。它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务器的映射,而LBLC算法维护从一个目标IP地址到一台服务器的映射。该算法根据请求的目标IP地址找出该目标IP地址对应的服务器组,按"最小连接"原则从服务器组中选出一台服务器,若服务器没有超载,将请求发送到该服务器,若服务器超载;则按"最小连接"原则从这个集群中选出一台服务器,将该服务器加入到服务器组中,将请求发送到该服务器。同时,当该服务器组有一段时间没有被修改,将最忙的服务器从服务器组中删除,以降低复制的程度。


·7.目标地址散列(Destination Hashing

  此调度算法根据请求的目标IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。


·8.源地址散列(Source Hashing

  此调度算法根据请求的源IP地址,作为散列键(Hash Key)从静态分配的散列表找出对应的服务器,若该服务器是可用的且未超载,将请求发送到该服务器,否则返回空。

 

3.3.七层设备、反向代理软件: nginx (http,smtp,pop3,imap)   haproxy (http,tcp(mysql,smtp)) 



、集群类型2:HA  ( High Availability )


  高可用性集群的出现是为了使集群的整体服务尽可能可用,以便考虑计算硬件和软件的易错性。如果高可用性集群中的主节点发生了故障,那么这段时间内将由次节点代替它。次节点通常是主节点的镜像,所以当它代替主节点时,它可以完全接管其身份,并且因此使系统环境对于用户是一致的。

  在集群的这三种基本类型之间,经常会发生混合与交杂。于是,可以发现高可用性集群也可以在其节点之间均衡用户负载,同时仍试图维持高可用性程度。同样,可以从要编入应用程序的集群中找到一个并行集群,它可以在节点之间执行负载均衡。尽管集群系统本身独立于它在使用的软件或硬件,但要有效运行系统时,硬件连接将起关键作用。


4.1. 什么是高可用集群 

  高可用集群,英文原文为High Availability Cluster,简称HA Cluster,是指以减少服务中断(如因服务器宕机等引起的服务中断)时间为目的的服务器集群技术。简单的说,集群(cluster)就是一组计算机,它们作为一个整体向用户提供一组网络资源。这些单个的计算机系统就是集群的节点(node)。

  高可用集群的出现是为了使集群的整体服务尽可能可用,从而减少由计算机硬件和软件易错性所带来的损失。它通过保护用户的业务程序对外不间断提供的服务,把因软件/硬件/人为造成的故障对业务的影响降低到最小程度。如果某个节点失效,它的备援节点将在几秒钟的时间内接管它的职责。因此,对于用户而言,集群永远不会停机。高可用集群软件的主要作用就是实现故障检查和业务切换的自动化。

  只有两个节点的高可用集群又称为双机热备,即使用两台服务器互相备份。当一台服务器出现故障时,可由另一台服务器承担服务任务,从而在不需要人工干预的情况下,自动保证系统能持续对外提供服务。双机热备只是高可用集群的一种,高可用集群系统更可以支持两个以上的节点,提供比双机热备更多、更高级的功能,更能满足用户不断出现的需求变化。 

技术分享


4.2. 为什么要使用高可用集群?


  先来看一组数据说明: 系统可用性分类 

可用比例

(Percent 

Availability) 

年停机时间
(downtime/year) 

可用性分类

99.5

3.7天

常规系统(Conventional)

99.9

8.8小时

可用系统(Available)

99.99

52.6分钟

高可用系统(Highly Available)

99.999

5.3分钟

Fault Resilient

99.9999

32 秒

Fault Tolerant


 对于关键业务,停机通常是灾难性的。因为停机带来的损失也是巨大的。下面的统计数字列举了不同类型企业应用系统停机所带来的损失。

应用系统

每分钟损失(美元)

呼叫中心(Call Center)

27000

企业资源计划(ERP)系统

13000

供应链管理(SCM)系统

11000

电子商务(eCommerce)系统

10000

客户服务(CustomerServiceCenter)系统

27000

随着企业越来越依赖于信息技术,由于系统停机而带来的损失也越拉越大。

 

4.3.高可用集群主要是在linux平台搭建的,常用实现高可用的解决方案如下:


 4.3.1.开放源代码的HA项目 (http://www.linux-ha.org/)
linux-HA 项目历史悠久, 很多linux 发行附带的HA集群都是采用了linux-HA 的heartbeat系统和相关的组件.需要构建完全的开源,自由而且免费的高可用集群的用户可以选择.


 4.3.2.RedHat公司的开放源代码RedHat Cluster Suite, 简称RHCS . (产品介绍http://www.redhat.com/solutions/clustersuite/)
- RHCS实际上是一个套件,除了现在提到的高可用集群软件,还包含了一个基于LVS的负载均衡软件.
- RHCS包含的集群软件,是GPL协议下开放源代码的集群系统. 
- RHCS目前的版本有 RHCS v3和 v4,分别对应于RedHat 企业版Linux的 3.0家族和4.0家族.
- RHCS是一个独立的产品,不包括在RedHat Enterprise Linux当中,无论是购买还是下载,都是单独存在的.(其实就是heartbeat的改进版,改个名,加入了些东西)

 4.3.3.Novell公司的开放源代码高可用集群HA套件

Novell 公司并购了欧洲Linux第一大厂SuSE之后,成为全球能够抗衡RedHat的主要力量. 

SuSE企业版Linux 带有一套开放源代码的HA集群软件,包括 HA project的heartbeat, heartbeat-ldirectord, heartbeat-pils, heartbeat-stonith, 集群关联的存储软件drbd, 虚拟IP的 src_vipa软件.和RHCS不同的是,SuSE/Novell 企业版Linux自带的 HA集群软件并非一个独立的软件,如上介绍,而是由不同的开放源代码项目提供的不同部分的程序。

 4.3.4.Novell公司的Novell Cluster Service

Novell 在败落前,曾经是一家非常伟大的公司,有着非常雄厚的技术力量。 早在10多年前,Novell公司就在集群领域独树一帜,是当时唯一能够在PC服务器上构建出32节点集群的厂商.
Novell收购SuSE公司之后,将原来在Novell netware操作系统上的大量企业级应用移植和整合到了SuSE Linux Enterprise Linux平台, Novell 当时名震集群领域的Novell Cluster Service 也被整合移植到了Linux平台.
Novell Cluster Service是一个商业系统,并非开放源代码产品
这里可以看到细节
http://www.novell.com/products/openenterpriseserver/ncs.html

 4.3.5.Steeleye Lifekeeper for linux (产品介绍
http://www.steeleye.com/)

steeleye 公司是集群行业非常著名的公司,他们的集群系统最早是AT&T 贝尔实验室开发的,后来被卖给了金融行业的著名IT公司NCR公司。(不少朋友到ATM取钱的时候也许会看到NCR制造的ATM机). lifekeeper集群的历史非常悠久,后来steeleye又得到了几个从当时的巨头DEC跳槽来的核心开发人员.因此lifekeeper的构架和品质是有非常好的口碑的.

 4.3.6.HP MC/Service Guard for linux

(http://h71028.www7.hp.com/enterprise/cache/6468-0-0-0-121.aspx)  


HP在和Compaq合并之前,在HP-UX平台有一套旗舰级的高可用集群系统(MC/SG for HP-UX),被广泛部署在各种关键业务计算领域。比如银行,电信,金融等等。主要的硬件平台是PA-RISC架构的小型机和中型机系统.
Compaq在和HP合并之前,在Alpha 平台有一套旗舰级的高可用集群,叫做(TruCluster).被广泛部署在各种关键业务计算领域,比如国防,航天,制造等等。主要的硬件平台是Alpha架构的小型机和中型机.
随着两个公司的合并,两套著名的集群系统也完成了合并,新的产品仍旧叫做MC/SG,但是可以跑在PA-RISC, IA, IA64平台.
5年前,HP将MC/SG集群系统移植到了linux平台,并发展至今. HP MC/SG for linux有着非常高的品质和长期在高度关键业务要求的领域发展的背景。

 4.3.7. Turbolinux 高可用集群系统
Turbolinux 这几年发展的颇不顺利,从创始人走人到公司在日本的股权变动. 颇让人担忧。
TurboLinux 的高可用集群软件有两个.
a. TurboLinux Cluster HA 3.1 
b. TurboLinux8 ClusterPro
因为都没有在具体的项目中深入用过,不做更多解释.

 

 

4.3.最常用的heartbeat为例介绍高可用集群:

  下图是一个Heartbeat集群的一般拓扑图。在实际应用中,由于节点的数目、网络结构和磁盘类型配置的不同,拓扑结构可能会有不同。

技术分享

Heartbeat的组成:

Heartbeat提供了高可用集群最基本的功能,例如,节点间的内部通信方式、集群合作管理机制、监控工具和失效切换功能等。目前的最新版本是Heartbeat 2.x,这里的讲述也是以Heartbeat 2.x为主。下面介绍Heartbeat 2.0的内部组成,主要分为以下几大部分。

技术分享

heartbeat:节点间通信检测模块。

ha-logd:集群事件日志服务。

CCM(Consensus Cluster Membership):集群成员一致性管理模块。

LRM(Local Resource Manager):本地资源管理模块。

Stonith Daemon:使出现问题的节点从集群环境中脱离。

CRM(Cluster Resource Management):集群资源管理模块。

Cluster policy engine:集群策略引擎。

Cluster transition engine:集群转移引擎。

 

从上图中可以看出,Heartbeat内部结构由三大部分组成。  

(1)集群成员一致性管理模块(CCM)

CCM用于管理集群节点成员,同时管理成员之间的关系和节点间资源的分配。Heartbeat模块负责检测主次节点的运行状态,以决定节点是否失效。ha-logd模块用于记录集群中所有模块和服务的运行信息。

(2)本地资源管理器(LRM)

LRM负责本地资源的启动、停止和监控,一般由LRM守护进程lrmd和节点监控进程Stonith Daemon组成。lrmd守护进程负责节点间的通信;Stonith Daemon通常是一个Fence设备,主要用于监控节点状态,当一个节点出现问题时处于正常状态的节点会通过Fence设备将其重启或关机以释放IP、磁盘等资源,始终保持资源被一个节点拥有,防止资源争用的发生。

(3)集群资源管理模块(CRM)

CRM用于处理节点和资源之间的依赖关系,同时,管理节点对资源的使用,一般由CRM守护进程crmd、集群策略引擎和集群转移引擎3个部分组成。集群策略引擎(Cluster policy engine)具体实施这些管理和依赖;集群转移引擎(Cluster transition engine)监控CRM模块的状态,当一个节点出现故障时,负责协调另一个节点上的进程进行合理的资源接管。

在Heartbeat集群中,最核心的是Heartbeat模块的心跳监测部分和集群资源管理模块的资源接管部分。心跳监测一般由串行接口通过串口线来实现,两个节点之间通过串口线相互发送报文来告诉对方自己当前的状态。如果在指定的时间内未受到对方发送的报文,就认为对方失效,这时资源接管模块将启动,用来接管运行在对方主机上的资源或者服务


 


、集群类型3:HP  ( High Performance )


  通常,第一种涉及为集群开发并行编程应用程序,以解决复杂的科学问题。这是并行计算的基础,尽管它不使用专门的并行超级计算机,这种超级计算机内部由十至上万个独立处理器组成。但它却使用商业系统,如通过高速连接来链接的一组单处理器或双处理器 PC,并且在公共消息传递层上进行通信以运行并行应用程序。因此,您会常常听说又有一种便宜的 Linux 超级计算机问世了。但它实际是一个计算机集群,其处理能力与真的超级计算机相等,通常一套象样的集群配置开销要超过 $100,000。这对一般人来说似乎是太贵了,但与价值上百万美元的专用超级计算机相比还算是便宜的。


  这种集群一般企业或者个人很少应用到, 高性能计算群集HPC。它可以解决世界上最为复杂和艰巨的计算难题,并且能够轻松处理。在气象建模、模拟撞车试验、人体基因绘图以及核爆炸模拟等多种与人类生命相关的重要领域都要用到HPC。随着其性能突飞猛进的提高和成本的急剧下降,HPC迅速走出科学研究实验室,步入主流商业领域。通过将集群和大型SMP系统的性能进行完美结合,HPC正在步入网格计算时代,它将使任何人都能随时随地、经济高效地进行计算,在商业上得到更好的应用。众多企业都被其几乎不可抗拒特性和优势所打动,并争相进行部署。除政府、教育和国家实验室等公共部门之外,HPC在制造、金融、能源、生命科学和数字媒体等行业都广受青睐。(此类集群应用有一定局限性,笔者接触不多,不做过多介绍。)


  5.1.下面是一公司的高性能集群组成图:

技术分享

基础架构:聚合结点、网络以及存储等硬件子系统的基础设施,提供整个集群系统的供电、散热、布线等功能<登录结点:用户登录到集群的工作场所,用户通过它来完成程序的编译调试等工作
计算结点:用于执行用户程序的结点服务器。
存储结点:是挂接存储设备、向系统中的其它结点提供存储服务的服务器。
监控结点:用来监控系统各部分的运行状态、进行远程电源管理和事件告警服务等工作。
存储交换网络:用来连接存储结点和磁盘阵列。
计算网:计算结点在运行程序时的通信设施。由高速的通信网络构成,如Infiniband网络。
管理网:用于集群系统管理的网络,一般采用千兆以太网。
视频切换系统:通过它可以将选定结点机的keyboard、video和mouse重定向到监控台上,从而可以在监控台上对结点进行各种终端的操作


  5.2.集群软件系统结构图:

技术分享

设备系统固件层:通信软件和外部设备在适配器上的固件程序
结点系统软件层:结点操作系统及其核心扩展,如操作系统、设备驱动程序、文件系统扩展等
集群系统软件层:集群单一映象的操作管理软件。包括集群管理系统、集群监控系统、作业调度系统等 

应用支撑环境层:科学计算应用的支撑平台。如并行环境、数学库、多核线程调试工具等
应用程序层:科学工程计算类的实际应用。


---end---

本文出自 “风过无痕” 博客,请务必保留此出处http://wangfx.blog.51cto.com/1697877/1955766

linux集群系列(1) --- Linux集群系统基础