高可用 - 01 闲聊高性能集群

article/2025/9/16 0:05:47

文章目录

  • 什么是集群
  • 集群的特点与功能
    • 1. 高可用性与可扩展性
    • 2. 负载均衡与错误恢复
    • 3. 心跳监测与漂移IP地址
  • 集群的分类
    • 1. 高可用集群
      • 高可用的概念
      • 常见的HA集群
        • 双机冷备
        • 双机热备
        • 双机互备
        • 多机互备
      • 高可用集群软件
    • 2. 负载均衡集群
    • 3. 分布式计算集群
  • HA集群中的相关术语
    • 1.节点
    • 2.资源
    • 3.事件
    • 4.动作

在这里插入图片描述


什么是集群

集群是一组协同工作的服务集合,用来提供比单一服务更稳定、更高效、更具扩展性的服务平台。

在集群的内部,有两个或两个以上的服务实体在协调、配合完成一系列复杂的工作。

  • 集群一般由两个或两个以上的服务器组建而成。每个服务器称为一个集群节点,集群节点之间可以相互通信。

  • 集群应该具有节点间服务状态监控功能,同时还必须具有服务实体的扩展功能,可以灵活地增加和剔除某个服务实体。

  • 集群应该具有故障自动切换功能: 在集群中,同样的服务可以由多个服务实体提供。因而,当一个节点出现故障时,集群的另一个节点可以自动接管故障节点的资源,从而保证服务持久、不间断运行。

  • 一个集群系统必须拥有共享的数据存储 : 因为集群对外提供的服务是一致的,任何一个集群节点运行一个应用时,应用的数据都集中存储在节点共享空间内。而每个节点的操作系统上仅运行应用的服务,同时存储应用程序文件。

在这里插入图片描述


集群的特点与功能

1. 高可用性与可扩展性

在服务出现故障时,集群系统可以自动将服务从故障节点切换到另一个备用节点,从而提供不间断性服务,保证了业务的持续运行。

随着业务量的加大,现有的集群服务实体不能满足需求时,可以向此集群中动态地加入一个或多个服务节点,从而满足应用的需要,增强集群的整体性能


2. 负载均衡与错误恢复

通过集群自身定义的负载分担策略,将客户端的访问分配到下面的各个服务节点

在这里插入图片描述

常见的6种算法:

静态算法:

  1. Round robin (循环):客户端请求按顺序发送到不同的服务实例。 通常要求服务是无状态的。
  2. Sticky round-robin (粘性循环):粘性循环算法是循环算法的改进。 如果某个客户端的第一个请求转到服务A,则后续请求也将转到服务A。
  3. Weighted round-robin (加权循环):管理员可以为每个服务指定权重。 权重较高的处理比其他处理更多的请求。
  4. Hash (哈希):该算法对传入请求的IP或URL应用哈希函数,算的Hash值决定了请求被哪个服务处理。

动态算法

  1. Least connections (最小连接数):一个新的请求被发送到并发连接最少的服务实例。
  2. Least response time (最小响应时间):一个新的请求被发送到响应时间最快的服务实例。

当一个任务在一个节点上还没有完成时,由于某种原因,执行失败,此时,另一个服务节点应该能接着完成此任务,这就是集群提供的错误恢复功能。通过错误的重定向,保证了每个执行任务都能有效地完成。

在这里插入图片描述


3. 心跳监测与漂移IP地址

心跳监控的效率直接影响故障切换时间的长短,集群系统正是通过心跳技术保持节点间内部通信的有效性。

在集群系统中,除了每个服务节点自身的真实IP地址外,还存在一个漂移IP地址. 这个IP地址并不固定。举个例子,在两个节点的双机热备中,正常状态下,这个漂移IP地址位于主节点上,当主节点出现故障后,漂移IP地址自动切换到备用节点。因此,为了保证服务的不间断性,在集群系统中,对外提供的服务IP地址一定要是这个漂移IP地址。

在这里插入图片描述


集群的分类

1. 高可用集群

高可用的概念

高可用集群(High Availability Cluster,HA集群),其中高可用的含义是最大限度地可以使用。此类集群实现的功能是保障用户的应用程序持久、不间断地提供服务。

当应用程序出现故障或者系统硬件、网络出现故障时,应用可以自动、快速从一个节点切换到另一个节点,从而保证应用持续、不间断地对外提供服务,这就是高可用集群实现的功能,


常见的HA集群

常说的双机热备、双机互备、多机互备等都属于高可用集群的范畴,这类集群一般都由两个或两个以上节点组成。


双机冷备

冷备是指当目标设备发生故障或停机后,冷备设备才开始由停机等待状态进入启动运转状态,并承担起故障设备的工作任务。

比如,有两台业务服务器:主服务器和备用服务器。 在主服务器运行时候,通过定时任务自动将数据定时同步到备用服务器上

当主服务器发生故障时,人工方式手动切换到备用服务器上(临时把备份数据库机器的IP改过来用)保障系统的连续运行和服务。主服务器恢复功能后,只需要将备用服务器上的数据拷贝回来,重新启动主服务器即可。


双机热备

典型的双机热备结构如下

在这里插入图片描述

双机热备是最简单的应用模式,即经常说的active/standby方式。它使用两台服务器,一台作为主服务器(action server),负责运行应用程序并对外提供服务,另一台作为备用服务器(standby server),安装和主服务器一样的应用程序,但是并不启动服务,处于待机状态

主机和备机之间通过心跳技术相互监控,监控的资源可以是网络、操作系统,也可以是服务。 可以根据自己的需要,选择需要监控的资源。

当备机监控到主机的某个资源出现故障时,根据预先设定好的策略,首先将IP切换过来,然后将应用程序服务也接管过来,接着就由备机对外提供服务。

由于切换过程时间非常短,因此用户根本感觉不到程序出了问题,而且还进行了切换,从而保障了应用程序持久、不间断地服务。

在这里插入图片描述


双机互备

双机互备是在双机热备的基础上,两个相互独立的应用在两个机器上同时运行,互为主备,即两台服务器既是主机也是备机,当任何一个应用出现故障时,另一台服务器都能在短时间内将故障机器的应用接管过来,从而保障了服务的持续、无间断运行。

优点:双机互备的好处是节省了设备资源,两个应用的双机热备至少需要四台服务器,而双机互备仅需两台服务器即可完成高可用集群功能。

缺点:双机互备也有自身的缺点:在某个节点故障切换后,另一个节点上就同时运行了两个应用的服务,有可能出现负载过大的情况。


多机互备

多机互备是双机热备的技术升级,通过多台机器组成一个集群,可以在多台机器之间设置灵活的接管策略。

举个例子: 某个集群环境由8台服务器组成,3台运行A应用,3台运行B应用,因而,可以将剩余的一台作为3台A服务器的备机,另一台作为3台B服务器的备机,通过这样的部署,合理充分地利用了服务器资源,同时也保证了系统的高可用性。

高可用集群不能保证应用程序数据的安全性,它仅仅解决的是对外提供持久不间断的服务,把由于软件、硬件、网络、人为因素造成的故障而对应用造成的影响降低到最底程度。


高可用集群软件

高可用集群一般是通过高可用软件来实现的。在Linux下常用的高可用软件有开源HeartBeat HA、Red Hat提供的RHCSKeepalived商业软件ROSE、等


2. 负载均衡集群

负载均衡集群(Load Balance Cluster,LB集群)也是由两台或者两台以上的服务器组成,分为前端负载调度和后端节点服务两个部分。负载调度部分负责把客户端的请求按照不同的策略分配给后端服务节点,而后端节点是真正提供应用程序服务的部分。

与HA集群不同的是,在负载均衡集群中,所有的后端节点都处于活动状态,它们都对外提供服务,分摊系统的工作负载。

优点: 负载均衡集群可以把一个高负荷的应用分散到多个节点来共同完成,适用于业务繁忙、大负荷访问的应用系统。

不足的地方:当一个节点出现故障时,前端调度系统并不知道此节点已经不能提供服务,仍然会把客户端的请求调度到故障节点上来,这样访问就会失败。为了解决这个问题,负载调度系统一般都引入了节点监控。

节点监控系统位于前端负载调度机上,负责监控下面的服务节点。当某个节点出现故障后,节点监控系统会自动将故障节点从集群中剔除。当此节点恢复正常后,节点监控系统又会自动将其加入集群中,而这一切对用户来说是完全透明的。

【负载均衡集群的基本结构】

在这里插入图片描述

负载均衡集群可以通过软件方式实现,也可以由硬件设备来完成。Linux下典型的负载均衡软件有开源LVS集群、Oracle的RAC集群等,硬件负载均衡器有F5 Networks等


3. 分布式计算集群

分布式计算集群致力于提供单个计算机所不能提供的强大的计算分析能力,包括数值计算和数据处理,并且倾向于追求综合性能。 可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。

流行的开源分布式计算平台HadoopSpark就是这样的一个分布式计算集群平台。通过这个平台,用户可以轻松地开发和处理海量数据。

在这个平台上,分布式任务是并行运行的,因此处理速度非常快。同时,数据在储存上维护了多个副本,确保能够针对失败的节点重新进行分布处理。
例如,Hadoop的分布式架构,可将大数据直接存储到HDFS这个分布式文件系统上,而Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。

在这里插入图片描述

HA集群中的相关术语

1.节点

运行Heartbeat进程的一个独立主机,称为节点(node)。

节点是HA集群的核心组成部分,每个节点上运行着操作系统和Heartbeat软件服务。在Heartbeat集群中,节点有主次之分,分别称为主节点和备用/备份节点,每个节点拥有唯一的主机名,并且拥有属于自己的一组资源,例如,磁盘、文件系统、网络地址和应用服务等。

主节点上一般运行着一个或多个应用服务。而备用节点一般处于监控状态。

2.资源

资源(resource)是一个节点可以控制的实体,并且当节点发生故障时,这些资源能够被其他节点接管。在Heartbeat集群中,可以当做资源的实体有以下几种。

  • 磁盘分区、文件系统
  • IP地址
  • 应用程序服务
  • NFS

3.事件

事件(event)也就是集群中可能发生的事情。例如,节点系统故障、网络连通故障、网卡故障、应用程序故障等。这些事件都会导致节点的资源发生转移,HA集群的测试也是基于这些事件来进行的。

4.动作

动作(action)是事件发生时HA的响应方式,动作是由shell脚步控制的。例如,当某个节点发生故障后,备份节点将通过事先设定好的执行脚本进行服务的关闭或启动,进而接管故障节点的资源。

在这里插入图片描述


http://chatgpt.dhexx.cn/article/pgF7ZP8D.shtml

相关文章

集群管理

集群管理 应用集群中,我们常常需要让每一个机器知道集群中(或依赖的其他某一个集群)哪些机器是活着的,并且在集群机器因为宕机,网络断链等原因能够不在人工介入的情况下迅速通知到每一个机器。 Zookeeper同样很容易实…

CentOS8系统安装LSF集群管理软件

一、什么是LSF? LSF(Load Sharing Facility)是IBM旗下的一款分布式集群管理系统软件,负责计算资源的管理和批处理作业的调度。常用的分布式集群管理系统软件有PBS、SLURM、LSF。 二、安装环境(虚拟机) 主机…

集群解决方案

集群概念 集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有其它…

集群集群

一、什么是集群 集群(Cluster )是将多个单独存在的服务器,通过集群技术将其集合,构成一个工作组、一台大型的服务器,以单一系统的模式加以管理。 简而言之,集群就是将多台机器组合成一台机器使用。 二、…

集群监控

文章目录 一、监控简介1.1 重要性1.2 常见监控平台1.2.1 Cacti1.2.2 Nagios1.2.3 Zabbix 二、Cacti 监控服务器2.1 组件构成2.1.1 SNMP2.1.2 RRDtool2.1.3 工作架构 2.2 Cacti 监控组件安装配置2.2.1 安装环境(10.10.10.11)2.2.2 安装 rrdtool (10.10.10.11)2.2.3 部署 cacti&a…

群集技术:三款主流服务器集群软件

1、ROSE HA 服务器集群软件 在双机热备的架构中,除了要考虑切换时间外,要根据每个系统的作业环境,包括网路系统是单网或是双 网,数据库的安装和作业内容及用户端的设备是经由广域网路、区域网路接入不同用户有不同的需求&#x…

常见集群(Cluster)软件和技术解析

集群就是通过软件将一组服务器作为一个整体向客户提供资源。这些单个的服务器就是集群的节点。当对外提供资源的节点故障后,集群中其余的节点能够将资源接管起来,继续对客户提供资源。 集群技术的核心就是资源访问控制。由于集群中所有节点都可以访问集群…

【集群】集群的概念(相关知识)、常用工具/算法、常见集群

文章目录 前言一、集群架构1.1 负载调度器1.1.1 常用调度算法1.1.2 LVS模块 1.2 节点服务器1.3 共享储存1.3.1 NFS共享储存1.3.2 NAS存储设备 二、集群2.1 负载均衡2.1.1 定义2.1.2 负载均衡搭建 2.2 高可用2.2.1 定义2.2.2 高可用集群搭建 2.3 高性能运算群集 三、ipvsadm工具…

集群测试工具

DFSIO测试集群I/O性能 DFSIO 用法 hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.X-tests.jar TestDFSIO 15/05/22 19:50:22 INFO fs.TestDFSIO: TestDFSIO.1.8 Missing arguments. Usage: TestDFSIO [genericOptions] -read […

集群监视软件Ganglia

什么是ganglia Ganglia监控软件主要是用来监控系统性能的软件,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到…

Linux集群管理软件clustershell

Linux集群管理软件clustershell 1.简介 机房有大概百台的服务器需要管理,加上需要搭建Hadoop以及Spark集群等,因此,一个轻量级的集群管理软件就显得非常有必要了。经过一段时间的了解以及尝试,最终选择了clustershell这个软件&…

计算机集群

计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有…

HAProxy集群与常见的Web集群软件调度器对比

目录 一.常见的Web集群调度器 二.HAProxy基本介绍 1.HAProxy是什么? 2.HAProxy的特性 3.HAProxy常用的8种负载均衡调度算法 3.1 轮询:RR(Round Robin) 3.2 最小连接数:LC(Least Connections&#xf…

[Linux基础与服务管理——常用集群高可用软件 Keepalived]

1.Keepalived 简介 Keepalived是Linux下的一个免费的、轻量级的高可用解决方案。是一个由C语言编写的路由软件,主要目标是为Linux系统和基于Linux的基础架构提供简单而强大的负载平衡和高可用性设。Keepalived实现了一组检查器,以根据其健康状况动态地和…

高性能集群软件keepalived

背景 网络的飞速发展,给网络带宽和服务器性能带来了巨大的挑战,基于互联网的应用系统越来越多地瓶颈出现在服务器端,这就对服务器提出了更高的要求,来保证服务的持续性。 集群简介 定义:集群是一组协同工作的服务集合…

集群分为几种,用的软件分别是什么?

集群分为几种,用的软件分别是什么? 补充:涉及的组件 1.1、apache 跨平台的网页服务器,主要使用它做静态资源服务器,也可以做代理服务器转发请求 1.2、ngnix 高性能的 HTTP和反向代理服务器,ngnix处理能力相当于apache…

Linux下的5款主流高可用集群软件介绍

Linux集群主要分成三大类:高可用集群(High Availability Cluster)、负载均衡集群(Load Balance Cluster)、科学计算集群(High Performance Computing Cluster)。 其中高可用集群具有保障应用程序持续提供服务的能力,可以将因软、硬件、人为造成的故障对业务的影响降低到最小…

Horizon Daas 桌面报错:desktop agent通信错误

一、故障描述 上述错误是因无法解析来自身份验证错误响应中的错误时,会报出。这往往时由于horizon client与TA,view agent之间的通信中断造成的。造成在desktone.log日志里可看到相关warning或error,如下所示: 二、分析处理 1、…

一文看懂数据服务DaaS

数据是国家的,金融是国家的。朕不给,你不能要。 (1)中国数据服务 一、数据工具 像云计算厂商搞的大数据平台,就是这个定位。它们纯搞产品,做好品牌,做好合作伙伴招募,由合作伙伴去做…

IaaS、PaaS、SaaS、DaaS的区别与联系

按照服务划分,云计算可以分为IaaS、PaaS、SaaS、DaaS四个层次。 IaaS(Infrastructure as a Service,基础架构即服务)是基础层。在这一层,通过虚拟化、动态化将IT基础资源(计算、网络、存储)聚合…