常见集群(Cluster)软件和技术解析

article/2025/9/16 1:22:45

集群就是通过软件将一组服务器作为一个整体向客户提供资源。这些单个的服务器就是集群的节点。当对外提供资源的节点故障后,集群中其余的节点能够将资源接管起来,继续对客户提供资源

集群技术的核心就是资源访问控制。由于集群中所有节点都可以访问集群对外共享的资源,当多个节点同时操作同一个资源的时候,就可能引发问题。例如节点A要对共享的存储进行写数据操作,如果节点B也要对相同位置的存储进行写操作,则会引发数据不一致的后果。

一般情况,根据集群资源访问控制技术的发展,我们可以将集群分为无预留模式SCSI-2预留模式和SCSI-3预留模式集群。不同模式的集群对存储系统的要求是不同的。

最开始的时候,集群的模式为无预留。该模式下,最常见的控制方式是控制卷组状态。此时集群节点访问LUN的过程如下。

  • 1. 集群节点上对LUN创建卷组、逻辑卷。

  • 2. 集群节点启动集群业务。

  • 3. 集群判断哪个节点是主节点、哪个节点是备节点。

  • 4. 集群在主节点激活卷组、挂载逻辑卷。

  • 5. 集群在备节点去激活卷组,确保无法访问逻辑卷。

这种工作模式下,对存储系统并没有额外的要求,只需要映射的LUN能够在操作系统上创建卷组、逻辑卷并正常读写即可。集群控制每个节点对LUN的访问是通过控制节点上卷组的状态来实现的。

这种方式实现起来是最简单的,但是有一个非常严重的缺陷就是心跳不能出现问题。一旦出现脑裂(集群节点间心跳通信断开),集群节点间相互失去了联系,则每个节点都会误认为对方出现故障,从而引发节点抢占资源的情况。

另外,在一个共享存储的环境下,多台前端主机可能会同时访问同一台存储设备,如果此时多台主机在同一时点上对一个LUN进行写操作,那么可想而知这个LUN将不知道哪个数据先写,哪个数据后写。为了防止这种情况发生而导致的数据损坏,所以就有了SCSI预留概念。通过SCSI Reservation机制来进行数据读写的操作,目前绝大多数的磁盘和阵列都支持SCSI reservvation命令。如果一台主机给磁盘阵列传输了一条SCSI Reservation命令,则这个磁盘阵列对于其他的主机就处于锁定状态。

如果有其他的主机给已经被锁定的磁盘发送读写请求,则会收到Reservation Conflict报错信息。如果保留SCSI预留的主机崩溃,或者其他主机给磁盘阵列发送Break Reservation或者Reset Target命令用来解除SCSI锁。然后,第二个主机发送I/O请求之前需要重新发送SCSI Reservation命令给磁盘阵列,才可以进行后续的IO操作。SCSI预留有SCSI-2 Reservation和SCSI-3 Reservation两种类型,然而一个LUN上只能存在一种类型的SCSI预留

为解决脑裂后集群节点抢占资源的问题,引入了SCSI-2预留模式的集群。在这种情况下,集群节点访问LUN的过程如下。

  • 1. 集群节点向需要访问的LUN发起预留操作。

  • 2. 预留操作成功后,则节点获得LUN操作权限;如果预留失败,提示预留冲突,会继续尝试,直到预留成功。

  • 3. 节点对LUN操作完毕后,执行释放操作,其他节点可以预留。

通过使用这种预留方式,可以保证任意时刻均只有一个节点能访问共享资源,但是它要求存储系统支持SCSI-2预留命令集,同时也有下面的一些缺陷。

  • 1)预留基于路径。集群节点存在多路径的情况下,当前路径故障后,预留无法取消,无法对LUN继续访问,多路径相当于没有生效。

  • 2)谁预留谁释放。如果LUN已经被预留,其他节点将无法预留,除非对LUN进行重置操作。但是重置容易引发数据不一致。因为重置操作是不会通知原先预留主机的。

由于SCSI-2 Reservation只允许设备被发出SCSI锁的Initiator访问,也就是主机的HBA。比如主机1上的HBA1对访问的LUN加上SCSI-2锁,此时即使主机1的HBA2也无法访问这个LUN。所以SCSI-2 Reservation也被称为Single Path Reservation

为解决SCSI-2预留的问题,最终引入了SCSI-3持续预留的集群技术。在该模式下,集群节点在访问LUN之前,首先向LUN注册(Registration)一个预留密钥(Persistent Reservation key),注册成功后集群节点可以尝试进行持续预留(Persistent Reserve),持续预留成功后就可以获得LUN操作权限

不同的主机对应的PR Key也不同,所以一般SCSI-3 Reservation通常被应用在多路径的共享环境下面。这里SCSI-3 Reservation也称之为Persistent Reservation。与SCSI-2不同,SCSI-3释放操作根据预留密钥,不同集群节点可以使用相同密钥或是不同密钥进行预留,具体可以结合持续预留类型决定。集群节点可以通过抢占来获取已被持续预留的LUN访问权限。SCSI-3抢占和SCSI-2重置不一样,抢占不会造成数据丢失。

SCSI-3预留能够解决之前集群模式预留的问题,但是它对存储系统要求更高,要求其支持更多更复杂的SCSI-3预留命令集

SCSI预留是多台主机用来操作LUN的基本机制。在Windows存储环境中,当多台Windows主机需要访问一个LUN的情况下,例如Windows Cluster环境,就会用到SCSI预留命令。接下来就Windows Cluster 2003/ 2008中使用到的SCSI预留命令进行介绍

Windows 2003集群中使用SCSI-2 ReserveRelease命令。作为非持久的Reservation,集群中的一台节点会持有SCSI-2 Reservation的锁,然后每过3秒会重新刷新一次。如果故障转移发生,则切换节点主机会在相应的磁盘上放置SCSI-2 Reservation然后维护SCSI锁。如果所有节点主机上的集群服务都会关闭,Reservation也不会保留。

Windows 2008集群中使用SCSI-3 Persistent Reservation机制。如果磁盘从主机上没有正确移除,集群使用的磁盘(Cluster Disk)会保留着这些Reservation。锁对应的SCSI预留会一直存在于相应的磁盘之上,即使集群服务被关闭或者磁盘对于主机取消映射(Unmasked)。所以,有些时候需要强行移除磁盘上的Reservation。

温馨提示:请搜索“ICT_Architect”或“扫一扫”下面二维码关注公众号,获取更多精彩内容。


http://chatgpt.dhexx.cn/article/xD9MPp0u.shtml

相关文章

【集群】集群的概念(相关知识)、常用工具/算法、常见集群

文章目录 前言一、集群架构1.1 负载调度器1.1.1 常用调度算法1.1.2 LVS模块 1.2 节点服务器1.3 共享储存1.3.1 NFS共享储存1.3.2 NAS存储设备 二、集群2.1 负载均衡2.1.1 定义2.1.2 负载均衡搭建 2.2 高可用2.2.1 定义2.2.2 高可用集群搭建 2.3 高性能运算群集 三、ipvsadm工具…

集群测试工具

DFSIO测试集群I/O性能 DFSIO 用法 hadoop jar /usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-2.7.X-tests.jar TestDFSIO 15/05/22 19:50:22 INFO fs.TestDFSIO: TestDFSIO.1.8 Missing arguments. Usage: TestDFSIO [genericOptions] -read […

集群监视软件Ganglia

什么是ganglia Ganglia监控软件主要是用来监控系统性能的软件,如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到…

Linux集群管理软件clustershell

Linux集群管理软件clustershell 1.简介 机房有大概百台的服务器需要管理,加上需要搭建Hadoop以及Spark集群等,因此,一个轻量级的集群管理软件就显得非常有必要了。经过一段时间的了解以及尝试,最终选择了clustershell这个软件&…

计算机集群

计算机集群简称集群是一种计算机系统, 它通过一组松散集成的计算机软件和/或硬件连接起来高度紧密地协作完成计算工作。在某种意义上,他们可以被看作是一台计算机。集群系统中的单个计算机通常称为节点,通常通过局域网连接,但也有…

HAProxy集群与常见的Web集群软件调度器对比

目录 一.常见的Web集群调度器 二.HAProxy基本介绍 1.HAProxy是什么? 2.HAProxy的特性 3.HAProxy常用的8种负载均衡调度算法 3.1 轮询:RR(Round Robin) 3.2 最小连接数:LC(Least Connections&#xf…

[Linux基础与服务管理——常用集群高可用软件 Keepalived]

1.Keepalived 简介 Keepalived是Linux下的一个免费的、轻量级的高可用解决方案。是一个由C语言编写的路由软件,主要目标是为Linux系统和基于Linux的基础架构提供简单而强大的负载平衡和高可用性设。Keepalived实现了一组检查器,以根据其健康状况动态地和…

高性能集群软件keepalived

背景 网络的飞速发展,给网络带宽和服务器性能带来了巨大的挑战,基于互联网的应用系统越来越多地瓶颈出现在服务器端,这就对服务器提出了更高的要求,来保证服务的持续性。 集群简介 定义:集群是一组协同工作的服务集合…

集群分为几种,用的软件分别是什么?

集群分为几种,用的软件分别是什么? 补充:涉及的组件 1.1、apache 跨平台的网页服务器,主要使用它做静态资源服务器,也可以做代理服务器转发请求 1.2、ngnix 高性能的 HTTP和反向代理服务器,ngnix处理能力相当于apache…

Linux下的5款主流高可用集群软件介绍

Linux集群主要分成三大类:高可用集群(High Availability Cluster)、负载均衡集群(Load Balance Cluster)、科学计算集群(High Performance Computing Cluster)。 其中高可用集群具有保障应用程序持续提供服务的能力,可以将因软、硬件、人为造成的故障对业务的影响降低到最小…

Horizon Daas 桌面报错:desktop agent通信错误

一、故障描述 上述错误是因无法解析来自身份验证错误响应中的错误时,会报出。这往往时由于horizon client与TA,view agent之间的通信中断造成的。造成在desktone.log日志里可看到相关warning或error,如下所示: 二、分析处理 1、…

一文看懂数据服务DaaS

数据是国家的,金融是国家的。朕不给,你不能要。 (1)中国数据服务 一、数据工具 像云计算厂商搞的大数据平台,就是这个定位。它们纯搞产品,做好品牌,做好合作伙伴招募,由合作伙伴去做…

IaaS、PaaS、SaaS、DaaS的区别与联系

按照服务划分,云计算可以分为IaaS、PaaS、SaaS、DaaS四个层次。 IaaS(Infrastructure as a Service,基础架构即服务)是基础层。在这一层,通过虚拟化、动态化将IT基础资源(计算、网络、存储)聚合…

Horizon Daas浮动桌面无法删除解决

Horizon Daas浮动桌面无法删除解决 【问题描述】 某次执行对桌面删除重新分配操作,发现桌面功能下拉列表里,未出现删除选项,【浮动桌面】无法删除,即无法释放所占资源。 【问题分析】 经检查发现,原来此类桌面为“…

关于Daas平台无法登录的故障处理

关于Daas平台无法登录的故障处理 【事件描述】 某天对Daas桌面环境中AD域控服务器进行挂起,执行克隆备份操作后,再次开启AD域控后,登录短少系统报错:身份验证失败,无法登录。如下图所示: 【故障分析及处…

daas 数据即服务_万物物联时代,数据即服务

关于DAAS的概念 1.未来万物互联,数据就是服务 如何利用移动通信将万物互联,彻底实现智能化,是当前发展的愿景。在这个愿景之下,我们希望能够建立统一的框架,把人的通讯问题、万物互联的问题囊括其中,以超高…

跑出了几个明星厂商,DaaS赛道要火?

图片来源于Unsplash 文丨螳螂观察 作者丨陈淼 从今年的形势来判断,DaaS(数据即服务)赛道看来要火。 相关的信号有两个。 6月末,阿里成立了一家子公司,瓴羊智能服务公司。根据介绍,这家公司将把阿里巴巴…

IaaS、PaaS、SaaS、DaaS的区别

1.IaaS IaaS是Infrastructure as a server的缩写,意思是基础设施即服务。又云端公司把IT环境的基础设施建设好,然后直接对外出租硬件服务器或者虚拟机。消费者可以利用所有计算基础设施,包括处理CPU、内存、存储、网络和其它基本的计算资源&…

Tapdata 在线研讨会:DaaS vs 大数据平台,是竞争还是共处?

从20年前的传统数仓,到10年前大数据平台,5年前开始火热的数据中台以及最近出现的湖仓一体新数据平台,今天被数据孤岛困扰的企业,面临着太多的选择。这些数据产品及架构有一个共性:他们本质上解决的大部分都是分析洞察类…

云目录(DaaS )快速入门

目录即服务(Directory-as-a-Service,DaaS)是针对企业用户存储的云解决方案,将 LDAP 或微软 Active Directory(AD)作为云服务进行管理。DaaS 和很多云平台一样,不仅仅是基于云的 AD 或LDAP不单单…