集群脑裂问题分析

article/2025/9/21 2:51:38

1.什么是集群脑裂

集群的脑裂通常是发生在集群中部分节点之间不可达而引起的(或者因为节点请求压力较大,导致其他节点与该节点的心跳检测不可用)。当上述情况发生时,不同分裂的小集群会自主的选择出master节点,造成原本的集群会同时存在多个master节点。

2.elasticsearch集群的脑裂

假设已经有安装好elasticsearch集群的三台机器:

192.168.31.88 hadoop-master
192.168.31.234 hadoop-slave01
192.168.31.186 hadoop-slave02

其中一台elasticsearch节点hadoop-slave02节点的配置

# ======================== Elasticsearch Configuration =========================
#
# NOTE: Elasticsearch comes with reasonable defaults for most settings.
#       Before you set out to tweak and tune the configuration, make sure you
#       understand what are you trying to accomplish and the consequences.
#
# The primary way of configuring a node is via this file. This template lists
# the most important settings you may want to configure for a production cluster.
#
# Please consult the documentation for further information on configuration options:
# https://www.elastic.co/guide/en/elasticsearch/reference/index.html
#
# ---------------------------------- Cluster -----------------------------------
#
# Use a descriptive name for your cluster:
#
cluster.name: elasticsearch-cluster
#
# ------------------------------------ Node ------------------------------------
#
# Use a descriptive name for the node:
#
node.name: node-slave02
#
# Add custom attributes to the node:
#
#node.attr.rack: r1
#
# ----------------------------------- Paths ------------------------------------
#
# Path to directory where to store the data (separate multiple locations by comma):
#
path.data: /home/hadoop/workspace/elasticsearch/log/data
#
# Path to log files:
#
path.logs: /home/hadoop/workspace/elasticsearch/log/logs
#
# ----------------------------------- Memory -----------------------------------
#
# Lock the memory on startup:
#
#bootstrap.memory_lock: true
#
# Make sure that the heap size is set to about half the memory available
# on the system and that the owner of the process is allowed to use this
# limit.
#
# Elasticsearch performs poorly when the system is swapping the memory.
#
# ---------------------------------- Network -----------------------------------
#
# Set the bind address to a specific IP (IPv4 or IPv6):
#
network.host: 0.0.0.0
#
# Set a custom port for HTTP:
#
http.port: 9200
#
# For more information, consult the network module documentation.
#
# --------------------------------- Discovery ----------------------------------
#
# Pass an initial list of hosts to perform discovery when new node is started:
# The default list of hosts is ["127.0.0.1", "[::1]"]
#
#discovery.zen.ping.unicast.hosts: ["172.18.157.45"]
discovery.zen.ping.unicast.hosts: ["192.168.31.88"]
#
# Prevent the "split brain" by configuring the majority of nodes (total number of master-eligible nodes / 2 + 1):
#
#discovery.zen.minimum_master_nodes: 3
#
# For more information, consult the zen discovery module documentation.
#
# ---------------------------------- Gateway -----------------------------------
#
# Block initial recovery after a full cluster restart until N nodes are started:
#
#gateway.recover_after_nodes: 3
#
# For more information, consult the gateway module documentation.
#
# ---------------------------------- Various -----------------------------------
#
# Require explicit names when deleting indices:
#
#action.destructive_requires_name: true
index.analysis.analyzer.ik.type : "ik"

注意其他节点的配置除去node.name不同外其他都设置都一样。另外由于没有设置节点的node.master和node.data属性(默认都为true),因此该节点既可以存储索引数据又可以成为集群中真正的master节点。另外elasticsearch集群的选举是通过配置文件中的:

discovery.zen.ping.unicast.hosts: ["192.168.31.88"]

这里为了测试脑裂的发生,所以这个配置是有问题的,正确的配置是

discovery.zen.ping.unicast.hosts: ["192.168.31.88","192.168.31.234","192.168.31.186"]

包含所有可能成为master节点的所有节点,这样可以避免重启导致的脑裂情况。

2.1 elasticsearch索引的变化

首先我们先看下elasticsearch集群在索引上的变化:
只有一个master节点时索引情况:
这里写图片描述
启动slave01节点时索引情况:
这里写图片描述
启动slave02节点时索引的情况:
这里写图片描述

2.2 elasticsearch脑裂分析

elasticsearch集群节点中kill掉slave01节点

hadoop@hadoop-slave01:~/workspace/elasticsearch$ jps
2357 Elasticsearch
2413 Jps
hadoop@hadoop-slave01:~/workspace/elasticsearch$ kill -9 2357
hadoop@hadoop-slave01:~/workspace/elasticsearch$

kill掉集群中其中一台机器后,索引重建后的稳定情况
这里写图片描述
重新启动集群中节点slave01服务:

hadoop@hadoop-slave01:~/workspace/elasticsearch$ bin/elasticsearch -d
hadoop@hadoop-slave01:~/workspace/elasticsearch$

重新启动slave01的elastic服务后,三台集群状态:
这里写图片描述
如下三台机器访问都是相同的集群视图:没有出现脑裂问题
http://hadoop-master:9200/_plugin/head/
http://hadoop-slave02:9200/_plugin/head/
http://hadoop-slave01:9200/_plugin/head/
其中本质上就是通过配置discovery.zen.ping.unicast.hosts来实现。

如果kill master节点之后集群情况:
这里写图片描述
由于master节点被kill掉后,集群会进行重新的选主,其中slave02被选主成为主节点。同时slave01和slave02的视图都相同。
重新启动master节点后,我们看先elasticsearch的集群情况:
可以发现node-slave01和node-slave02节点的视图没有变化,并没有将重新启动后node-master加入集群中。
这里写图片描述
我们再看下node-master节点的集群视图:
这里写图片描述
如下同一个集群就出现了脑裂的情况,node-master、node-slave01、node-slave02中同时出现两个master节点:node-master和node-slave02。至于脑裂产生会出现的问题就是:用户通过node-master进行更新的索引数据,通过node-slave01和node-slave02都不能得到访问。

2.3 elasticsearch解决脑裂

elasticsearch解决脑裂只需要把集群中可能成为主节点的机器节点都配置到elasticsearch的选主配置中:

discovery.zen.ping.unicast.hosts: ["192.168.31.88","192.168.31.234","192.168.31.186"]

启动是集群状态:
这里写图片描述
Kill掉node-master节点后,再重启时集群状态
这里写图片描述

可以发现elasticsearch的cluster集群在node-master节点失败重启后,重新选node-slave01为主节点。node-master节点重新加入到集群中,并且以node-slave01为主节点,并进行索引的重新分配。


http://chatgpt.dhexx.cn/article/F0RJEOwm.shtml

相关文章

Redis中的常见问题(穿透、雪崩、脑裂)

文章目录 1.Redis的缓存穿透2.Redis缓存雪崩的问题3.Redis的脑裂问题 1.Redis的缓存穿透 2.Redis缓存雪崩的问题 3.Redis的脑裂问题 客户端向主服务器写入了数据 但是主服务器还没有来得及同步的情况下 主服务器死了 那么这个时候就会选举新的主服务器 原来的主服务器在一段时间…

脑裂是什么,zk是如何解决脑裂问题的

什么是脑裂 脑裂(split-brain)就是“大脑分裂”,也就是本来一个“大脑”被拆分了两个或多个“大脑”,我们都知道,如果一个人有多个大脑,并且相互独立的话,那么会导致人体“手舞足蹈”,“不听使唤”。 脑裂…

堆叠脑裂

堆叠脑裂 一、什么是堆叠脑裂二、堆叠脑裂的危害三、如何解决堆叠脑裂四、DAD是如何工作的五、DAD恢复机制:六、DAD检测方式:1、 业务口直连检测方式2、Eth-Trunk口代理检测方式3、管理网口检测方式4、堆叠端口检测方式 一、什么是堆叠脑裂 堆叠建立后&…

Redis 的脑裂现象和解决方案

Redis 中的脑裂是什么? 从名字分析,脑裂现象就是大脑裂开了,一个人如果有两个大脑,就出现了两个决策者,此时身体就不知道该听谁的了,势必会造成混乱。 对应到 Redis 上,就是指在主从集群中&am…

Redis脑裂现象及解决方案

Redis脑裂现象及解决方案 什么是Redis的脑裂现象 当Redis主从集群环境出现两个主节点为客户端提供服务,这时客户端请求命令可能会发生数据丢失的情况。 脑裂出现的场景 场景一 主从哨兵集群中如果当发生主从集群切换时,那么一定是超过预设quorum数量…

分布式系统的“脑裂”到底是个什么玩意?

目前大多数项目都在往分布式上发展,一旦系统采用分布式系统,便会引入更多复杂场景和解决方案。比如,当你在系统中使用了Elasticsearch、ZooKeeper集群时,你是否了解过集群的“脑裂”现象?又是否知道它们是如何解决脑裂…

JDBC编程--jdbc基本操作步骤

JDBC即java数据库互连,是java语言和数据库之间独立于数据库的连接标准API,JDBC从根本上来说是一种规范,具体的实现需要依赖于具体数据库生产商提供jar包【驱动】,提供了统一的接口用于访问不同的底层数据库,允许使用ja…

【Java】JDBC连接数据库详细步骤(面试必备)

系列文章目录 本文旨在详细讲解使用JDBC连接数据库的六个步骤 其中第一步注册驱动的讲解链接:JDBC—MySQL以类加载的方式注册驱动(反射)_m0_56164356的博客-CSDN博客 // 1、注册驱动// 2、获取连接// 3、获取数据库操作对象// 4、执行sql语句…

JDBC基本步骤

JDBC编程 JDBC即java数据库互连,是java语言和数据库之间独立于数据库的连接标准API,JDBC从根本上来说是 一种规范,具体的实现需要依赖于具体数据库生产商提供jar包【驱动】,提供了统一的接口用于访问不 同的底层数据库&#xff0…

Java使用JDBC步骤

学习目标: Java使用JDBC步骤 学习内容: 1.为项目导入mysql-jdbc的jar包 2.初始化驱动 3.建立与数据库的连接 4.创建Statement 5.执行SQL语句 6.关闭连接 7.使用try-with-resourced的方式自动关闭连接 知识详解: JAVA使用JDBC步骤&#xff…

JDBC之程序编写步骤

当当当当~~~~欢迎大家阅读,今天我们学习JDBC程序编写步骤 以上是JDBC程序编写步骤的流程图 步骤一:导入java.sql包 步骤二:加载并注册驱动程序 java.sql.Driver 接口:是所有 JDBC 驱动程序需要实现的接口,这个接口是…

JDBC具体的操作步骤

目录 1.加载驱动 Driver 2.获得连接 3.执行指令 4.关闭资源 一: 首先先建立一个包为:com.zking.util 包中建立一个类:DBHelper类//帮助类 使用静态代码块加载驱动 2. 定义连接语句 3. 获得连接方法 : 4. 关闭资源:连接c…

浅谈JDBC,JDBC实现的几大步骤

前言 当我们学完数据库之后总觉得数据库和java之间是没有联系的,但是我们还是要去学数据库是为了什么呐?现在就来了,现在我就来给大家讲讲怎么将数据库和java进行联系,我们也可以用数据库代替以前的IO流来存东西了。 JDBC 概述 …

【JDBC-1】jdbc编程六大步骤

文章目录 jdbc编程步骤1.注册驱动2.获取数据库的连接3.获取数据库操作对象4.执行sql语句5.处理查询结果集6.释放资源 jdbc编程步骤 jdbc编程6步:1.注册驱动2.获取连接3.获取数据库操作对象4.执行sql5.处理查询结果集6.释放资源1.注册驱动 注册驱动的作用&#xff…

如何使用jetty

一直都听说jetty跟Tomcat一样,是一个web容器。之前做项目的时候,也使用过jetty,不过当时jetty是作为一个插件,跟maven集成使用的。那个时候,由于是第一次使用jetty,感觉jetty跟Tomcat并不一样,启…

BAT优秀工具

1、腾讯智图:图片压缩优化平台 地址:智图_图片压缩在线工具_在线制作webp 智图可以帮你把图片压缩到很小,但是还是很清晰!有很多网站限制图片上传的大小,用这个就可以!在线的,很方便&#xff01…

GifCam2.0使用

GifCam2.0使用 有时候我们需要制作一个gif,那么我们可以用GifCam 。 GifCam 是一款能够轻松录制gif的软件,它体积小、免安装。它可以给现有的gif增加帧数。编辑gif图片,如添加文字、删除某些帧、修改特定帧的延迟等。 下载地址:h…

荒野大镖客2-解压即玩

游戏名称:荒野大镖客2发行时间:2019年12月6日游戏详细介绍:https://store.steampowered.com/app/1174180/Red_Dead_Redemption_2/ (STEAM网站)不了解这是什么游戏的可以看一下版本介绍:该版本由EMPRESS小组…

火炬2 贴吧导航(大纲1.0)

火炬2 贴吧导航(大纲1.0) time/2020.7.25 前言 因前导航贴中部分链接失效或失时,为方便吧友查阅攻略及数据,故作此帖。 注:此贴仅作导航,不回复不解疑,有个人疑惑请按正常流程询问其他吧友。 …

MYSQL 5.7 分组 1055解决方法

1.免安装版 在根目录下创建 my.ini 将一下内容拷贝到my.ini,然后重启服务即可 [mysqld] sql_mode‘STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_ENGINE_SUBSTITUTION’ 相信有些小伙伴在使用数据库的过程中会经常频繁的启动…