全链路压测,你想要的全在这里

article/2025/11/5 20:40:32

步骤一:确定压测目标

压测目标主要包括压测范围、策略、目的,往往与业务、技术目标息息相关。例如:

  • 压测范围:用户注册加登录,为大规模拉新做准备。
  • 压测策略:高仿真生产环境压测,提前经历真实的业务高峰。
  • 压测目的:探测业务吞吐极限,验证架构能力、探测性能瓶颈。

步骤二:梳理系统架构

梳理清楚端到端的请求链路、技术架构、分层结构、模块划分,以及RPC、消息、缓存、数据库等中间件的使用情况,分析潜在的瓶颈点,并针对性的增加监控指标、制定应急预案。

本文示例的系统架构图如下:
在这里插入图片描述
组件,组件分类,组件潜在瓶颈如下
1.SLB:负载均衡

  • 容量不足
  • 建连失败

2.ApiGateway:API网关

  • 容量不足
  • 线程等待
  • 触发限流

3.UserService:微服务

  • 容量不足
  • 线程池资源耗尽
  • 日志资源耗尽
  • 触发限流
  • GC

4.Redis:KV缓存

  • 容量不足
  • 触发限流
  • 缓存击穿
  • 缓存热点
  • 连接池耗尽
  • 大对象

5.MySQL:数据库

  • 容量不足
  • 触发限流
  • 连接池耗尽
  • 慢SQL

6.Kafka:消息队列

  • 容量不足
  • 消息堆积
  • 磁盘写达到100%

7.SmsService:第三方依赖

  • 第三方可能会拒绝参与压测

步骤三:梳理业务模型

压测的业务模型对压测结果的准确性至关重要。全链路压测的链路代表要压测的业务范围,同一条链路需要构造海量的参数集合代表不同用户的不同行为,系统的基础数据、系统预热情况等代表系统的状态。链路范围、链路的访问量级、链路的参数集合、基础数据、预热情况一起构成了压测的业务模型。

通常从以下维度梳理业务模型:

1.用户行为维度

  • 确定业务接口的范围、接口的目标量级、接口的参数集合、压力曲线等。
  • 根据业务特性确定压测数据的分布。例如用户的规模和地域、商品的种类和数量、是否制造热点商家和商品等。

2.系统状态维度

  • 根据业务和场景的特性,确定各组件(例如缓存)的状态。例如拉新场景,缓存命中率非常低,而日常高峰场景,缓存命中率非常高,需要根据不同的场景来准备不同的缓存预热策略。
  • 根据业务和场景的特性,确定基础数据的量级和范围。例如拉新场景,需要考虑老用户召回的情况,而日常高峰场景,一般准备与活跃用户相当量级的基础数据。

总之,业务模型与业务强相关,压测的业务模型对压测结果的准确性至关重要。

步骤四:准备压测脚本

根据业务场景编写压测脚本,也可以直接复用已有脚本

步骤五:改造升级环境

在生产环境进行全链路压测,最核心的是线上写操作不能污染正常的业务数据。因此,需要针对存储做影子库表,即正常业务库表的镜像,让压测流量的数据流转到影子库表,正常业务流量流转到正常业务库表,在逻辑上隔离两种流量,使之互不影响。
在这里插入图片描述
生产环境压测的三大前提:

  • 压测标记不丢失
    压测流量在任何环节能够被正确的识别出来。在流量入口层带上压测标,中间件识别并继续往下传递压测标,保证整条链路上压测标不丢失,通过这种方式使得下游的应用和存储也能接收到压测标。
  • 压测流程不中断
    压测流量能够正常的调用下去,整个流程不被阻断,返回符合预期的业务结果。业务的应用层,要支持全链路也需要进行对应的改造。应用层在识别到压测标时,需要绕过参数校验、安全校验等校验逻辑,例如手机号格式校验、用户状态校验、以及一些其它特殊业务校验逻辑。
  • 压测数据不污染
    压测数据不对线上正常的业务造成数据污染。全链路场景往往包含多个读写场景,为了隔离压测数据,存储中间件识别到压测标之后,将数据写入影子库表,与真实的数据区分开。为了更加真实的模拟真实场景,影子库表中的基础数据(例如买家、卖家、商品、店铺等)是由真实数据加上固定偏移量构造而成,迁移过程中会进行采样、过滤、脱敏等操作保证数据安全,一般在数据量级上和真实数据保持一致。

PTS探针已经具备以上三大能力,仅需在应用上部署好探针、配置好规则即可,无需改动业务代码。

本文示例的架构图升级方案如下:
在这里插入图片描述

步骤六:正常流量联调

通常通过执行功能回归用例完成联调,是需要将正常回归流量打上流量标(例如在请求中添加Header x-pts-test=2),这样在查找调用链路时可以精准定位。该环节主要关注点如下:

验证探针对正常业务逻辑无影响,用例的测试结果均符合预期。
验证探针对依赖组件的适配情况,无遗漏的RPC调用、采集的数据准确无误;调用链完整性是全链路压测数据安全的核心。
将探针采集的调用链数据进行聚合(建议500+以上),抹平不同参数、不同逻辑分支带来的调用链差异性。使用聚合后的依赖拓扑图辅助梳理组件依赖可以极大程度的避免组件遗漏。
根据正常流量联调的结果,需要梳理出影子库表的范围、第三方服务的依赖情况。

步骤七:准备压测数据

1.确认影子库表范围。
影子库表的范围就是压测链路涉及到的应用使用到的库表。在梳理过程中,需要包括库名、表名、数据量级、核心业务字段(例如商品ID、用户ID等),表与表之间字段的关联性(外键、JSON字段中的引用等均包括在内)。

2.确认偏移字段、脱敏字段。
偏移字段:字段偏移可以极大的保证业务数据的安全。偏移字段一般选择用户ID、商品ID等关联字段,如果有用到Sequence类的分布式ID组件,也需要进行偏移。根据业务的实际增长选择不同的偏移量,一般会选择10年以上都不会用到的值作为偏移量。

  • 说明 脱敏字段:业务上认为是敏感数据的用户数据,例如手机号、密码、用户名等,不同安全级别的字段会有不同的脱敏方式,根据业务要求脱敏即可。常见的脱敏方式包括遮盖掩码、加盐哈希、高斯噪音等。需要确保脱敏之后的字段值在业务流程上是能走通的,如果在压测联调过程中出现校验失败,可以使用Mock规则绕过校验。

3.新建影子库表。

  • 说明 该步骤一般由DBA完成,根据影子库表范围创建库表结构。

4.执行数据迁移。

  • 说明该步骤一般由DBA完成,迁移工具一般选择DataX,在业务低峰时段从备库迁移到影子库表,建议根据实际情况配置限流。迁移的数据量一般与线上数据保持数据量级上一致即可。

5.准备接口参数数据。
基于基础数据和压测模型构造业务接口的参数集合。根据各压测平台的不同,支持的格式、配置方式也各有不同,一般都支持CSV文件格式,根据各平台要求构造即可。

压测业务模型对压测结果的准确性至关重要,而压测数据准备是业务模型落地的核心环节。压测数据主要包括基础数据和链路数据两种。

  • 基础数据:包括业务运行所需的库表和数据,例如:买家、卖家、商品、优惠等,基础数据的规模一般需要与实际业务数据在量级上保持一致。
  • 链路数据:包括需要压测的接口和多样化的接口参数集合,接口请求的参数集合是基于基础数据生成的。例如:商品详情页的接口为https://xxx.com/item?itemId=xxx,参数集合为具体的商品ID的集合。

基础数据的准备方式通常有直接构造和数据迁移两种:

  • 直接构造:直接根据业务规则构造出来,一般用在少量数据的准备,例如联调阶段的数据构造。
  • 数据迁移:对线上数据做清洗、采样、偏移后迁移到影子库表,数据完备性好,仿真度高,省时省力。建议使用DataX进行数据迁移

数据准备环节,最核心的原则是需要保证镜像、影子库表的软硬件配置与正常库表一致,同时配置简单易行。这样可以保证在压测的时候充分暴露线上的数据库表的真实问题。

选择数据隔离策略有以下方式:

  • 影子表隔离:在生产库建立业务表同结构的影子表,影子表名通常会在正常表名的基础上加上固定的前后缀。表级别的隔离在设计上允许复用一部分只读表,但是梳理难度有所增加。
  • 影子库隔离:在用一个实例上创建与源数据库同配置的影子库,影子库名通常会在正常库名的基础上加上固定的前后缀,表名保持不变。库级别的隔离是数据源的隔离,隔离相对比较彻底、安全。
  • 影子Key隔离:一般用在KV缓存、存储组件上(例如Redis),探针会拦截对KV缓存、存储组件的所有操作,根据流量标自动修改Key和过期时间,达到隔离数据和数据清理的目的。

他存储组件的隔离原理基本上与上述三种思路上一致,您可以根据自身业务和架构特性,自行选择最佳的隔离方式。

步骤八:联调压测流量

根据步骤七:准备压测数据中梳理的库表情况,在控制台填写影子规则,不同规则需要填写的字段不尽相同。
根据步骤六:正常流量联调中梳理的第三方服务依赖情况在控制台配置Mock规则。如果需要使用复杂的动态响应结果,需要申请部署MockServer。

步骤九:单链路小流量试压

开始全链路压测。不同的业务、压测目标往往对应不同的压测节奏和方法,不可一概而论。除了注意以下要点之外,还需根据业务、架构、人员等自身情况,制定不同的压测计划,在尽量避免线上故障的前提下,发现更多的线上问题。

  • 制定明确的压测计划、压测通过标准,相关人员必须现场支持,分工明确,统一指挥。
  • 线上压测应在业务低峰时段进行,并制定应急预案。
  • 应当具备监控大盘,密切关注相关监控指标。
  • 遵循循序渐进的原则,单链路压测>小流量验收>全链路验收。

对生产环境进行小流量试压,暴露最表层的问题,保证流程的正确性。

步骤十:单链路压测

验证所有接口在无干扰、无竞争的情况下的性能基线数据,确定所有接口的性能SLA。

步骤十一:全链路小流量试压

对生产环境进行小流量试压,暴露最表层的问题,保证流程的正确性。

步骤十二:全链路压测并验收

按生产环境流量配比进行复合场景全链路压测。探测相互干扰、竞争情况下的资源消耗水位和瓶颈。大致上分为以下5个阶段:

  1. 阶梯加压与容量规划。
    定位性能瓶颈;拿到各应用的性能基线数据与容量,获取限流阈值。
  2. 瞬时加压。
    验证系统预热是否合理,比如数据库连接、RPC连接、业务缓存、JIT预编译等。
  3. 稳定性测试。
    验证系统资源使用是否合理,是否存在内存泄漏等情况。
  4. 故障演练。
    通过人工注入故障,暴露架构的稳定性问题,提升系统的健壮性。
  5. 验证限流、降级、预案的有效性,产出最终的交付物。

https://help.aliyun.com/document_detail/213111.html


http://chatgpt.dhexx.cn/article/j2psoyks.shtml

相关文章

全链路压测那点事(一)

个人介绍:大家好,我是大猫,2015年加入百度质量部,负责百度前端展现架构测试工具开发。曾负责并开发基于spark的阿拉丁模板召回查询系统与搜索前端阿拉丁模板页面diff工具,均取得良好效果。2018年加入贝壳质量部&#x…

介绍一下全链路压测平台的相关内容

随着互联网技术的不断发展,越来越多的企业开始依赖互联网来实现业务的发展和增长。而对于这些企业而言,如何保证他们的业务在高并发、高负载的情况下依然能够正常运行,是非常重要的一个问题。为了解决这个问题,企业可以使用全链路…

你“被”全链路了么?全链路压测实践之理论

要说当下研发领域最热门的几个词,全链路压测 肯定跑不了。最近的几次大会上,也有不少关于全链路的议题。之前有朋友在面试过程中也有被问到了什么是全链路压测,如何有效的开展全链路压测。今天我们就来聊聊全链路压测,但本文不会涉…

全链路压力测试

压力测试的目标: 探索线上系统流量承载极限,保障线上系统具备抗压能力 复制代码 如何做全链路压力测试: 全链路压力测试:整体步骤 容量洪峰 -》 容量评估 -》 问题发现 -》 容量规划 全链路压力测试:细化过程 整体目…

全链路压测的“谜”

前言: 对于性能测试来说,全链路压测肯定跑不了的。在昨天上午的【GIAC全球互联网架构大会】上,网易云就进行了全链路压测的议题。对于有性能测试的公司来说,面试往往会被问到什么是全链路压测、如何有效的开展全链路压测等等。我今…

软件测试——全链路压测原理

摘要 全链路压测平台主要有两个核心的也是最顶级的要求:全业务,全链路。这导致了,必须线上搞压测,必须用线上的真实数据搞压测。那么线上搞就容易搞出事情,所以技术含量还是要有的,还是很高的。 一、压测…

性能测试之全链路压测实战理论详解

前言 要说当下研发领域最热门的几个词,全链路压测 肯定跑不了。最近的几次大会上,也有不少关于全链路的议题。之前有朋友在面试过程中也有被问到了什么是全链路压测,如何有效的开展全链路压测。今天我们就来聊聊全链路压测,但本文…

全链路压测方案

双十一的技术准备在做两件事情&#xff1a;第一是系统的准备尽可能的接近真实&#xff0c;包括容量确定性和资源的确定性&#xff1b;第二是整个过程中的效率&#xff0c;包括人和单位资源效率。 < 演讲视频 > class"video_iframe" allowfullscreen"&quo…

全链路压测原理篇(方案 概念 架构 实现)

大促之前全链路压测原理篇 大促之前全链路压测原理篇全链路压测的意义链路压测方案刨析线下压测预生产环境压测引流压测全链路压测四种压测方案对比 全链路压测概述什么是全链路压测解决什么问题精确的容量规划进行全链路的性能监控 如何展开全链路压测 业务模块介绍全链路整体…

全链路压测原理剖析(Coding)

引言 … 什么是全链路压测&#xff1f; 相对于传统的单接口压测&#xff0c;全链路压测旨在能完全模拟真实的用户的施压场景在生产环境或类生产环境执行的压测。在服务器、中间件、数据库等所有软硬件配置上&#xff0c;和线上保持一致&#xff1b;在压测场景上&#xff0c;通…

全链路压测实践

一 背景 随着业务的不断增长&#xff0c;系统的稳定性保障尤为重要&#xff0c;传统压测存在诸多不足&#xff0c;以往的压测中各个业务线对单个接口压测&#xff0c;需要单独准备测试机&#xff0c;测试成本高&#xff0c;而且无法直接压测线上接口&#xff0c;也没有历史压测…

测试学习——全链路压测

参考资料&#xff1a;全链路压测平台&#xff08;Quake&#xff09;在美团中的实践 全链路压测简介 - 性能测试 PTS - 阿里云 聊聊全链路压测 - 老_张 - 博客园 基于实际的生产业务场景和系统环境&#xff0c;模拟海量的用户请求和数据&#xff0c;对整个业务链路进行各种场…

全链路压测及阿里全链路压测详解

一、前言 很多公司有线下性能测试&#xff0c;那为什么还要做全链路压测呢&#xff0c;全链路能解决一般性能测试的什么问题呢&#xff1f;我认为在每个环境做性能测试是相互补充的过程。在线下的性能测试&#xff0c;由于机器监控&#xff0c;部署迅速以及相应的权限充足&…

全链路压测

核心流程 全链路压测实施的核心流程如下&#xff1a; 骤一&#xff1a;确定压测目标 压测目标主要包括压测范围、策略、目的&#xff0c;往往与业务、技术目标息息相关。例如&#xff1a; 压测范围&#xff1a;用户注册加登录&#xff0c;为大规模拉新做准备。压测策略&#…

说一说IT管理的证书:PMP、高项、IPMP

说一说IT管理的证书&#xff1a;PMP、高项、IPMP 一、PMP二、 高项三、IPMP四、PMP、IPMP、高项对比 作为新一代的农民工&#xff0c;提升也成为内卷大环境下必不可少的一个环节。这里来说一说IT项目管理类的证书认证。 一、PMP pmp是由美国PMI推出的&#xff0c;将项目管理划…

IT资质认证证书如何查询?这篇文章教你查询方式

目前IT行业企业常见的体系和资质认证已经超过了30种&#xff0c;如此众多的体系或资质认证品类&#xff0c;查询渠道也不尽相同&#xff0c;今天小编简要介绍下几种常见证书查询方式&#xff0c;方便大家需要时使用。 ITSS运维维护标准 证书示例 ITSS信息技术服务标准是我国自…

Rancher证书更新

一、环境 主机名IP地址操作系统rancher版本K8s-Master192.168.10.236Centos 72.5.9 二、更新证书 1、查看当前证书到期时间 2、进行证书轮换 [rootK8s-Master ~]# docker ps |grep rancher/rancher d581da2b7c4e rancher/rancher:v2.5.9 &q…

计算机类证书之微软厂商认证分享

MCP、MCT、MVP 最近想考一些计算机证书&#xff0c;网上简单看了下。大致分为国家代表队的计算机技术与软件专业资格考试证书、国内大厂代表队的华为认证、外企代表队的微软认证。在这里给大家分享下&#xff0c;留给有需要的同学。 计算机技术与软件专业资格考试证书 是由国…

证书双向认证

假设你通过openssl生成了如下文件&#xff1a; 双向认证 在开始之前&#xff0c;我们先讲一下什么是证书双向认证&#xff0c;来看一张图&#xff1a; 所谓证书双向认证是指&#xff1a; 服务端使用ca.crt校验客户端的client.crt和client.key客户端使用ca.crt校验服务端的…

夜神模拟器抓包微信小程序(进入浏览器,弹出安全警告(安全证书有问题解决方法)

1.声明&#xff1a;本文仅限学习研究讨论&#xff0c;切忌做非法乱纪之事&#xff01; 即使按照其它教程的安装证书&#xff0c;也只是把证书安装到了用户下面&#xff0c;然而安卓高版本&#xff08;7.0&#xff09;之后呢&#xff0c;app可以只信任指定证书和系统内置的证书…