Zuul 2: Netflix的异步、无阻塞系统之旅

article/2025/9/22 7:56:39

作者:  Netflix Technology Blog

译者:  java达人

来源:  https://medium.com/netflix-techblog/zuul-2-the-netflix-journey-to-asynchronous-non-blocking-systems-45947377fb5c

Zuul 2和它的“前辈”做了同样的事情—充当Netflix服务器基础设施的前门,处理来自全世界所有Netflix用户的流量。它还可以进行请求路由,支持开发人员的测试和调试,深入了解我们的整体服务状况,保护Netflix免受攻击,并在AWS区域遇到问题时将流量引导到其他云区域。

Zuul 2与原始版本之间的主要架构差异是,Zuul 2在异步、非阻塞框架(Netty)上运行。过去在生产中运行了几个月,其主要优势(这也是我们在着手这项工作时所期望的)是,它为设备和web浏览器提供了在Netflix量级上具有的持久连接能力。拥有超过8300万成员,每个成员都有多个连接设备,这是一个巨大的挑战。通过与我们的云基础设施的持久连接,我们可以启用大量有趣的产品特性和创新,减少总体设备请求,提高设备性能,更好地理解和调试客户体验。

我们还希望Zuul 2能够在延迟、吞吐量和成本方面提供弹性伸缩的好处和性能改进。但正如你将在这篇文章中了解到的,我们的愿望与结果有所不同。

阻塞和非阻塞系统的区别

要理解为什么我们要构建Zuul 2,您必须首先理解异步和非阻塞(“异步”)系统与多线程、阻塞(“阻塞”)系统在理论上和实践中的架构差异。

Zuul 1是在Servlet框架上构建的。这样的系统是阻塞和多线程的,这意味着它们通过每个连接一个线程的方式来处理请求。I/O操作是通过从线程池中选择一个工作线程执行I/O来完成的,并且请求线程将阻塞,直到工作线程完成为止。工作线程在其工作完成时通知请求线程。这对于处理100个并发连接的现代多核AWS实例很有效。但是,当出现问题,如后端延迟增加或由于错误导致设备重试,活动连接数和线程数也将增加。当这种情况发生时,节点就会陷入麻烦,并可能进入死亡螺旋,其中备份的线程会使服务器负载激增,并使集群不堪重负。为了抵消这些风险,我们构建了限流机制和库(例如,Hystrix)来保持这些事件期间阻塞系统的稳定。


多线程系统架构

 

异步系统的操作方式不同,通常每个CPU内核有一个线程处理所有请求和响应。请求和响应的生命周期通过事件和回调来处理。因为没有针对每个请求使用线程,所以连接的成本很低, 而只是一个文件描述符和一个监听器的成本。而在阻塞模型中,每个连接的成本是一个线程,需要有大量的内存和系统开销。由于数据在相同的CPU上,可以更好地利用CPU级缓存,进行更少的上下文切换,因此可以提高效率。后端延迟和“重试风暴”(当出现问题时客户和设备的重试请求)对系统的影响也更小,因为连接和队列中增加的事件比线程堆积的开销要小得多。


异步非阻塞系统架构

异步系统的优点听起来很好,但是上面的优点是以操作复杂性为代价的。阻塞系统很容易理解和调试。线程总是执行单个操作,因此线程的堆栈是请求或派生任务的准确快照;线程堆栈可以被读取,以便通过锁跟踪跨多个线程的请求。抛出的异常会弹出堆栈。一个“catch -all”的异常处理程序可以清除所有未显式捕获的异常。

相比之下,异步是基于回调并由事件循环驱动的。当试图追踪请求时,事件循环的堆栈跟踪没有意义。在事件和回调执行时,很难跟踪请求,并且在这方面非常缺乏帮助调试的工具。边缘情况、未处理的异常和未正确处理的状态更改会创建悬空资源,从而导致ByteBuf泄漏、文件描述符泄漏、响应丢失等。这类问题已经被证明很难调试,因为很难知道哪个事件没有得到适当的处理或清理。

构建非阻塞Zuul

在Netflix的基础架构中构建Zuul 2比预期的更具挑战。Netflix生态系统中的许多服务都是基于阻塞的假设建立起来的。Netflix的核心网络库也是根据阻塞的架构假设构建的;许多库依赖于线程局部变量来建立、存储请求相关的上下文。线程局部变量在异步非阻塞环境中不起作用,在异步非阻塞环境中,同一个线程上处理多个请求。因此,构建Zuul 2的复杂性多在于梳理出使用线程局部变量的隐秘角落,其他的挑战则包括将阻塞网络逻辑转换成非阻塞网络代码,并在库中寻找阻塞代码,修复资源泄漏,以及将核心基础设施转换为异步运行。将阻塞网络逻辑转换为异步没有一刀切的策略;它们必须单独进行分析和重构。这同样适用于核心的Netflix库,其中一些代码需要修改,而另一些则需要fork、重构为异步工作。开源项目Reactive-Audit通过插桩server的方式来帮助发现代码块和库被阻塞的情况。

我们采用了一种有趣的方法来构建Zuul 2。由于阻塞系统可以异步运行代码,因此我们首先更改Zuul过滤器和过滤器链代码为异步运行。Zuul过滤器包含我们网关功能(路由、日志、反向代理、防ddos等)的特定逻辑。我们使用RxJava重构了Zull核心功能,基本的Zuul过滤器,使它们能够异步运行。现在我们有两种类型的过滤器组合使用:用于I/O操作的异步过滤器,以及运行逻辑操作(不需要I/O)的同步过滤器。异步Zuul过滤器允许我们在阻塞系统和非阻塞系统中执行完全相同的过滤逻辑。这使我们能够使用一个过滤集, 既可以为我们的合作伙伴开发网关功能,也可以在独立的代码库中开发基于netty的体系架构。有了异步Zuul过滤器,构建Zuul2 “只是”让我们的Zuul基础架构异步且非阻塞地运行。相同的Zuul过滤器可以直接进入这两种体系架构。

Zuul2在生产环境表现

关于异步架构对我们网关的好处,与假设的有很大的不同。一些人认为,由于上下文切换的减少和CPU缓存的更有效使用,我们将看到一个数量级的效率提升,而另一些人则认为,我们得不到效率的提升。对于改造和开发工作的复杂性,意见也各不相同。

那么,我们从这种架构改造中获得了什么?值得吗?这个话题引起了激烈的争论。云网关团队率先尝试在Netflix创建和测试基于异步的服务。人们对理解使用异步的微服务如何在Netflix上运行很感兴趣,而Zuul是一种可以观察改造收益的典型服务。

虽然我们在迁移到异步和非阻塞时没有看到显著的效率优势,但我们确实实现了连接扩展的目标。Zuul确实大大降低了网络连接的成本,使设备之间的推送和双向通信成为可能。这些特性将支持更多关于实时的用户体验创新,并将通过推送通知替代当前的“聊天”设备协议(占API流量的很大部分)来降低总体云成本。与阻塞模型相比,在处理来自原始系统的重试风暴和延迟方面也有一些弹性优势。我们正在不断改进这一领域;然而,应该注意的是,弹性优势的取得并不是直接的,需要一些经过努力和调整。

通过将Zuul的核心业务逻辑放入阻塞或异步体系结构的能力,我们可以对阻塞和异步进行有趣的比较。那么,尽管两个系统在特性、性能和弹性方面的方式非常不同,它们是如何完成完全相同的实际工作的呢? 在生产环境中运行Zuul 2几个月后,我们的评估是,一个系统的越是cpu密集型的,我们看到的效率提升就越少。

我们有几个不同的Zuul集群,用于前端服务,如API、回放、网站和日志。每个origin服务都要求由相应的Zuul集群处理不同的操作。例如,面向API服务的Zuul集群承担了所有集群中最多的开箱工作,包括度量计算、日志记录和对输入有效负载和压缩响应的解密。在这个集群中,将阻塞zuul转化为异步Zuul 2并不会提高效率。从容量和CPU的角度来看,它们本质上是等价的,考虑到Zuul服务前端API的CPU密集型程度,这是合理的。每个节点在吞吐量相同的情况下也会降级。

面向日志服务的Zuul集群具有不同的性能配置文件。Zuul通常接收来自设备的日志记录和分析消息,并且需要大量的写操作,因此请求很大,但是响应内容很小,而且未被Zuul加密。因此,Zuul为这个集群做的工作要少得多。虽然仍然是CPU密集型,但是通过运行基于netty的Zuul,我们可以看到吞吐量增加了25%,同时CPU利用率降低了25%。因此,我们观察到,系统实际做的工作越少,我们从异步中获得的效率就越高。

总的来说,我们从这个架构变更中得到的价值是很高的,连接扩展是主要的好处,但是它确实是有代价的。我们的系统调试、编码和测试更加复杂了,而且我们在Netflix的技术生态系统中工作,这个系统的运行假设是阻塞系统。技术生态系统不太可能在短时间内发生改变,所以当我们向网关添加和集成更多的特性时,我们很可能需要继续梳理出线程局部变量以及客户端库和其他支持性代码中的阻塞假设。我们还需要异步地重写阻塞调用。这是一个独特的工程挑战,重新开始构建和集成Zuul 2本可以避免这些复杂性,但我们所处的环境中,这些库和服务对我们的网关功能和Netflix技术生态系统中的操作至关重要。

— 云网关团队(Mikey Cohen, Mike Smith, Susheel Aroskar, Arthur Gonigberg, Gayathri Varadarajan, 和 Sudheer Vinukonda)

相关文章:

武林外传—一灯大师与众弟子漫谈Api网关选型

武林外传—武三通的zuul之惑

java达人

ID:drjava

(长按或扫码识别)


http://chatgpt.dhexx.cn/article/QXAxGv8R.shtml

相关文章

微服务架构:Zuul 1.0 和 2.0 我们该如何选择?

作者:架构师杨波 来源:波波微课 在今年5月中,Netflix终于开源了它的支持异步调用模式的Zuul网关2.0版本,真可谓千呼万唤始出来。从Netflix的官方博文[附录1]中,我们获得的信息也比较令人振奋: The Cloud Ga…

Zuul2核心架构

Zuul2的核心架构就是就是两大体系,netty体系和filter体系。 1 Netty体系 Zuul2底层采用Netty的事件响应模式,要掌握zuul2就必须先要掌握Netty。 1.1 Channel、Event、EventLoop、EventLoopGroup、ChannelHandler Channel:每一次通信就会启…

【Zuul2】网关Zuul控制台DashBoard

目录 一、需求背景 二、实现方案 一、源码获取 二、源码分析 三、效果展示 三、相关问题 一、需求背景 用JAVA为开发语言的流控网关主要分为以下三种: Netflix Zuul/Zuul2Spring Cloud GateWayAlibaba Sentinel 从定位上来看,Zuul2与SpringClou…

【Zuul2】Zuul2网关介绍及案例(非spring集成)

目录 一.使用缘由 二.项目介绍 1.核心内容 (1)三种过滤器 Inbound、Endpoint 、Outbound (2)配置文件application.properties (3)动态配置application.properties 2.参考文档 一.使用缘由 公司需要在springcloudgateway和zuul2间做一次较为完整的调研对比,…

time_t c语言 2038,什么是2038问题?

什么是2038问题 不知道你有没有听过2038问题?无论你是否听过,本文将带你认识什么是2038问题。 Unix时间戳 定义为从格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。 而在C语言中,常用time_t来表示。举个例子: #include #in…

MySQL的时间戳2038年问题还有16年,最好在设计上的时候使用datetime就可以了,不要使用时间戳字段了,即使用了也不要用int类型进行映射,使用long类型映射即可

目录 前言1,关于MySQL时间戳的2038年BUG2,使用Docker创建MySQL 模拟下3,总结 前言 本文的原文连接是: https://blog.csdn.net/freewebsys/article/details/127455169 未经博主允许不得转载。 博主CSDN地址是:https://blog.csdn.n…

计算机为什么不用三十二进制,32位进制导致2038年问题

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 在计算机应用上,2038年问题可能会导致某些软件在2038年无法正常工作。所有使用UNIX时 间表示时间的程序都将受其影响,因为它们以自1970年1月1日经过的秒数(忽略闰秒)来表示时间。 这种时间表示法在类Unix(Unix-like)操作系统上是…

2038年问题 linux内核5.6,Linux Kernel 5.6 开发者已率先做好准备 应对 2038 年问题

新十年伊始,Linux Kernel 5.6的开发者已经准备好着手解决将在下一个十年到来的2038年问题(又称“Y2038”或“Unix Y2K”问题)。Linux 5.6也成为第一个为32位系统准备运行到2038年之后的主线内核。 2038年问题与千年虫问题类似,它可能会导致某些软件在203…

mysql 2038年问题_时间戳(UnixTimestamp)与 《2038年问题》

时间戳是从格林威治时间1970年01月01日00时00分00秒(北京时间1970年01月01日08时00分00秒)起至现在的总秒数。 现在时间戳的长度是十位(1435113975--2015/6/24 10:46:15)。 要到 2286/11/21 01:46:40 才会变成11位(10000000000),距离现在还有 271年。 不同时区获取的…

2038年问题 linux内核5.6,Linux Kernel 5.6 开发者已准备好应对 2038 年问题

2038 年问题与千年虫问题类似,它可能会导致某些软件在 2038 年 1 月 19 日 3 时 14 分 07 秒之后无法正常工作。届时,在大部分 32 位操作系统上,依据 “time_t” 标准,时间将会“绕回”且在内部被表示为一个负数,并造成…

2038年问题 linux内核5.6,Linux 5.1延续为2038年问题所做的多年准备

Linux 5.1为2038年问题在内核方面继续进行大量的工作。 多年来在Linux内核一直看到“Y2038”的工作,而这一努力远未结束。Thomas Gleixner为Linux 5.1内核提交了最新的Y2038工作,在之前的内核中做了大量基础工作之后,Linux 5.1内核引入了一组…

2038计算机系统,2038年问题

2038年问题是指在使用POSIX时间的32位计算机应用程序上,格林尼治时间2038年1月19日凌晨03:14:07(北京时间:2038年1月19日中午11:14:07)之后无法正常工作。 中文名 2038年问题 外文名 Year 2038 problem概 念 计算机bug(程序错误) 载 体 使用POSIX时…

聊一聊2038年问题

庚子年是中国传统的 60 甲子纪年法。擅长观测的古人很早就发现,每当年份执行到庚子这一年,自然灾害变多,突发事件频频,一些震动世界、影响安定的大事件也容易发生在这一年。而我们现在所处的 2020 年就是新一轮的庚子年&#xff0…

List集合去重 --指定对象属性去重

在针对特定场景下,将获取到的list<T> 集合 按照某一个特定的对象中的属性进行去重操作,以下代码会将传入的集合进行指定去重,会将指定属性重复的对象 只保留第一个,后续的重复则不会保存到去重后的集合中,当然我们也可以通过集合的差异获取出重复的对象以及后续的再将去…

使用Set集合对List集合进行去重

使用Set集合对List集合进行去重 前段时间正好遇到这样一个需求&#xff1a;我们的支付系统从对方系统得到存储明细对象的List集合&#xff0c;存储的明细对象对象的明细类简化为如下TradeDetail类&#xff0c;需求是这样的&#xff0c;我要对称List集合进行去重&#xff0c;这里…

关于两个List集合对象去重

实际项目开发中&#xff0c;很多业务场景下都会遇见集合去重。在说到两个对象去重之前&#xff0c;首先我们回顾下普通类型的list如何去重&#xff0c;这里先说两个list自带的方法&#xff0c;图画的不是太好&#xff0c;勿喷- -&#xff01; 一&#xff1a;retainAll() List&…

java list集合数据去重方式

1.概述 最近又是一轮代码review , 发现了一些实现去重的代码&#xff0c;在使用 list.contain … 我沉思&#xff0c;是不是其实很多初学者也存在这种去重使用问题&#xff1f; 所以我选择把这个事情整出来&#xff0c;分享一下。 2.contain 去重 首先是造出一个 List 模拟…

Java【List】去重的 6种方法

list集合去重 一、HashSet去重二、TreeSet去重三、LinkedHashSet去重四、迭代器去重五、Stream去重六、contains判断去重等等... 其它实现方法 一、HashSet去重 我们知道 HashSet 天生具备“去重”的特性&#xff0c;那我们只需要将 List 集合转换成 HashSet 集合就可以了&…

List 去重的 6 种方法,这种方法最完美!

在日常的业务开发中&#xff0c;偶尔会遇到需要将 List 集合中的重复数据去除掉的场景。这个时候可能有同学会问&#xff1a;为什么不直接使用 Set 或者 LinkedHashSet 呢&#xff1f;这样不就没有重复数据的问题了嘛&#xff1f; ​ 不得不说&#xff0c;能提这个问题的同学很…

List去除重复数据的五种方式

你知道的越多&#xff0c;不知道的就越多&#xff0c;业余的像一棵小草&#xff01; 你来&#xff0c;我们一起精进&#xff01;你不来&#xff0c;我和你的竞争对手一起精进&#xff01; 编辑&#xff1a;业余草 blog.csdn.net/qq_37939251/article/details/90713643 推荐&…