一群阿里人如何用 10 年自研洛神云网络平台?技术架构演进全揭秘

article/2025/8/31 17:27:54

【编者按】逍遥子曾说,对阿里人来说「打仗是最好的团建,参加过双 11 的叫战友」,同样,参加过多次双 11 考验的系统技术都会成为真正意义上的基础设施,阿里云飞天系统的云网络平台洛神就是如此。

本文作者 —— 阿里云智能事业群研究员、网络产品线负责人祝顺民(花名江鹤)就是洛神背后的核心铸造者。在「CSDN 在线峰会 —— 阿里云核心技术竞争力」上,江鹤为详细分享洛神网络的 10 年演进之路。

复制链接或点击「阅读原文」可免费观看江鹤分享视频:

https://edu.csdn.net/course/play/28249/388353

作者 | 阿里云研究员祝顺民(江鹤)

编辑 | 唐小引

出品 | CSDN(ID:CSDNnews)

今天的主题是《云网络技术架构的演进之路》,主要介绍阿里云网络产品从无到规模应用的 10 年过程中,云网络技术平台洛神是怎么发展的。 

阿里云飞天洛神云网络平台

阿里云系统叫飞天,云网络平台称为洛神,洛神和飞天系统的关系如下图所示,洛神云网络平台是阿里云飞天操作系统内核的核心组件和系统服务,伴随着飞天系统一起诞生、成长。

图 1 阿里云网络洛神平台与飞天操作系统

整个飞天系统架构分为几个层次,底层数据中心基础设施,包含物理资源、机房、服务器,还有多地域和可用区(AZ)、物理网络等;其上是飞天操作系统的核心,支撑了整个云计算的虚拟化,包括计算平台神龙,存储平台盘古,以及网络平台洛神;基于系统核心组件,构建了面向用户的系统服务以及原生服务,支撑不同行业客户在阿里云上构建自己的应用系统。

飞天洛神平台的诞生

洛神伴随飞天系统诞生,是云计算产业发展的结果,云计算首先是计算虚拟化,并提供给不同的用户使用,当用户在云上使用计算资源时,网络地址独立规划,不同用户地址可以相同,且虚拟机可以在不同机房之间迁移,地址保持不变,同时云计算是一个基础设施,支持海量用户同时使用,这些关键需求要求提供一个超大规模的虚拟化大二层的网络。

图 2 云计算租户网络应用需求

这些需求,使用传统商用物理交换机和路由器构建的网络,无法满足云计算的需求,也满足不了阿里云运营这张网络的需求,主要原因在于:

1)在百万级别的租户之下,如果每个租户都给到一张独立的地址空间,地址空间的数量非常庞大,传统交换机里面使用 VRF 来隔离租户之间的空间,意味着交换机要支持海量的 VRF 资源,这是目前硬件能力无法支持的。

2)服务器和虚拟机的数量增长,网络节点以及路由表的规模快速增大,虚拟机通讯和迁移要求路由表能快速同步。

3)当用户对云上网络层面的功能需求越来越多的时候,比如说用户在云上不仅希望有个虚拟机,还可以有个公网 IP;比如说用户可以自行定义这张网络 IP、路由和安全组。另外随着 NFV 技术发展,用户希望在云上运行虚拟化业务网元,例如负载均衡、NAT 网关、VPN 网络,要求对应的底层网络能快速进行功能迭代,以满足新需求和新技术的快速应用。

4)更关键的是,传统物理交换机是一个黑盒,各个厂商实现各异,接口各不一样,同时不支持设备内功能定制开发,让设备的运维成为一个难题。

图 3 传统网络设备应对云计算的约束

所以阿里云网络选择了一条自研的路,使用三大技术满足云计算的需求:

1)虚拟化网络; 

2)SDN 技术,软件来定义网络;

3)整个技术栈自研。

阿里云网络洛神平台就此诞生。

图 4 洛神网络 10 年演进

洛神云网络平台随着阿里云飞天系统一起,已经经历了 10 年演进,分为两个阶段,洛神 1.0 时代,主要定位为支撑超大规模和多租户的网络。

随着阿里云的业务快速发展,尤其近几年规模增长特别快,2018 年开始推出洛神 2.0,洛神 2.0 的特点主要在高性能、弹性开放能力。

现在阿里云上运行着很多超级规模的用户,比如阿里巴巴集团的淘宝业务,这些超大规模用户对网络的性能提出了很高的要求,特别是在例如双 11 这种大型活动期间,网络流量的峰值是十分巨大的,这对网络的性能提出了非常高的要求。

同时阿里云提供了丰富的基础 IaaS、 PaaS 产品与服务,第三方的生态伙伴可以在阿里云上提供众多的 SaaS 服务,包括网络类的 SaaS 服务,例如网络管理类、网络数据分析类、网络日志管理类、网络转发类的软件。这些软件在阿里云上很好的运行,需要网络提供弹性,开放的能力,就是洛神 2.0 的定位。 

飞天洛神 1.0:超大规模、多租户网络

洛神 1.0 平台由很多网络组件组成,架构上主要分成两类:AVS(Apsara vSwitch)和各种网关网元。AVS 是部署在每个物理服务器上的软件网元。最早基于 XEN 的 Kernel 架构实现,转发性能不高,单机只有 15 万 PPS。随后演进到了 KVM 的架构,在这个架构下,vSwitch 还是在 Kernel 的,但已能提供单机 120 万 PPS 性能。然后在 Intel 推出 DPDK 版本后,AVS 进行了架构升级,使用用户态 DPDK,转发性能提升至 600 万 PPS。

AVS 的演进,是为了追求网络性能大幅提升的过程,是阿里云网络持续迭代和改造网络软件架构的原动力。

关于业务网关,最早也是基于 Kernel 网络协议开发。例如 Load Balance 设备,第一代也是基于 Kernel 开发,当时整台物理机性能大约只有 300 万 PPS。为了追求更高的性能,这些网元基于 DPDK 进行了重新构建,既包括公网网关、私网网关,还有 SLB、NAT 网关、VPN 网关等等,转发性能提升了 20 倍。

洛神 1.0,基于 DPDK 的 AVS 和各种网关,最终搭建出一张支持超大规模租户、超大规模虚拟机的网络。 

图 5 洛神 1.0 支持超大规模租户网络

如图所示,在这张超大规模的租户网络里面,我们达到的核心能力包含:

1)多租户隔离,每个区域可以支持百万规模的 VPC。如果说一个租户对应一个 VPC,一个区域就可以支持百万规模的租户;

2)单个 VPC 支持超大规模虚拟实例,目前有一些超大规模的 VPC 中实际部署并运行了超过 30 万的 ECS,也就意味着此租户的这张网络里面有 30 万个以上的 IP, ECS 之间的通讯,包括东西和南北向的流量,都能很好的在虚拟网络里面运行。

3)最后就是基于 AVS 能力,单个 ECS 能够提供百万级 PPS 能力的转发性能。

飞天洛神 2.0:连接全球,高性能,弹性开放网络

洛神 1.0 支撑了阿里云网络从无到有,至规模应用,随着阿里云的业务不断增长,租户越来越多,也带来了越来越多的 VPC。租户购买的虚拟机越来越多,也代表着网络里的节点越来越多,转发性能要求越来越高。此外,也有越来越多的租户在云上不但仅仅满足简单的连通性要求,提出了丰富的业务网元处理诉求。例如用户原来在自己的数据中心里面构建了防火墙和 NAT,或者自己买了一些 Load balancer 的设备,现在业务系统搬到阿里云上之后,希望原来的网络功能继续在阿里云使用。

在此背景下,洛神平台升级到 2.0。如图所示,洛神 2.0 提供了更加丰富的转发网元,既有神龙 MOC 卡,还有专用可编程芯片以及通用 ECS;同时洛神 2.0 新构建了一个 NFV 平台,支持业务网元不再依赖传统 X86 服务器,直接基于 NFV 平台构建,例如 NAT、SLB、VPN 产品,同时 NFV 平台支持开放能力,第三方的网元也可以基于 NFV 平台部署,通过 VPC 内和 VPC 间的访问。 

图 6 洛神 2.0 架构图

洛神 2.0 的基础是阿里云遍布全球的网络基础设施和 Region 数据中心的基础设施。目前在全球有 20 个 Region、61 个可用区,100 多个 POP 节点。当国内用户需要出海或者国外的用户需要进中国的时候,不再需要自己购买很多物理形态的设备和网络连接,并花很长的时间搭建出网络基础设施。基于洛神 2.0,阿里云的网络产品就可以分钟内快速构建出运营网络、基础设施。

洛神 2.0 的 AVS 和业务网关都进行了架构跨越式升级,AVS 基于软硬件一体化方式,使用神龙 MOC 卡实现快速转发,转发性能提升数倍,达到千万 PPS。

图 7 软硬件一体的新一代 AVS

洛神 2.0 另一个跨越式架构升级是提供新一代的 NFV 平台,通过网元逻辑部署在通用 ECS 上,提供弹性和开放能力。当第三方厂商将其应用移植到阿里云之后,就可以在阿里云市场里对阿里云的租户进行售卖和提供能力,形成了一个非常好的生态:

1)网元可以给大量租户使用;

2)客户的白天流量很大,半夜的流量很少时,阿里云会自动帮你缩容。

如果说在某个时刻点突然碰到高峰,阿里云会自动协助扩容,也就意味着第三方的网元利用洛神 NFV 平台,不仅可以开放部署,还可以享受到自动的弹性。

图 8 洛神 2.0 NFV 开放平台架构

飞天洛神的未来

洛神 2.0 中,还有一个齐天智能网络平台,是未来演进的重要能力,未来的网络将是一个智能化的网络。当客户业务部署在阿里云的时候,如果网络发生波动或故障,需要非常快速的排查问题,因为网络是属于最底层的服务,当业务不能对外提供服务的时候,首先会想到网络问题。这个时候网络可能是正常的,有可能是上层业务的问题。如何让上层业务团队快速定界问题所在,如何让网络的管理员能快速自证清白,提升未来生产运营服务的效率,就这是未来智能化网络需要解决的问题。

图 9 洛神的未来演进

未来阿里云洛神平台的发展方向就是智能化,未来会通过自研网元,采集网络中数据,并且用大数据的方式去做产品问题分析和资源规划,目前洛神齐天系统已经构建在一部分能力,在内部使用,未来会提供给阿里云的客户,让客户可以智能化的运营自己的网络基础设施,这就是阿里云洛神平台未来演进的方向。

作者简介:祝顺民(花名江鹤),阿里云智能事业群研究员,网络产品线负责人,在软件定义网络(SDN)和网络功能虚拟化(NFV)领域有多年技术研发和管理经验。他带领团队历时多年,从无到有,打造了业内最丰富的云网络产品线,并铸造了阿里云飞天系统的云网络平台-洛神,服务了百万用户,并历经 8 次天猫双十一考验,已经成为真正意义上的基础设施。

欢迎所有开发者扫描下方二维码填写《开发者与AI大调研》,只需2分钟,便可收获价值299元的「AI开发者万人大会」在线直播门票!

推荐阅读

  • GitHub标星2000+,如何用30天啃完TensorFlow2.0?

  • 8比特数值也能训练模型?商汤提训练加速新算法丨CVPR 2020

  • 400 多行代码!超详细中文聊天机器人开发指南 | 原力计划

  • 微软为一人收购一公司?破解索尼程序、写黑客小说,看他彪悍的程序人生!

  • 机器学习项目模板:ML项目的6个基本步骤

  • BM、微软、苹果、谷歌、三星……这些区块链中的科技巨头原来已经做了这么多事!

  • 你点的每个“在看”,我都认真当成了AI


http://chatgpt.dhexx.cn/article/bDT8tghK.shtml

相关文章

大繁至简,首度揭秘阿里云飞天洛神系统

“最好的网络就像神一样,无处不在,又感知不到她的存在 …… 大繁至简,这是我们努力的方向。” – 阿里云网络高级技术专家 孙成浩 2018杭州云栖大会的主会场上,阿里云产品总监何云飞介绍了阿里云自主研发的云操作系统飞天的全…

盘古:阿里云飞天分布式存储系统设计深度解析

在10月19日的云栖社区在线培训上,来自盘古团队的吴洋分享了《盘古:飞天分布式存储系统实践》。他主要从以下三个方面进行了分享:盘古是什么?盘古是用来解决什么问题的?盘古是怎么解决问题的?他主要介绍了盘…

飞天,进化!

转:阿里云的“飞天“是什么? 一、飞天是什么? 飞天(Apsara)是由阿里云自主研发、服务全球的超大规模通用计算操作系统。它可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提供计算能力。 从PC互联网到移动互联网到万物互联网,互联网成为…

阿里云发布飞天2.0云计算操作系统

阿里云发布飞天2.0云计算操作系统 1991年,《科学美国人》杂志描绘了一种“无处不在的计算设备,没人会感觉到它的存在”,拉开了万物智能的序幕。 27年后的2018杭州云栖大会上,阿里云公布了面向万物智能的新一代云计算操作系统——飞…

阿里云(飞天)里的 盘古

转载:盘古:阿里云飞天分布式存储系统设计深度解析 盘古是什么? 上图列举了目前主流的云计算厂商,我们发现一个很有趣的事情:所有云计算厂商都是“富二代”,它们的分布式存储技术全部采用自研技术&#xf…

阿里云飞天系统的技术架构(转)

阿里云有以下五大优势:中国万网,提供虚拟主机托管的服务,而且还提供域名等服务,其客户群非常庞大。淘宝、阿里巴巴(内部称:B2B)、支付宝等其他子公司:有大量的数据分析业务&#xff…

阿里云飞天技术总架构师唐洪:飞天技术与应用

一年一度的阿里技术论坛(Alibaba Technology Forum)已走进第7个年头,4月15日,阿里众多技术领军人走进清华校园。通过特设的三大技术论坛,参会人员近距离接触了阿里巴巴在云计算、大数据、金融、电商等方面的技术创新。…

从飞天到倚天 阿里云底层自研技术大爆发

10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥、灵杰等多款重磅产品,阿里云“做深基础”成果浮出水面,底层自研技术迎来大爆发。 阿里云智能总裁张建锋表示,过去十二年,阿里云打造出中国…

阿里飞天大数据飞天AI平台“双生”系统正式发布,9大全新数据产品集中亮相

作者 | 夕颜 责编 | 唐小引 出品 | AI科技大本营(ID:rgznai100) 如今,大数据和 AI 已经成为两个分不开的词汇,没有大数据,AI 就失去了根基;没有 AI,数据不会呈现爆发式的增长。如何将 AI 与大…

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进...

作者 | 宗志刚 阿里云资深技术专家 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 2019年双11当天总成交额2684亿,交易峰值54.4万笔/秒,成交量背后是单日970PB的数据处理量。阿里巴巴核心系统100%上云,意味着公共云…

阿里云的“飞天“是什么?

转:阿里云的“飞天“是什么? 一、飞天是什么? 飞天(Apsara)是由阿里云自主研发、服务全球的超大规模通用计算操作系统。它可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提…

阿里云飞天平台

目录 0 参考列表 1 概念 2 系统架构 2.1 系统架构图 2.2 飞天内核 2.3 飞天开放服务 0 参考列表 CSDN:BigData入门(四):Fuxi(伏羲)https://blog.csdn.net/MOU_IT/article/details/95896744 1 概念 阿里云飞天平…

阿里云飞天系统

阿里云飞天系统 有幸在阿里云飞天部门工作几年,下面给出基础架构一览:

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

声明:资料来源 本文为此学期云计算课程的一个拓展性任务,用于了解飞天系统与其2.0版本中的飞天洛神,因存为word易丢失,于是整理成博文放置CSDN,便于今后按需查看,因为本文除排版外全为引用内容,…

【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)

一、物理架构 物理架构 - 企业大数据系统的各层次系统最终要部署到主机节点中,这些节点通过网络连接成 为一个整体,为企业的大数据应用提供物理支撑 ,企业大数据系统由多个逻辑层组成,多个逻辑层可以映射到一个物理节点上,也可以映射到多个物…

阿里云飞天系统的技术架构

阿里云飞天系统的技术架构 阿里云有以下五大优势: 中国万网,提供虚拟主机托管的服务,而且还提供域名等服务,其客户群非常庞大; 淘宝、阿里巴巴(内部称:B2B)、支付宝等其他子公司有大…

阿里飞天云平台架构简介

一. 简介 飞天是由阿里云开发的一个大规模分布式计算系统,其中包括飞天内核和飞天开放服务。 飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行, 隐藏下层故障恢复和数据冗余等细节,有效提供弹性计算和负载均衡…

程序人生 - 猫咪冷知识!猫咪“呼噜呼噜”声究竟代表什么?

猫咪,包括所有的猫科动物,它们的习性都非常相似。猫咪有一个习惯,就是总是会时不时地就发出“呼噜呼噜”的声音。这种声音的频率和音调其实蛮有催眠效果的,反正八酱听到猫咪在身边发出这样的声音的时候,就很容易安眠了…

[鼠标指针][仅需1步]宝藏的猫咪Cat老师[win10/11][点击看更多免费]......

win10/11好看的免费鼠标指针样式... 1.鼠标指针样式介绍****** 推荐猫咪老师 ******* 2.安装使用3.来源 1.鼠标指针样式介绍 ****** 推荐猫咪老师 ******* Janguru CursorsJanguru Cursors X2Win 11 Cursors LightWin 11 Cursors DarkOverwatch PointerOS X El Capitan v4 MIN…

【python】采集可爱猫咪数据并作可视化

前言 嗨喽~大家好呀,这里是魔王呐 ! 环境介绍: python 3.6 pycharm 爬虫部分使用模块: csv requests >>> pip install requests parsel 如何安装python第三方模块: win R 输入 cmd 点击确定, 输入安装命令 pip install 模…