阿里云飞天技术总架构师唐洪:飞天技术与应用

article/2025/8/31 23:27:31

一年一度的阿里技术论坛(Alibaba Technology Forum)已走进第7个年头,4月15日,阿里众多技术领军人走进清华校园。通过特设的三大技术论坛,参会人员近距离接触了阿里巴巴在云计算、大数据、金融、电商等方面的技术创新。

在云计算与大数据论坛上,来自阿里云飞天技术总架构师唐洪带来了以《飞天技术与应用》为主题的深度分享。下面是精彩内容内容整理。

eb499f00bb6e48fbd6b6e3f90c1e45695d77ae30

图:阿里云发展历程飞天是阿里云自主研发的大规模分布式云操作系统

飞天设计原则

在开始介绍飞天技术前,唐洪和现场观众分享了当初判断要做云计算需要解决的三个本质问题,而这三个本质问题决定了飞天系统设计的基本原则。

第一个本质问题,大规模。云计算本质上是随着互联网诞生并且为了解决互联网的问题产生出来的。根据2012年10月份数据统计,互联网每天产升2.5EB的数据,并且这个数字每40个月就会翻一番,处理这样大的数据一定要解决大规模计算的问题。拿淘宝为例,淘宝上每天完成上百亿元规模交易,同时要在6小时内(早晨6点以前)完成所有交易数据的统计。当然规模是相对的,但规模增加了时间限制,绝对值本身不是很大数据量的计算在本质上也是大规模计算的问题。

第二个本质问题,低成本。也就是说我们不单要解决规模计算的问题,而且要想办法让大家算得起。低成本不单单是简单的降低价格,而是像电话一样改变人们的习惯。同时,也能够像“电网”做到对资源的调度。

第三个本质问题,服务运营。真正能够提供大规模廉价的计算,唯一的方式是卖计算而不是卖计算机,像公共服务一样做到按量付费,这对很多创业公司来说是非常有益的。服务运营也意味着弹性扩展,当用户需要使用更多资源的时候可以很快开动资源,而不是等着再跟供应商下单,等计算机运到机房里。最后,服务运营也要解决安全问题,大家在使用自然资源、在使用云计算的时候不用担心安全问题。

正是基于上述对云计算要解决的三个本质问题的理解,在飞天系统设计开始就定下了两个基本原则。第一个原则,以大规模通用计算平台为基础,用同一套系统支持离线和在线服务,能够做到资源共享。第二个原则,以Web API的方式提供服务,也就是说希望提供线上服务,而不是到门市部填申请单交银行卡才能提供服务,让用户感觉不到地域的边界。

图解飞天架构

339e408476bd1ef0ffd8fadc37664803b09dd7a2

飞天开放平台架构

飞天最底层是全球部署的12个地区和几十个数据中心,这些数据中心里是安装了Linux操作系统的通用高端服务器。橙色组件组成了大规模通用计算平台,最底下四个橙色块(夸父远程过程调用、安全管理、女娲分布式协同和伏羲资源管理)代表构建分布式系统最基本的组件。唐洪着重指出,在整个飞天设计里面第一就把安全作为一个功能来设计。盘古分布式存储,简单来说,就是把所有集群中的硬盘组织成一个单个的文件系统。同时,两侧分别是天基的数据中心管理、分布式部署,以及神农分布式监控。唐洪说,大家觉得部署和监控是很简单的事,但做成7×24小时不间断就没有那么容易了,这时需要非常大的监控系统,秒级监控所有指标判断是否有问题并且实时修复。

中间蓝色一层是核心的资源型服务组件,大概分为三类:一是弹性计算,简单理解就是将物理机切分成虚拟服务器的概念。二是海量存储的数据库,其中OSS是存储无结构的数据比如视频、照片、音乐之类的,Table Store可以认为是半结构化存储,RDS则是关系型数据库服务。第三类是数据计算,它则分为多维度准实时数据的查询服务、实时流计算处理服务和大规模批量计算服务。

在上面还有一些端到端、基于云的应用所需要的核心服务,比如内容分发CDN、网络服务、安全服务、数据服务等。网络服务,包括VPC、域名服务和VPN。中间件服务,包括消息队列、工作流等。数据服务,则包括比如人工智能、语音识别、翻译、图象识别之类。

最上层则是生态支撑,容器服务可以支持那些基于容器的微服务架构,或者是编排服务帮助开发者在云上开展资源的编排。还有云市场,可以认为是云上的AppStore,开发者可以把他们的应用注册在云市场里面,使用者直接注册使用。还有开发者服务,开发者很容易监控诊断他们的应用并且发现问题和调试。

飞天技术特色

谈到飞天的技术特色,共六个方面。其中第一点,飞天同一个平台同时支持离线在线服务,这是飞天的通用性特色。如阿里巴巴集团子公司神马搜索就是建在飞天上,他们会进行千亿级别网页的离线处理,索引所有网页,大概每一两个月把整个索引翻一遍,此外拥有这么多网页的同时同样拥有整个网页之间关联的连接图,也是千亿级别的节点,并且有百亿级别的索引可以在线查询;在线方面,基于飞天平台的邮箱服务每天处理亿量级的邮件,日发送邮件达到千万量级,所有发送和接收在10毫秒级别完成。

其他几点包括:规模,飞天单集群达到了万台规模、百PB级别存储、10万级别的CPU合数;整个架构设计里面没有单点,确保了整个系统可用性达到99.95%;飞天应用设有默认等级,通过多副本冗余算法,数据可靠性达到10个9的可靠性;完全分布式的部署、监控和诊断。关于第六点安全方面,唐洪指出,飞天安全管理嵌入在飞天内核最底层,并且使用基于权能的安全管理框架,真正有效实施“最小化权限”原理。

e64e696bd2169f0d52c7d60446d6aa7d1c82ec2b

2013年8月15号,阿里巴巴集团已经拥有了中国范围最大的集群,达到五千台规模。现在,飞天已经成为阿里巴巴所有核心业务数据处理的平台,包括广告、搜索、个性化推荐、信用分析、风险管理等,并且飞天现在已有多个万台规模的集群,每天处理上百PB数据。

2014年7月1号MaxCompute(原ODPS服务)正式对外开放,这也标志着阿里巴巴成为世界上第一家对外公开提供5K处理能力的公司。很多公司可能有这样一个计算能力但从来没有把它当作公共服务开放给大家。在MaxCompute平台上线之前,组织了一场“天池大数据算法大赛”,当时有七千多个团队,主要是高校团队报名参加,在没有任何推广的情况下还有350多个来自海外的团队。

2015年10月,飞天打破了世界排序竞赛的记录,当时打破了4项,最有名的是用377秒完成100TB排序工作。之前这个成绩是1400多秒,也就提高了三倍还不止。

飞天之上

除了介绍飞天平台技术方面的内容,唐洪还分享了云计算如何实践技术拓展商业边界。

05d312e761d86a186355cb2727deadf81ed48954

阿里云帮助它们降低创业门槛

在降低互联网创业门槛方面,移动APP中的小咖秀就是一个典型。移动App天然就是长在云计算上的,移动设备本身的计算能力、存储能力非常有限,所以必须把大量计算和存储转换到云上去。并且很多移动创业公司面临着启动资金少、迭代周期快的问题,并且如果他们真正设计了一款非常流行的产品,业务增长非常快,所以要抵抗快速增长的压力,都对应到云计算的几个本质特征。小咖秀利用阿里云多媒体解决方案,开发第一版仅用了2天时间,2015年5月上线后两个月下载量位列App Store全榜前十,娱乐榜前五,日活跃用户超过5000万。然而,小咖秀后端服务团队仅有三个后台工程师,一个运维工程师。

在赋能业务创新方面,经典案例是天弘基金和《小门神》动画电影。天弘基金在10个月内管理资产从零增长到890亿美元,从一个无名小卒变成中国最大的货币基金。在产品发布后,天弘基金从IOE架构迁移到了阿里云,处理能力提升11倍、清算速度提升16倍。

《小门神》是追光动画打造的3D动画电影,其总渲染量达八千万核小时,超过《工夫熊猫2》、《超能陆战队》等好莱坞大片,《小门神》每秒钟影片渲染量超过一万核小时。阿里云提供了三万CPU核的弹性资源,缩短整体渲染周期几十倍。

在支持传统产业升级方面,经典案例比如12306。12306在2014年底上云,承接2015年春运高峰75%的余票查询流量,2014年12月19日达到春运火车票售卖高峰,PV297亿次,平均每秒PV 30万次,共发售火车票956.4万张,互联网售票占比59%。12306案例真正体现了云计算的优势——弹性扩容、秒级交付、按量付费。

最后在问答环节,唐洪再次强调了阿里云和其他开源系统和云计算公司的区别:“云计算的本质之一是服务运营。与开源相比,我们提供的是服务而不是软件。所以在提供服务的时候,我们想到的是怎么能够最高效、提供最好性能来完成用户的计算。在架构设计方面,阿里云不用虚拟机可以做到多租户,这和亚马逊提供的EMR之类的一个本质区别。”

本文转载自云栖社区:https://yq.aliyun.com


http://chatgpt.dhexx.cn/article/p4yTdO3L.shtml

相关文章

从飞天到倚天 阿里云底层自研技术大爆发

10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥、灵杰等多款重磅产品,阿里云“做深基础”成果浮出水面,底层自研技术迎来大爆发。 阿里云智能总裁张建锋表示,过去十二年,阿里云打造出中国…

阿里飞天大数据飞天AI平台“双生”系统正式发布,9大全新数据产品集中亮相

作者 | 夕颜 责编 | 唐小引 出品 | AI科技大本营(ID:rgznai100) 如今,大数据和 AI 已经成为两个分不开的词汇,没有大数据,AI 就失去了根基;没有 AI,数据不会呈现爆发式的增长。如何将 AI 与大…

独家揭秘阿里自研飞天操作系统洛神平台如何支撑起 2684 亿全球大促!| 问底中国 IT 技术演进...

作者 | 宗志刚 阿里云资深技术专家 责编 | 屠敏 出品 | CSDN(ID:CSDNnews) 2019年双11当天总成交额2684亿,交易峰值54.4万笔/秒,成交量背后是单日970PB的数据处理量。阿里巴巴核心系统100%上云,意味着公共云…

阿里云的“飞天“是什么?

转:阿里云的“飞天“是什么? 一、飞天是什么? 飞天(Apsara)是由阿里云自主研发、服务全球的超大规模通用计算操作系统。它可以将遍布全球的百万级服务器连成一台超级计算机,以在线公共服务的方式为社会提…

阿里云飞天平台

目录 0 参考列表 1 概念 2 系统架构 2.1 系统架构图 2.2 飞天内核 2.3 飞天开放服务 0 参考列表 CSDN:BigData入门(四):Fuxi(伏羲)https://blog.csdn.net/MOU_IT/article/details/95896744 1 概念 阿里云飞天平…

阿里云飞天系统

阿里云飞天系统 有幸在阿里云飞天部门工作几年,下面给出基础架构一览:

【阿里—云计算】从飞天系统到飞天2.0(核心组成:飞天洛神)

声明:资料来源 本文为此学期云计算课程的一个拓展性任务,用于了解飞天系统与其2.0版本中的飞天洛神,因存为word易丢失,于是整理成博文放置CSDN,便于今后按需查看,因为本文除排版外全为引用内容,…

【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)

一、物理架构 物理架构 - 企业大数据系统的各层次系统最终要部署到主机节点中,这些节点通过网络连接成 为一个整体,为企业的大数据应用提供物理支撑 ,企业大数据系统由多个逻辑层组成,多个逻辑层可以映射到一个物理节点上,也可以映射到多个物…

阿里云飞天系统的技术架构

阿里云飞天系统的技术架构 阿里云有以下五大优势: 中国万网,提供虚拟主机托管的服务,而且还提供域名等服务,其客户群非常庞大; 淘宝、阿里巴巴(内部称:B2B)、支付宝等其他子公司有大…

阿里飞天云平台架构简介

一. 简介 飞天是由阿里云开发的一个大规模分布式计算系统,其中包括飞天内核和飞天开放服务。 飞天内核负责管理数据中心Linux集群的物理资源,控制分布式程序运行, 隐藏下层故障恢复和数据冗余等细节,有效提供弹性计算和负载均衡…

程序人生 - 猫咪冷知识!猫咪“呼噜呼噜”声究竟代表什么?

猫咪,包括所有的猫科动物,它们的习性都非常相似。猫咪有一个习惯,就是总是会时不时地就发出“呼噜呼噜”的声音。这种声音的频率和音调其实蛮有催眠效果的,反正八酱听到猫咪在身边发出这样的声音的时候,就很容易安眠了…

[鼠标指针][仅需1步]宝藏的猫咪Cat老师[win10/11][点击看更多免费]......

win10/11好看的免费鼠标指针样式... 1.鼠标指针样式介绍****** 推荐猫咪老师 ******* 2.安装使用3.来源 1.鼠标指针样式介绍 ****** 推荐猫咪老师 ******* Janguru CursorsJanguru Cursors X2Win 11 Cursors LightWin 11 Cursors DarkOverwatch PointerOS X El Capitan v4 MIN…

【python】采集可爱猫咪数据并作可视化

前言 嗨喽~大家好呀,这里是魔王呐 ! 环境介绍: python 3.6 pycharm 爬虫部分使用模块: csv requests >>> pip install requests parsel 如何安装python第三方模块: win R 输入 cmd 点击确定, 输入安装命令 pip install 模…

猫咪单独为某个网站添加Proxy

猫咪将overleaf网站添加到猫咪名单中,猫咪单独为某个网站添加猫咪 坑。暂时没有找到解决方案。 我想实现的效果是,打开一个网站,如果网站比较卡,就把这个网站添加到直联列表中。停止对它的猫咪。 方案1: 1、修改猫…

最近非常火的猫咪回收站操作总结来了~

具体步骤: ①下载喵咪图标,百度网盘: 链接:https://pan.baidu.com/s/1noZvCVeyj3Zs4G9XaK69BQ?pwdu1g5 提取码:u1g5 ②开始-打开电脑设置-个性化-主题-桌面图标设置-更改回收站图标-结束 注意事项:改图标…

Java新特性(2):Java 10以后

您好,我是湘王,这是我的CSDN博客,欢迎您来,欢迎您再来~ 虽然到目前为止Java的版本更新还没有什么惊天动地的改变,但总是会冒出一些有趣的小玩意。前面列举了Java9和Java10的一些特色,现在接着来…

【JavaSE】Java9Java10Java11新特性(687~717)

687.复习:动态代理 688.复习:Lambda表达式 689.复习:函数式接口 690.复习:方法引用与构造器引用 691.复习:Stream API 692.复习:Optional类的使用 693.jdk版本更新说明 JDK 9 的发布 经过4次跳票&#x…

Java-13

学习来源:日撸 Java 三百行(41-50天,查找与排序)_闵帆的博客-CSDN博客 42 哈希表 42.1 使用 (最简单的) 除数取余法获得数据存放地址 (下标)。 42.2 使用 (最简单的) 顺移位置法解决冲突。 代码: /***************…

Win10下安装Java JDK12

前言:这是在csdn上写的第一篇博客,本以为第一篇会是超厉害的技术博客,没想到在重装系统,重新配置java环境的时候踩了这么大一坑,而且更重要的是,搜了那么多篇博客内容都跟假的一样,要么是抄的&a…

Java:Windows 10下载和配置JDK

文章目录 0. 介绍1. 下载2. 安装2.1. “.zip” 安装2.2. “.exe” 安装 3. 配置4. 测试4. 问答 0. 介绍 JDK,全称是 “Java Development Kit”,Java 开发工具包,是一个开发 Java 必不可少的程序或资源(目前可替换的有&#xff1a…