我们已经准备好了,你呢?

2024我们与您携手共赢,为您的企业形象保驾护航!

十年前,“IOE”稳坐IT架构的C位。 这点毋庸置疑; 十年后,云迁移已成大势所趋,云原生、云计算、云计算已成为主流。 以阿里云为代表的国内云计算不断迎头赶上,不仅缩短了与国际巨头的差距,形成了庞大的“计算”家族。 在本文中,InfoQ 通过阿里巴巴集团研究员、阿里云智能弹性计算负责人张先涛和阿里云高级技术专家易立的讲述,还原了阿里云十年“计算”重构史阿里云容器技术负责人。

“算计”一家人努力攻坚克难的岁月

2008年到2015年,从“去IOE”到虚拟化架构全面升级,从最初涉足容器到全面容器化。

2008年,云计算时代逐渐开启,众多巨头加入,开始良性竞争。 与此同时,阿里巴巴提出“去IOE”,引发了业界不小的讨论。

2009年,阿里云成立。 当时云计算不太可能使用这样的商业软件,所以使用了流行的开源虚拟化软件Xen。 第二年,阿里云推出了第一款弹性计算产品ECS。

此外,阿里云网络产品也开始健全,AVS、SLB相继推出。 但从技术产品来看,阿里云早期的“计算”家族还比较薄弱,存在一定的局限性。 云计算的概念在业界基本处于起步阶段,参与者并不多。

2011年以来,各种乌云开始出现。 更强、更新的CPU带来了云上虚拟机计算能力的改进和升级。 阿里云逐步丰富计算产品家族,相继推出ECS 2.0和ECS企业级产品。 家族,从Xen架构研发转向KVM架构,为12306提供技术支持。

与此同时,阿里云开始研究当时尚未流行的容器技术。 整个团队正在研究T4,一种基于LXC的云技术。 容器调度技术开始逐步支撑阿里巴巴集团线上业务,云原生时代开始。 。

2013年,淘宝最后一台小型机下线,阿里巴巴自主研发的飞天云操作系统开始支撑集团业务。 不久之后,洛神1.0发布,这是国内第一个自主研发的SDN系统。 虽然这些消息的发布让外界震惊,阿里云居然有这样的实力,但只有他们自己最清楚,技术瓶颈还需要突破。 当时业界还停留在如何利用好当前CPU提供的能力,比如Xen、KVM等虚拟化软件,但并没有发生太大的改变。 除了提供的二进制翻译技术和剑桥大学提出的半虚拟化技术外,业界并没有太多的创新。

“当时我们的虚拟化技术已经跟不上云计算发展的步伐了。特别是当时我们也在探索如何把自己的业务迁移到云端,遇到了很大的问题。我们需要对虚拟化技术进行革命性的变革。” ”——张先涛。

“不,我们需要创新”

2015年,整个团队开始探索可能的改革途径。 当时遇到的主要问题是虚拟化的性能损失,这是云计算从诞生起的一个缺点。 自成立以来,阿里云工程师一直在努力减少云计算虚拟化的损失。 当时,已经远低于行业平均水平。 然而,在2016年双11技术评审会上,时任阿里巴巴集团CTO张建锋提出了极其严格的要求——将虚拟化开销降低到零。 这似乎违反了能量守恒定律,甚至学术界也没有相关研究。

最终,阿里云团队找到了新办法,提出了新的解决方案——使用专用芯片来解决虚拟化开销。

从技术实现的角度来看,阿里云研发团队需要重构计算架构,开发新的芯片组,为每个节点提供功能和管理支持。 在此基础上,接下来还会开发新的芯片组。 设置新的服务器硬件和支撑系统软件; 然后将这个技术架构融入到现有的产品设计中。

软件和硬件之间协同架构设计的概念已经转移到云端。 大型云厂商已经部署了数百万台服务器,这意味着任何硬件都可以定制。 云厂商也开始重新审视芯片、硬件和软件的协同创新。 想要从软硬件融合中获得技术红利,一个重要的前提就是能够定制芯片、自主开发硬件。

就这样,张仙涛的整个团队开始了下一代虚拟化技术——“神龙”的研发之旅。 回忆起这个决定,张仙涛在接受采访时表示:“我们大概在2016年就开始规划下一代虚拟化技术,也就是神龙。我们当时的判断是,这就是未来的数据中心,尤其是云数据中心虚拟化技术。”有趣的是,近年来,业界几乎所有的云计算公司都在向神龙架构演进,我们也很早就开始采用神龙架构来支持双11业务。 ”

2017年,神龙架构问世。 它真正采用了软硬件一体化、软硬件协同设计的模式,改变了传统虚拟化技术与当前计算架构不友好的方面。 与“神龙”的含义相似,阿里云今年推出了全球首个云企业网络CEN,引领了行业云网络互联产品的发展方向。 今年,阿里云网络产品爆发,相继推出迁移VPC解决方案、VPN网关、共享流量套餐、共享带宽、全局加速、云企业网等。

神龙架构发布不久,就有一家汽车厂商过来询问能否提供高性能计算能力。 面对工程仿真服务计算资源短缺,本地HPC集群硬件资源老化,性能无法满足业务需求。 更新迭代会影响业务进度。 整个公司陷入两难境地。 就这样,双方共同打造了业界首个IaaS混合工业仿真计算服务平台,并于2018年初成功上线。

与此同时,阿里云容器团队也开始进行技术整合,并于2015年底正式发布企业级容器服务ACK,正式对外开放容器技术。 整个集团也开始全面实施容器化,推动整个应用的开发、交付和运维。 方法的改变。 李毅在采访中这样说道。

今年,全面集装箱化助力双11促销实现快速弹性扩张。 由于业务规模极其庞大,其复杂度非常高,这也给容器技术带来了更大的挑战。 例如,在容器镜像分发过程中,一次性发布和分发数万个镜像。 如此巨大的流量是一个很大的挑战。 为了达到效率的极致要求,阿里云采用P2P技术实现大规模、大批量的快速分发,使得跨机房镜像下载容器启动能够在10秒内完成。 容器技术对双11的重大影响还包括在主机代管技术的具体实现上。 通过主机代管技术,阿里巴巴集团可以节省约30%的IT成本支出。 双11特殊时期,每万笔交易成本下降75%以上。

今年,云网络也进入云原生时代,推出云原生SDWAN并全面支持IPv6。

至此,整个阿里云“计算”家族已经相当完整、庞大,并正在尝试在双11进行应用。

统一“毕业考试”:全面支持双11

2016年到2019年,阿里云“计算”家族从最初参加双11到全力支持双11,并在这次毕业考试中取得了优异的成绩。

2018年双11期间,阿里巴巴尝试用神龙架构来支撑部分流量,这在一定程度上可以验证神龙的整体产品和技术架构是否有能力支撑双11的超级流量。

“我们对这件事非常谨慎。我们不仅需要能够支撑这些流量的影响,还需要使其在性能、稳定性、效率等方面比上一代技术更好,并且可以带来成本节约。”

在2018年成功通过测试后,阿里巴巴将在2019年将其所有核心交易系统全部迁移到云端。“这些系统对存储IO能力、计算能力、网络延迟等的要求,相当于把神龙的能力压榨到了极致。” 。 双11如果大促可行的话,我们就会更有信心服务大客户。 ”

在这个部署过程中,容器与神龙架构也完成了完美的适配。 运行在神龙裸机服务器上的容器相比物理机有10%-30%的性能优势。 “容器本身是一种非常轻量级的、OS虚拟化技术,它最大的特点就是敏捷、弹性、可移植。容器化应用对底层资源的第一要求是弹性强;第二要求有不同的弹性计算资源供给。X - 架构可以统一支持虚拟机、物理机甚至弹性容器实例,可以满足容器应用的多样化需求。第三个需求是X-架构下更高的计算密度、存储密度和网络密度。有了很大的提高。”李毅说道。

在2019年的这场大考中,整个阿里云“计算”家族顺利毕业,并实现了2500亿的交易额。 同年发布的洛神2.0系统也在本次双11完美亮相。

今年双11,集群规模突破百万容器,单容器集群节点数突破万个,数据库峰值交易数超过每秒54万笔,对应每秒8700万次查询,峰值每秒处理的实时计算消息数超过25亿条,高峰时消息系统每秒处理的消息超过1.5亿条。

总结会上,星典表示:过去的20个小时是阿里巴巴最经受技术考验的时间。 阿里巴巴100%的核心系统都托管在阿里云上,这是我们在世界上第一个做到的。 我们拥有自主研发的飞天操作系统、神龙架构、云原生数据库、计算存储分离架构。 我们是世界第一。 大规模RDMA网络。

经过此战,阿里云“计算”家族的技术能力得到了广泛认可。 然而,突如其来的疫情再次将他拉回备考之中。

2020年,意想不到的测验

2020年,一场疫情打乱了很多人的生活节奏。 如果说“双11”是一场重大毕业考试,那么疫情就是一场临时测验。 为了应对疫情期间在线办公、在线教育场景流量激增,阿里云在2小时内迅速帮助钉钉紧急扩容1万台云服务器。 这一数字也创下了阿里云快速扩张的新纪录。

阿里云凭借自身的大规模集群管理能力,帮助百家云团队在短短几天内对原有架构方案进行了有效升级,实现了数十倍的扩容,性能和稳定性大幅提升。 并且它有能力在用户不注意的情况下应对爆炸性规模。

“随着阿里云计算能力的不断增强,我们已经能够每分钟扩容1000个虚拟机,弹性容器实例的平均启动时间仅为10秒。”

今年,阿里云迎来了基于容器或服务的数据湖分析、实时计算、大数据分析等产品的对外交付。 此时,我们已经可以看到新的可能性。

2020年9月18日,在2020杭州云栖大会上,阿里巴巴正式成立云原生技术委员会,云原生成为阿里巴巴的新技术战略。 云原生技术委员会成立后,双11核心系统再次全面云原生。

易立在采访中表示,支撑本次双11活动的规模和创新有四个重要突破:一是极致的灵活性。 双11期间突发的业务量可达平时的十倍以上。 不仅是阿里巴巴集团,其合作的商户、物流公司也需要面对这样的流量影响,而阿里云可以有效支撑。

二是极致的计算能力。 双十一期间,大数据平台的批量处理日志量和实时计算数据量非常大。 阿里云实现了核心数据库的全面云原生化,使得整个数据库充满了弹性。

第三个是三位一体。 开源产品与商业云产品统一,并在集团内部统一。 比如容器团队开源的云原生应用自动化引擎,本质上就是一个基于标准扩展的应用加载项目。 它可以与本机一起使用并提供管理应用程序。 容器、镜像分发等方面提供更强大、高效的能力,从而通过部署、升级、弹性扩缩容等不同维度的自动化,解决上述应用的大规模运维和大规模建站问题, QoS 调整、运行状况检查、迁移修复等。 截至2020年双11,阿里巴巴内部有近10万个容器,运行和管理着数百万个容器。 而且,阿里巴巴内部运行的版本代码95%以上来自社区仓库。

四是大规模实践。 很多业务都是这样发展的,其弹性扩展性比之前提升了至少10倍,可以大大提高整个平台的弹性和稳定性。

截至2020年,经过10多年的技术实践,阿里云已经拥有国内最丰富的云原生产品家族,覆盖10多个品类100多个产品,涵盖底层基础设施、数据智能、分布式应用等,可以满足不同的需求。 行业场景需求,打造企业数字化创新最短路径。

下一个十年的技术准备

“我们坚信云计算是未来”

随着以云为代表的云原生技术成为云计算的容器接口,成为云计算的新一代操作系统。 由于屏蔽了服务器的各种运维复杂性,开发者可以将更多的精力投入到业务逻辑的设计和实现上,逐渐成为主流的云原生技术之一。

李毅表示,计算可以分为运行时和后端服务(如a)。 其中,应用运行时在阿里云上有非常丰富的产品选择:比如针对事件驱动应用的函数计算,提供极简的编程和运维体验; 适用于微服务应用的应用引擎(SAE),非常适合传统微服务。 架构应用程序可以轻松迁移到云端,无需任何修改。

此外,阿里云还提供容器产品,例如弹性容器实例ECI和(ASK)。 它们提供标准接口,不仅让用户享受极致的弹性,而且完全免操作。 他们在过去的一年里经历了9倍的快速增长。

动态、混合和分布式云环境将成为新常态

上云是大势所趋,但对于企业来说,部分业务出于数据主权、安全和隐私的考虑,会采用混合云架构。

此外,边缘计算将成为企业云战略的重要组成部分,为应用提供更低的网络延迟、更高的网络带宽和更低的网络成本。 我们需要能够将智能决策和实时处理能力从云端扩展到边缘和物联网设备。 随着云平台成为企业数字化转型的创新平台,一个变化已经发生——云正在向企业走近。 在分布式云中,公有云的服务能力可以位于不同的物理位置,公有云平台提供商将负责服务的运营、维护、治理、更新和演进。

软硬件集成全面升级

云计算的发展推动了整个计算架构的演进。 用于数据中心的芯片层出不穷,计算密度大幅提升。 如果与云计算结合,可以全面提高计算效率和资源利用率; 过去我们经历过CPU和存储资源池化。 今天我们可以看到越来越多的GPU资源池化。 开发者可以按需创建灵活的GPU,大大降低AI计算成本。 资源池化进一步增强了整个算力的弹性,可以让计算场景覆盖更多领域。

此外,我们还在全面推进软硬件融合的进一步升级。 阿里云“计算”家族整体性价比不断提升,企业用云成本逐渐下降,底层硬件越来越支撑上层应用。 “可以理解的是,下一代神龙是以应用为中心的,我们会重点关注上层应用。” 对函数计算等应用的支持越来越好,效率提升的同时成本显着降低。”

普适计算使新一代容器实现成为可能

对于不同的计算场景,容器运行时会有不同的要求。 、、等新型容器运行时技术层出不穷,分别解决安全隔离、执行效率、通用性三个不同维度的需求。 OCI(Open)标准的出现,使得不同技术能够使用一致的方法进行容器生命周期管理,进一步推动容器引擎技术的不断创新。

综上所述,未来这些技术趋势的发展将由阿里云“计算”家族来延续。 近十年来,云计算重构了“计算”。 未来十年计算将如何定义?

嘉宾介绍:

李毅是阿里巴巴高级技术专家,阿里云容器团队负责人。 曾就职于IBM中国开发中心,担任高级技术专家; 作为架构师和主要开发人员,负责并参与了阿里云在云计算、区块链、Web 2.0、SOA等领域的一系列产品开发和创新。

张先涛,博士,阿里巴巴集团研究员,阿里云智能弹性计算产品线负责人,QCon主题演讲人; 业界知名云计算和虚拟化技术专家。 加入阿里云后,主导了弹性计算产品和技术的演进。 ,主要研究方向涉及信息安全、系统软件、芯片及软硬件协同设计; 作为阿里云飞天神架构的发明人,推动云数据中心IaaS核心技术变革; 在国内外发表云计算、虚拟化方面多篇文章,申请及授权专利近30项。

二维码
扫一扫在手机端查看

本文链接:https://by928.com/1367.html     转载请注明出处和本文链接!请遵守 《网站协议》
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢?

2020我们与您携手共赢,为您的企业形象保驾护航!

在线客服
联系方式

热线电话

13761152229

上班时间

周一到周五

公司电话

二维码
微信
线