挑战摩尔定律极限,揭秘阿里云神龙的"封神"之路

 

走近阿里第三代神龙云服务器的背后。...



作者 | Aholiab
出品 | CSDN(ID:CSDNnews)

7月15日,阿里云宣布推出第三代神龙云服务器,向全球提供顶级算力。与上一代相比,第三代神龙云服务器的综合性能提升高达160%,比目前全球最顶级的云服务器还要快30%以上,整体算力全球最强。

第三代神龙云服务器产品家族提供了最多208核、最大6TB内存,云盘IOPS高达 100万、网络转发高达2400万、网络带宽高达100G的性能;支持CPU、GPU、NPU、FPGA等多种计算形态,具备3分钟交付50万核vCPU的极速扩容能力,是云原生的最佳载体。
第三代神龙云服务器


在去年推出的第三代神龙架构的基础上,第三代神龙云服务器再次将算力逼向极限,在摩尔定律失效的今天,阿里云以整体算力平均每12个月翻一番的速度,向摩尔定律的极限发起挑战。除了超越物理机的表现外,第三代神龙云服务器还延续了其一贯的弹性能力,这一能力也持续为钉钉、微博、12306、上汽集团、吉利汽车,以及双十一等项目提供支持。

而这一切的背后,不仅是阿里云十年来艰苦卓绝的技术攻坚,同时也是「中国创新」的缩影。
神龙的诞生


时间回到2019年的双十一,这届双11创造了多项新的历史记录——全天交易额达到了2684亿元、订单峰值54.4万/秒、菜鸟物流订单数12.92亿。这一个个惊天数字的背后,是阿里云的支撑,这届双十一史无前例地将100%的业务全部架设到阿里云上。而假如把时间再往前推个四五年,没有神龙架构之前,这一切都是天方夜谭。是神龙架构高弹性、高稳定、高性能,支撑了双十一这种挑战性极大的项目。
第三代神龙云服务器架构


本质上来说,神龙解决的问题,其实是虚拟化的「性能损耗之殇」。作为云计算的底层技术,虚拟化并不是什么新鲜的词汇,早在1974年,就有一篇名为《Formal Requirement for Virtualizable Third Generation Architecture》的论文,为未来40多年的虚拟化的演进奠定了理论基础。它定义了什么样的技术才能叫做虚拟化,什么样的条件才能满足虚拟化。1997年,斯坦福大学的教授创立了VMWare公司,把虚拟化技术的理论研究,落实到了实处。

由于在云计算中,客户购买的能力都是虚拟化的,例如CPU、内存等,这些虚拟化能力往往由虚拟化软件来完成,这个过程中就会产生虚拟化性能与实际物理机性能之间有一个较大的差距,这个差距就是虚拟化的性能损耗。这意味着云厂商没法把物理机上的全部算力给到客户,例如,一个32核的物理服务器,云厂商只能把16核或者20核给到客户,剩下的12核需要对存储、网络进行虚拟化,造成了极大的资源浪费。

不仅如此,传统的虚拟化解决方案还存在资源争抢、隔离性弱;算力损失、成本高;性能瓶颈明显;难以支持逻辑服务等缺陷。

但在神龙出现之前,这些问题就像是「房间中的大象」,谁都能看到,但谁都不认为这是什么大问题。为了解决这一问题,2016年阿里云秘密启动了一项代号为“X-Dragon”的项目,也就是神龙的前身,并于2017年推出首款自研神龙云服务器。神龙服务器采用软硬一体的虚拟化架构方案,彻底解决了虚拟化性能损耗这一难题,不仅拥有超越物理机的性能,还拥有虚拟机的弹性体验。

短短几年时间,神龙经过快速迭代,走过了软件虚拟化、通用硬件虚拟化、专用硬件芯片虚拟化三个阶段。神龙架构也已大规模应用于淘宝、天猫、菜鸟等阿里内部业务中。
软硬结合,阿里云弹性计算背后的「黑科技」


“随着云计算往纵深方向发展,软硬一体和云原生将成为云计算技术架构的主流。未来3-5年内,容器在IT架构里面的占比将达到一半以上,云原生需要我们将虚拟化推向极致,实现更极致的启动速度、并发能力、部署密度等。”在发布会现场,阿里云弹性计算负责人张献涛谈到虚拟化时这样说道。
而在阿里云弹性计算中,这一理念也被体现的淋漓尽致。从2010年发布了ECS 1.0去服务中小企业和站长,到2015年发布了ECS 2.0去服务12306抢票这样具有挑战性的场景,再到2017-2019通过神龙架构去承担双11这种世界级技术「大考」,阿里云弹性计算从立项之初,每一次亮相都令人惊艳:

  • 2011年,ECS率先支持在线迁移;
  • 2012年,ECS为天猫商家提供电商云服务;
  • 2015年,虚拟化的第一次架构升级完成,从Xen升级到KVM,同时实现业内首次全组件热升级;
  • 2017年,推出企业级ECS产品家族、首款神龙云服务器面世,将虚拟化的损耗降为0;
  • 2018年,推出ESSD云盘,单盘IOPS高达100万,成为阿里云性能最强的企业级块存储服务;
  • 2019年,推出第三代神龙架构,支持双11核心系统100%上云,同时推出第六代云服务器ECS;
同样,在这次发布会中,阿里云弹性计算团队不仅带来第三代神龙云服务器,还带来了阿里云第六代增强型实例,全系搭配ESSD系列云盘,存储转发能力最多提升四倍;支持10Gbps突发内网带宽,单卷延时大幅下降;性能等级按需配置,在线无损变配;同时ESSD使用门槛大幅下降50%。Mysql和Redis性能提升超过15%,Nginx性能提升达100%。配合Alibaba Cloud Linux 2 LTS,启动速度最多提升60%、运行时性能最多提升30%、稳定性最多提升50%。
阿里云硬核自研之路


此外,阿里云ECS的单实例稳定性也从原来的99.95%提升到了99.975%,跨AZ多实例稳定性从原来的99.99%提升到99.995%,均为全球最高水准。

不仅如此,随着容器逐渐成为云原生中最重要的应用,如何更好地与容器兼容,也是阿里云弹性计算团队长期思考的问题之一。经过几年的探索,阿里云弹性计算团队逐渐发现神龙裸金属服务器,可以实现高于同规格物理机的性能,差距可以达到20%-30%之多。这背后来源于团队对于神龙架构的创新,让容器网络存储的一些流量可以通过神龙芯片进行隔离,进而使神龙裸金属服务器和容器,成为了一对「黄金组合」。

为了计算效率推向极致,这种软硬结合的创新不在少数。比如阿里云弹性计算团队还自主研发了盘古存储平台、洛神虚拟网络系统、含光芯片、交换机,甚至还在和英特尔这样的公司一起,对深入定制CPU进行研究。

经过10年的发展和这些「黑科技」的加持,如今阿里云已具备服务各行各业客户的能力。用张献涛的话说:“10年,我们重构了整个计算的服务模式。”
云计算的下一个十年


在张献涛看来,云计算的下一个十年应该围绕「不断扩展服务客户的能力」来展开,这其中包括生态更为丰富的ECS产品家族,例如第六代增强型实例、第七代高主频实例、内存增强硬实例、新一代GPU和NPU实例等。

此外,还会包含一些对于细分场景的支持,包括上面提到的容器、计算密集型场景、内存密集型场景、异构计算等场景。而对于近年来比较火的AI领域,也同样会有所支持,包括自研的神龙AI加速器工具AIACC,它可以在对AI框架不进行任何侵入的情况下,大幅提升对GPU、NPU、FPGA使用的性价比。在AIACC下,图像分类的性能会有100%以上的提升,图像识别性能也会提高3倍。

这再次印证了阿里云满足多样化行业需求的能力。

从进化的角度而言,计算形态的发展有两条脉络:一条是用户对计算的需求“从弱到强”(从x86通用计算,到IO密集性计算,到异构计算,再到行业高性能计算),另一条是用户获取计算方式的“从重到轻”(从物理机,到虚拟机,到容器,到函数计算)。这两条脉络刚好构成了一个完整的坐标系,在这个坐标系中,阿里云一边在计算性能的极限上去突破,一方面也持续将更友好的虚拟化体验给到用户。

在这样的进化之下,未来还有哪些领域将被赋能和重塑?我们拭目以待!


更多精彩推荐

☞数据爆炸时代,云存储在“破圈”

☞中国开源正在走向成熟

☞厉害!从电影花瓶到 Wi-Fi 之母,这才是乘风破浪的姐姐

☞600 岁的故宫,也上了人工智能的车

☞进程和线程基础知识全家桶,30 张图一套带走

☞解读领跑全国的区块链发展“北京方案”:设专项基金,构建开源生态

点分享
点点赞
点在看


    关注 CSDN


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册