文章目录
- 业界最全面算力选择,有效解决多样性需求
- 多年自研芯片积累,带来性能与性价比双重优势
- 全球基础设施与独特的业务模式,让创新不受限
“科幻作家威廉·吉布森说‘未来已至,只是还没有均匀分布’。”2023年6月底,当亚马逊云科技全球产品副总裁 Matt Wood在亚马逊云科技的中国峰会上发表演讲的时候,他首先便引用了这样一句发人深省的话语。
很显然,Matt Wood指的正是如今以AIGC为代表的一系列高科技成果,对于企业发展所造成的影响。一方面,大家都知道AIGC、知道数字孪生、知道机器学习等等技术对于企业改善经营效率、提升业务竞争力的意义巨大,可以节约大量开销,可以将过去需要花费数周乃至数月的工作,在短短几天甚至几个小时之内完成。
但另一方面,训练生成式AI或者机型学习模型也好、制作数字孪生也罢,这些最新的科技背后,都需要超高的算力作为支撑。这有时候意味着极其巨大的硬件成本投入。很显然,这就意味着大企业和小企业之间,在积极采用新技术、改进业务效率的能力上,会被拉开显著的差距,从而使得企业规模之间的“鸿沟”变得更加难以弥合……
那么,要如何才能改变这种现状,让“未来”更加“均匀”地降临在所有的企业和市场中呢?就在前不久的亚马逊云科技中国峰会上,作为全球云计算领军企业的亚马逊云科技,给出了可能是迄今为止最详细的答案。
业界最全面算力选择,有效解决多样性需求
很多云计算企业都会宣称,相比于企业自建服务器、租用云端的算力可以实现更快的部署,同时降低整体开销。
它们的这句话大体上并没有错,但与亚马逊云科技的做法相比,其他的云计算企业,多少都在具体实现方式上显得有些“准备不足”。
比如说,不同的企业因为其计算模型、业务数据的差异,往往会对算力设备的架构、指令集有着多样化的需求。有的企业需要GPU充当加速器、有的企业偏好Intel的指令集、有的企业觉得AMD的CPU更好、还有的企业甚至会对苹果的mac环境有需求……
在这种情况下,能够同时提供Intel、AMD、NVIDIA等多种不同计算资源,甚至具备行业首个基于mac的云计算实例的亚马逊云科技,首先就解决了企业对于“算力多样性”的需求。避免了企业因为强行使用不适合于自己的云端算力平台,而导致的计算效率损失。
多年自研芯片积累,带来性能与性价比双重优势
不过,亚马逊云科技真正的优势还不在于简单的“算力种类多”。丰富而强大的自研芯片方案,以及由其所支撑的自研云计算实例,某种程度上才是它的最大“杀手锏”。
首先,亚马逊云科技自研了网络虚拟化芯片Nitro。在Nitro诞生之前,云计算通常需要消耗CPU性能去建立一个软件的虚拟功能层,以保证数据的隔离和计算实例的安全。但这非常消耗CPU的算力——大概有20-30%的CPU性能会被消耗在这上面。最糟糕的是,这部分被消耗掉的算力,实际上还是由客户(企业)来买单的。换句话说,它造成了巨大的性能浪费,同时增加了企业使用云计算的成本、降低了云计算的效率。
而在亚马逊云科技的基础设施里,自从有了自研的Nitro芯片之后,CPU不需要再负责虚拟化运算,这部分的算力得以被释放出来,真正地全部用于计算实例。同时,Nitro可以提供硬件层面上的网络隔离和数据加密,大大提高了云计算的安全性和性价比。
到目前为止,亚马逊云科技Nitro芯片已经发展到了第五代产品。最新的Nitro V5不仅大幅提高了网络转发率、降低了数据包延迟,还将芯片的每瓦功耗降低了40%。对于最终的企业用户来说,这无疑意味着更低的算力价格、更高的性价比。
其次,亚马逊云科技还自研了通用处理器家族Graviton。这是一种基于ARM架构的大规模运算处理器。以目前的主流型号Graviton3为例,发布于2021年12月的它,具备64核心设计、支持DDR5内存和PCIE5.0扩展标准,同时支持专为深度学习而优化的bfloat16数字格式。要知道,类似的技术规格直到2023年才成为最新一代x86架构处理器的“标配”,亚马逊云科技自研处理器的领先程度,由此可见一斑。
而且,由于是基于自研设计,这使得亚马逊云科技得以针对实际的云端负载、针对最流行的云计算需求,对处理器进行快速的迭代改进。比如,2022年他们就发布了新款的、为向量计算优化的Graviton 3E。和Gravtion3相比,Gravtion3E在HPL(线性代数的测量工具)上Graviton性能提升35%,在 GROMACS(分子运动)上性能提升 12%,在金融期权定价的工作负载上性能提升 30%。最重要的是,和基于x86 处理器的EC2实例相比,自研处理器的整体功耗降低多达60%!很显然,这再一次意味着亚马逊云科技的“算力性价比”的提升。
最后,针对如今大热的AI、机器学习需求,亚马逊云科技早在数年前就成功研发出了自有芯片方案。也就是机器学习训练芯片Trainium,以及机器学习推理芯片Inferentia。
和其他家常用的、基于GPU的云端机器学习方案相比,亚马逊云科技的这些自研机器学习芯片拥有两个特别突出的优势,即极低的功耗和极高的性价比。
极低的功耗意味着,亚马逊云科技可以很轻松地将数万颗Trainium芯片构成一个超大集群,用完全可承受的功耗水平,去提供好几个ExaFlops级别的云端算力,大大加速机器学习训练的速度。
而极高的性价比则体现在机器学习推理阶段。比如说,在OPT-30B大语言模型中,相比于基于GPU的实例,基于Inferentia2的实例吞吐率增加了65%,而成本则降低了52%。而在Stable Diffusion 2.1视觉模型中,Inferentia2也同样可以带来50%的成本节约。
这意味着什么?这意味着,依托于上述这些自研芯片,亚马逊云科技可以让现代企业在云端进行AI训练时少花一半的钱,或者用同样的价格获取数倍于竞争对手的AI训练速度。很显然,无论是对于初创阶段的小企业、还是对于重视业务效率的大公司来说,这都会极富吸引力。
全球基础设施与独特的业务模式,让创新不受限
最后,在全面的、高性价比的算力资源的基础上,亚马逊云科技的基础设施规模、以及他们创新性的业务模式,也是其极为关键的优势所在。
一方面,亚马逊云科技在全球拥有31个区域,99个可用区,已经覆盖了245个国家和地区。由于每个区域均拥有多个可用区,因此任何单一可用区的故障不会影响到其他可用区的业务,能够最大限度降低服务的中断。
另一方面,亚马逊云科技积极开发了包括Local Zones、Wavelength、Outposts、IoT、Snow Family在内的一系列云服务,去满足企业对于超低延迟、对于高度本地数据处理、对于数据驻留合规、甚至对于网络可能经常中断的条件下使用云服务的特殊需求。这些服务可以将亚马逊云科技的标志性架构扩展到任何数据中心、任何本地设施、为管理员提供一致的混合体验,而不会增加他们的成本。
当然,在这个基础上,亚马逊云科技更是大力推广Serverless技术。迄今为止,他们已经实现了全栈数据服务的Serverless化,客户不需要去关注基础设施的运维、不需要考虑云主机的弹性伸缩,可以最大程度地将自家的技术和人力资源集中于业务开发。
最后,亚马逊云科技在计算资源全球布局的同时,也几乎满足了全球所有国家和地区的合规性要求,比如说像生物医疗,联邦认证和金融,比如说HIPAA、FedRAMP、GxP和PCI。事实上,亚马逊云科技有超过300种安全合规和治理服务,可以应对几乎所有行业的客户在全球开展业务时所需的合规需求。
可以说,正是因为亚马逊云科技有着从芯片到网络,从算力性价比到服务全面性等等各种方面的显著优势,这才使得他们成为了当前许许多多大家耳熟能详的成功企业“上云”的共同选择。这包括但不限于Netflix、Airbnb、Uber等独角兽企业,纳斯达克、高盛、CapitalOne等金融巨头,以及大众汽车、可口可乐、麦当劳、开利、西门子等成功的传统企业……
当然,这也包括了像我们三易生活此前报道过的禾观科技、大宇无限、TapTap等等成功的初创公司。从这一点来看,亚马逊云科技显然已经成功地让科技所引领的“未来”,平等地降临到了所有他们的客户身上。
转载自:https://blog.csdn.net/u014727709/article/details/134747649
欢迎 👍点赞✍评论⭐收藏,欢迎指正