从“芯”到云，看亚马逊云科技如何让未来“平等”发生

文章目录

业界最全面算力选择，有效解决多样性需求
多年自研芯片积累，带来性能与性价比双重优势
全球基础设施与独特的业务模式，让创新不受限

“科幻作家威廉·吉布森说‘未来已至，只是还没有均匀分布’。”2023年6月底，当亚马逊云科技全球产品副总裁 Matt Wood在亚马逊云科技的中国峰会上发表演讲的时候，他首先便引用了这样一句发人深省的话语。

在这里插入图片描述
很显然，Matt Wood指的正是如今以AIGC为代表的一系列高科技成果，对于企业发展所造成的影响。一方面，大家都知道AIGC、知道数字孪生、知道机器学习等等技术对于企业改善经营效率、提升业务竞争力的意义巨大，可以节约大量开销，可以将过去需要花费数周乃至数月的工作，在短短几天甚至几个小时之内完成。

但另一方面，训练生成式AI或者机型学习模型也好、制作数字孪生也罢，这些最新的科技背后，都需要超高的算力作为支撑。这有时候意味着极其巨大的硬件成本投入。很显然，这就意味着大企业和小企业之间，在积极采用新技术、改进业务效率的能力上，会被拉开显著的差距，从而使得企业规模之间的“鸿沟”变得更加难以弥合……
在这里插入图片描述
那么，要如何才能改变这种现状，让“未来”更加“均匀”地降临在所有的企业和市场中呢？就在前不久的亚马逊云科技中国峰会上，作为全球云计算领军企业的亚马逊云科技，给出了可能是迄今为止最详细的答案。

业界最全面算力选择，有效解决多样性需求

很多云计算企业都会宣称，相比于企业自建服务器、租用云端的算力可以实现更快的部署，同时降低整体开销。

它们的这句话大体上并没有错，但与亚马逊云科技的做法相比，其他的云计算企业，多少都在具体实现方式上显得有些“准备不足”。
在这里插入图片描述
比如说，不同的企业因为其计算模型、业务数据的差异，往往会对算力设备的架构、指令集有着多样化的需求。有的企业需要GPU充当加速器、有的企业偏好Intel的指令集、有的企业觉得AMD的CPU更好、还有的企业甚至会对苹果的mac环境有需求……
在这里插入图片描述
在这种情况下，能够同时提供Intel、AMD、NVIDIA等多种不同计算资源，甚至具备行业首个基于mac的云计算实例的亚马逊云科技，首先就解决了企业对于“算力多样性”的需求。避免了企业因为强行使用不适合于自己的云端算力平台，而导致的计算效率损失。

多年自研芯片积累，带来性能与性价比双重优势

不过，亚马逊云科技真正的优势还不在于简单的“算力种类多”。丰富而强大的自研芯片方案，以及由其所支撑的自研云计算实例，某种程度上才是它的最大“杀手锏”。
在这里插入图片描述
首先，亚马逊云科技自研了网络虚拟化芯片Nitro。在Nitro诞生之前，云计算通常需要消耗CPU性能去建立一个软件的虚拟功能层，以保证数据的隔离和计算实例的安全。但这非常消耗CPU的算力——大概有20-30%的CPU性能会被消耗在这上面。最糟糕的是，这部分被消耗掉的算力，实际上还是由客户（企业）来买单的。换句话说，它造成了巨大的性能浪费，同时增加了企业使用云计算的成本、降低了云计算的效率。
在这里插入图片描述
而在亚马逊云科技的基础设施里，自从有了自研的Nitro芯片之后，CPU不需要再负责虚拟化运算，这部分的算力得以被释放出来，真正地全部用于计算实例。同时，Nitro可以提供硬件层面上的网络隔离和数据加密，大大提高了云计算的安全性和性价比。
在这里插入图片描述
到目前为止，亚马逊云科技Nitro芯片已经发展到了第五代产品。最新的Nitro V5不仅大幅提高了网络转发率、降低了数据包延迟，还将芯片的每瓦功耗降低了40%。对于最终的企业用户来说，这无疑意味着更低的算力价格、更高的性价比。

其次，亚马逊云科技还自研了通用处理器家族Graviton。这是一种基于ARM架构的大规模运算处理器。以目前的主流型号Graviton3为例，发布于2021年12月的它，具备64核心设计、支持DDR5内存和PCIE5.0扩展标准，同时支持专为深度学习而优化的bfloat16数字格式。要知道，类似的技术规格直到2023年才成为最新一代x86架构处理器的“标配”，亚马逊云科技自研处理器的领先程度，由此可见一斑。
在这里插入图片描述
而且，由于是基于自研设计，这使得亚马逊云科技得以针对实际的云端负载、针对最流行的云计算需求，对处理器进行快速的迭代改进。比如，2022年他们就发布了新款的、为向量计算优化的Graviton 3E。和Gravtion3相比，Gravtion3E在HPL（线性代数的测量工具）上Graviton性能提升35%，在 GROMACS（分子运动）上性能提升 12%，在金融期权定价的工作负载上性能提升 30%。最重要的是，和基于x86 处理器的EC2实例相比，自研处理器的整体功耗降低多达60%！很显然，这再一次意味着亚马逊云科技的“算力性价比”的提升。
在这里插入图片描述
最后，针对如今大热的AI、机器学习需求，亚马逊云科技早在数年前就成功研发出了自有芯片方案。也就是机器学习训练芯片Trainium，以及机器学习推理芯片Inferentia。

和其他家常用的、基于GPU的云端机器学习方案相比，亚马逊云科技的这些自研机器学习芯片拥有两个特别突出的优势，即极低的功耗和极高的性价比。

极低的功耗意味着，亚马逊云科技可以很轻松地将数万颗Trainium芯片构成一个超大集群，用完全可承受的功耗水平，去提供好几个ExaFlops级别的云端算力，大大加速机器学习训练的速度。
在这里插入图片描述
而极高的性价比则体现在机器学习推理阶段。比如说，在OPT-30B大语言模型中，相比于基于GPU的实例，基于Inferentia2的实例吞吐率增加了65%，而成本则降低了52%。而在Stable Diffusion 2.1视觉模型中，Inferentia2也同样可以带来50%的成本节约。
在这里插入图片描述
这意味着什么？这意味着，依托于上述这些自研芯片，亚马逊云科技可以让现代企业在云端进行AI训练时少花一半的钱，或者用同样的价格获取数倍于竞争对手的AI训练速度。很显然，无论是对于初创阶段的小企业、还是对于重视业务效率的大公司来说，这都会极富吸引力。

全球基础设施与独特的业务模式，让创新不受限

最后，在全面的、高性价比的算力资源的基础上，亚马逊云科技的基础设施规模、以及他们创新性的业务模式，也是其极为关键的优势所在。
在这里插入图片描述
一方面，亚马逊云科技在全球拥有31个区域，99个可用区，已经覆盖了245个国家和地区。由于每个区域均拥有多个可用区，因此任何单一可用区的故障不会影响到其他可用区的业务，能够最大限度降低服务的中断。
在这里插入图片描述
另一方面，亚马逊云科技积极开发了包括Local Zones、Wavelength、Outposts、IoT、Snow Family在内的一系列云服务，去满足企业对于超低延迟、对于高度本地数据处理、对于数据驻留合规、甚至对于网络可能经常中断的条件下使用云服务的特殊需求。这些服务可以将亚马逊云科技的标志性架构扩展到任何数据中心、任何本地设施、为管理员提供一致的混合体验，而不会增加他们的成本。
在这里插入图片描述
当然，在这个基础上，亚马逊云科技更是大力推广Serverless技术。迄今为止，他们已经实现了全栈数据服务的Serverless化，客户不需要去关注基础设施的运维、不需要考虑云主机的弹性伸缩，可以最大程度地将自家的技术和人力资源集中于业务开发。

最后，亚马逊云科技在计算资源全球布局的同时，也几乎满足了全球所有国家和地区的合规性要求，比如说像生物医疗，联邦认证和金融，比如说HIPAA、FedRAMP、GxP和PCI。事实上，亚马逊云科技有超过300种安全合规和治理服务，可以应对几乎所有行业的客户在全球开展业务时所需的合规需求。

可以说，正是因为亚马逊云科技有着从芯片到网络，从算力性价比到服务全面性等等各种方面的显著优势，这才使得他们成为了当前许许多多大家耳熟能详的成功企业“上云”的共同选择。这包括但不限于Netflix、Airbnb、Uber等独角兽企业，纳斯达克、高盛、CapitalOne等金融巨头，以及大众汽车、可口可乐、麦当劳、开利、西门子等成功的传统企业……
在这里插入图片描述
当然，这也包括了像我们三易生活此前报道过的禾观科技、大宇无限、TapTap等等成功的初创公司。从这一点来看，亚马逊云科技显然已经成功地让科技所引领的“未来”，平等地降临到了所有他们的客户身上。