性价比高出英特尔45%,亚马逊的云服务器芯片如何做到?| 解读

640?wx_fmt=png

来源:TheNextPlatform

编译:机器之能 张玺


摘要:到目前为止,亚马逊和其他大型云运营商几乎全部使用英特尔的 Xeon 芯片。虽然在服务器芯片市场,英特尔市场占有率非常高,但亚马逊正使用折扣策略来赢得客户。亚马逊表示,基于 Graviton 的云服务比英特尔处理器上运行的现有产品「成本低得多」,具体在某些处理任务上,能够减少 45% 的成本。


智能网卡与服务器处理器有何区别?如果你指的是亚马逊云服务(Amazon Web Services),两者大概相差三年。

在西雅图总部,公有云市场大佬亚马逊 re:Invent 2018 大会现场,亚马逊推出了基于 ARM 架构的 Graviton 服务器处理器。除去已经在 AWS 运行的 Intel Xeon 和 AMD Epyc 处理器,Annapurna Labs 表示 Graviton 还支持 EC2 虚拟计算服务。

2015 年,亚马逊以 3.5 亿美元收购 Annapurna Labs。早些时候,亚马逊从 Calxeda 挖来了几名员工,Calxeda 是一家致力于开发基于 ARM 架构服务器系统的初创公司。

过去一年的 ARM 服务器市场波谲云诡:先是高通宣布放弃 Centriq 2400;Ampere(获得私募基金 The Carlyle Group 投资)抢先收购 X-Gene,让 Applied Micro 终于获得喘息之机。

如此看来,AWS 创造了自己的服务器芯片,放弃使用目前 ARM 架构服务器市场最领先的 Marvell(前身为 Cavium)ThunderX2 芯片,就显得尤为重要。然而,这并不代表 Marvell 或者 Ampere──如果未来实现了超强浮点并行处理,拥有 A64FX 处理器(48 核且具备可伸缩矢量扩展)的富士通也将纵横 ARM 市场──ARM 芯片未来在 AWS 公有云市场一定毫无作为。

我们认为 AWS 已经在 Annapurna Labs 中研发「Alpine」系列双核及四核 ARM 芯片,为自己的服务器集群创造 SmartNIC。SmartNIC 是服务器集群不可或缺的。除了 EC2 上的 Xeon、 Epyc 和现在的 Graviton 处理器的操作系统和应用之外,服务器集几乎能卸载所有功能,使得公有云计算核心可以极大程度上运行应用。

虽然之前说过,但我们还是想再次强调:大部分 Hyperscaler 和云构建仍依赖 SmartNIC 的发展。由于 InfiniBand 网络具备搭配智能网卡 GeniusNIC(Mellanox Technology 的命名虽然有些玩笑意味,但能看得出企图心)的卸载模型,HPC 中心能够进一步提升价值。最终,Mellanox Technology 的落后也是由于相同的原因:Hyperscaler 和 HPC 中心经常采用卸载计算。核心计算十分昂贵,相对而言,卸载计算就不一样了。

2016 年 1 月,亚马逊与 Annapurna Labs 发布了 32 位 Armv7 与 64 位 Armv8 设计,两者已达到「企业级性能与特征」,如支持 DDR4 内存、2MB 二级缓存。自那以后,再没有透露好更多关于「Alpine」系列芯片的消息。

Arm Holdings 生产的基于 Cortex-A15 核心的双核及四核 32 位元件,其主频分别达到 1.4 GHz 与 1.7 GHz;基于 Cortex-A57 设计的四核元件,主频达到 1.7 GHz。上述 Arm Cortex 核心支持超标量通道及乱序执行,但并不具备超线程。

这些设备的进给量与速度并没有任何特别之处,由于 Amazon 并未公布任何细节,我们不展开讨论具体架构。但我们推测有两点非常不可思议:亚马逊如何生产这些廉价设备;亚马逊如何运用服务器卸载计算以使得服务器、网络及存储更加高效。

主流厂商的策略确定无疑:Mellanox 主推 Bluefield 多核 ARM 处理器,微软在 Azure 公有云的服务器上使用 FPGA 作为网络加速及计算引擎,Netronome 主推 Agilio 网络适配器。

640?wx_fmt=png


AWS 全球基础设施及客户支持业务副总裁 Peter DeSantis 在 re:Invent 2018 大会介绍了 Graviton Arm 服务器的工艺。

虽然我们不清楚 Graviton 芯片,Graviton 看起来是一个更加实用的处理器,其与 Intel Skylake Xeon-D-2100 v2 类似,搭配 8 到 18 个核心,主频在 1.6 GHz 与 2.3 GHz 之间(通常核心数越多,时钟频率越低)。如果打开 AWS 网站,大家会发现一句申明「Gravitons 基于 64 位 Neoverse 核心」,这几乎能断定 Cosmos 核心是定制的。

Cosmos 包含 ARM Cortex-A72 与 Cortex-A75 设计的微调版本,意图达到 16 纳米芯片工艺水平,其代工厂很可能是台湾半导体制造公司(Taiwan Semiconductor Manufacturing Corp)。大家回想下,Arm 发布的 Neoverse 正是 10 月曾发布的数据中心 Arm 芯片的翻版,其每年性能提高幅度达到 30%,并将在 2021 年前完成 7 纳米到 5 纳米制造工艺的升级。

所有 AWS 的公开信息表示,通过 EC2 A1 让业界熟悉的 Graviton 处理器,最多支持 16 个虚拟 CPU、32GB 主内存,服务器适配器的网络带宽达到 10 Gb/秒,弹性块存储(EBS)带宽达到 3.5 Gb/秒。当我们想了解更多技术细节时,AWS 并未确认目前使用哪个 Cosmos 核心,亦未确认 Graviton 具备 16 个核心且无法通过同步多线程(SMT)为各个核心提供虚拟多线程。

(SMT 支持通常由 ARM 许可证持有用户添加,尚未成为 ARM 基本内核许可证部分。随着 2019 年「Ares」内核到期,情况可能会改变。)AWS 向 The Next Platform 确认,EC2 A1 具备 Graviton 芯片,主频达 2.3 GHz。单就整数计算而言,Graviton 已能与 Xeon-D 抗衡,或许达到了 Xeon SP 的下限水平。

不同 A1 的进给量和速度如下:

640?wx_fmt=png


我们推断内存及内存带宽不多,可能只有一个内存控制器和两个内存通道,最高容量 512 GB,搭配十分昂贵的 128 GB 记忆棒,即便使用便宜的 8 GB 记忆棒也可轻松达到 32GB。Annapurna Labs 可能在芯片上放置了大量内存你控制器,我们认为其并不支持 SMT,推断芯片上具备 16 个内核。一个内存控制器搭配八个核心是很好的平衡选择,但如果大家想让计算能力和内存带宽恢复平衡,四个内存控制器的效果甚至会更好。(考虑到 AWS 并未大肆炫耀,该项可能仍未实现。)

A1 采用 Amazon Linux 2 系统(红帽 Linux 与亚马逊 CentOS 克隆版结合的自研升级系统),亦支持 RHEL 和 Ubuntu 服务器系统,未来将支持其他操作系统──如果以后 AWS Arm 服务器芯片支持 Windows Server,应该十分有趣。

基于 Arm 的 A1 EC2 目前在美国东部、西部及欧洲(爱尔兰)等区域可用,订购类型一般涵盖 On-Demand、 Reserved、Spot、Dedicated 及 Dedicated Host。AWS 特别提醒,上述 A1 实际应用于内存带宽不做特别限制的横向扩展工作负载,如 Web 服务器、开发环境、缓存服务器或容器化微服务等轻量化及无状态服务。AWS 表示与 EC2 上同等性能的 32 位服务相比,这些服务成本能降低到 45%。不过,AWS 并未说明具体的比较对象。

划重点了。

我们来看看 Arm 服务器之于基础设备的野心有多大。毫无疑问,A1 会有无数的衍生版本。对于支持极有可能成为下一代智能网卡处理器的发展来说,这是件好事。算上基于 Arm 的 A1,AWS 还在 EC2 主题上研发了一些其它基础设施变体。新一代 C5 服务在这些变体之间的以太网速率达到每秒 100Gb,适用于那些带宽依赖的 HPC 仿真建模、机器学习训练及密集数据分析工作。

如同 C5 和 C5d,C5n 基于双插槽服务器节点,搭配定制 Skylake Xeon SP 8000 Platinum 系列处理器,各芯片可能具备 18 个内核且主频达到 3 GHz。


640?wx_fmt=png


除了额外带宽之外,C5n 的数据队列是 C5 和 C5d 的数倍至多──32 比 8 的弹性网络接口(Elastic Network Interface,应用于 Annapurna 处理器,布置在网卡附近,使其更加智能──帮助网络适配器中数据更快的在内核中流转。无论是单个可用范围或区域内跨越多个可用范围,带宽在同一区域内都可用)。

C5n 可用于 EC2 及其他服务器集群,与 S3 对象存储或 Elastic MapReduce、Relational Database Service 及 ElastiCache 等服务连接。C5n 与 A1 的可用区域一致,业务范围还附加美国政府私有云 GovCloud。

最后,去年 10 月 AWS 推出的 P3 GPU 加速服务使得以太网达到每秒 100 Gb,服务器链路上限达到每秒 25 Gb。具有更快网络的 P3dn 将于下周推出,其配备 32 GB HBM2 内存的 Volta Tesla V100 GPU 加速器,而初代 P3 配备 16 GB HBM2 内存的初代 Volta 加速器。上述服务基于一对定制 24 核 Xeon SP 处理器,机箱中最多配备 8 个 GPU。

作为最大云计算提供商的 AWS 提供了 ARM,这对 ARM 来说是一次胜利。

在过去五年里,Calxeda、Applied Micro、英伟达、三星、博通、、Cavium、Marvell、AMD 和高通等多家先驱投身到 Arm 服务器芯片的研发。但发展到今日,这些想去几乎全军覆没。Moor Insight & Strategy 的行业分析师帕特里克·莫尔海德(Patrick Moorhead)上周五在给 CNBC 的邮件中写道:「AWS 接受 ARM 为 ARM 带来了可信度,将 ARM 的业务扩展到更多的云参与者和工作负载。」

尽管亚马逊的大部分营收仍来自商品销售,但 AWS 已成为该公司财务健康的关键。第三季度,亚马逊超过一半的营业利润来自 AWS。亚马逊在线商店的收入本季度同比增长 10%,而 AWS 服务的营收增长了 46%。AWS 现在有超过 125 种服务可供客户使用,包括核心的 EC2 计算服务。

在接下来的几年里,AWS 可以发布基于更强大 ARM 芯片的新实例。现有实例使用 ARM 于 2015 年推出的 Cortex-A72 系统。但更重要的是,其他云计算提供商将可能同样开始使用 ARM 技术发布实例。


未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。


未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。


  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”


640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493185.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GIOU loss+DIOU loss+CIOU loss

一.IOU 1.GIOU解决没有交集的框,IOU为0,其损失函数导数为0,无法优化的问题。 图1 GIOU,IOU,l2范数差异 a)可看出 l2值一样,IOU值是不一样的,说明L1,L2这些Loss用于回归任务时,不能等价于最后用于评测检测的IoU. b)可看出当框有包含关系,GIOU就退化为IOU 其是找…

《科学》十大年度科学突破反映的新动向

来源:新华网摘要:从测定分子结构到宇宙探索,从发现远古动物到揭示细胞的秘密,美国权威学术刊物《科学》杂志评选的2018年十大科学突破,在时间和空间尺度上拓宽着人类认知的边界,也反映了近年来科学发展的三…

ctpn论文阅读与代码

代码地址: https://github.com/zonghaofan/ctpn_torch 1.通用的目标检测是封闭的,而文字是封闭且连续 2. 构造一系列宽度相等的小文本,回归中心y坐标和高度 3. 对于边界回归x坐标,在进一次修正 4.整个模型就是backbone提取特征,将每个像素点的相邻3*3像素拉成行向量,利用空间…

yum配置与使用

yum配置与使用(很详细) yum的配置一般有两种方式,一种是直接配置/etc目录下的yum.conf文件,另外一种是在/etc/yum.repos.d目录下增加.repo文件。一、yum的配置文件$ cat /etc/yum.conf [main]cachedir/var/cache/yum #yum下载的RPM包的缓存目录k…

新技术不断涌现,下一代云计算的突破口在哪里?

来源:日知录技术社区这是一个IT技术飞速发展的时代,在硬件基础设施的不断升级以及虚拟化网络等技术的日益成熟下,云厂商也正面临着各种新技术带来的巨大挑战。从数据中心的基础建设到云平台的系统构建再到产品底层的技术改革,该如…

生成高斯热力图(craft中有使用)+2d heatmap+3d heatmap

一.生成高斯热力图 from math import exp import numpy as np import cv2 import osclass GaussianTransformer(object):def __init__(self, imgSize512, region_threshold0.4,affinity_threshold0.2):distanceRatio 3.34scaledGaussian lambda x: exp(-(1 / 2) * (x ** 2))…

POP动画[1]

POP动画[1] pop动画是facebook扩展CoreAnimation的,使用及其方便:) 1:Spring系列的弹簧效果(两个动画kPOPLayerBounds与kPOPLayerCornerRadius同时运行) #import "RootViewController.h" #import "YXEasing.h" #import "POP.h" #import "YX…

远比5G发展凶猛!物联网2018白皮书,国内规模已达1.2万亿

来源:智东西摘要:研判物联网的技术产业进展情况,梳理消费物联网、智慧城市物联网、生产性物联网三类物联网应用现状及驱动因素 。在供给侧和需求侧的双重推动下,物联网进入以基础性行业和规模消费为代表的第三次发展浪潮。 5G、 低…

收缩分割多边形(PSENet中有使用)

目的:为了解决密集文本的分割问题 代码: # -*- codingutf-8 -*- import os import cv2 import Polygon as plg import pyclipper import numpy as npdef dist(a, b):return np.sqrt(np.sum((a - b) ** 2))#计算周长 def perimeter(bbox):peri 0.0for i in range(bbox.shape[…

Android 3D emulation 架构理解

Android Emulator 给用户提供 GPU on 选项,意思是利用 Host ( 就是执行 Emulator 的PC机) 的 GPU. 当然PC机必须把 OpenGL 的驱动装好 在实现上就是把 libGLESv1_CM.so libGLESv2.so 替换掉,当system调用 gl的函数的时候,把调用打包为strea…

年度回顾:2018年的人工智能/机器学习惊喜及预测19年的走势

来源:网络大数据考虑到技术变革的速度,我认为让专业IT人士分享他们对2018年最大惊喜及2019年预测的看法会很有趣。以下是他们对人工智能(AI),机器学习( ML)和其他数据科学迭代的看法:CLARA分析公司首席执行官兼创始人:…

利用dbnet分割条形码与文字(代码+模型)+知识蒸馏+tensorrt推理+利用pyzbar和zxing进行条形码解析

一.DBnet 1.代码链接 分割条形码与文字代码:github链接:GitHub - zonghaofan/dbnet_torch: you can use dbnet to detect word or bar code,Knowledge Distillation is provided,also python tensorrt inference is provided.(提供模型) 2.论文阅读 …

全球值得关注的11家人脸识别公司与机构

来源:资本实验室根据美国国家标准与技术研究院(NIST)的2018年全球人脸识别算法测试(FRVT)最新结果,今年共有来自全球的39家企业和机构参与本次竞赛。在最新排名中,前五名算法被中国公司包揽&…

图论基础知识--最小生成树算法kruskal(克鲁斯克尔)和普里姆算法(Prim算法);最短路径算法Dijkstra(迪杰斯特拉)和Floyd(弗洛伊德)

一.基础知识 有向图 无向图 以无向图为例: 邻接矩阵: 度矩阵(对角矩阵): 二.最小生成树 应用:将网络顶点看着城市,边看着城市之间通讯网,边的权重看着成本,根据最小生成树可以构建城市之间成本最低的通讯网&#x…

算法偏见侦探

来源:AI 科技评论摘要:随着越来越多的算法不断渗透入社会的层层面面,如医疗机构、政府部门,对算法偏见的讨论越来越多。这个月,Nature 杂志评选出 2018 年最受欢迎的十大科学长篇专题报道,其中,…

pytorch实现常用的一些即插即用模块(长期更新)

1.可分离卷积 #coding:utf-8 import torch.nn as nnclass DWConv(nn.Module):def __init__(self, in_plane, out_plane):super(DWConv, self).__init__()self.depth_conv nn.Conv2d(in_channelsin_plane,out_channelsin_plane,kernel_size3,stride1,padding1,groupsin_plane)…

硅片行业:过剩背景下的寡头市场

来源:乐晴智库精选▌竞争格局:过剩背景下的寡头市场,规模壁垒初步形成光伏产业总体处于产能过剩的状态,硅片环节的过剩尤为突出。根据PVInfolink的统计数据,截至2018年2季度末,全球硅片总产能超过160GW,年化…

从attention到Transformer+CV中的self-attention

一.总体结构 由于rnn等循环神经网络有时序依赖,导致无法并行计算,而Transformer主体框架是一个encoder-decoder结构,去掉了RNN序列结构,完全基于attention和全连接。同时为了弥补词与词之间时序信息,将词位置embedding…

12年后,人工智能和人类会是什么样?这是900位专家的看法|报告

来源:机器之能摘要:有分析师预计,到2030年,在复杂的数字系统中,人们将更加依赖于网络人工智能。 有人说,随着对这些网络工具的广泛使用,我们将继续沿着历史的轨迹生活地更好。也有一些人说&…

水印去除(基于nosie2noise优化 代码+模型)

github链接 1.感受野计算: :本层感受野; :上层感受野; :第i层卷积或池化的步长 k:本层卷积核大小 2.空洞卷积卷积核计算:Kk(k-1)(r-1),k为原始卷积核大小,r为空洞卷积参数空洞率,带入上式即可计算空洞卷积感受野; 3.针对noi…