OpenAI解析「AI算力」：3个半月翻一倍，6年超过30万倍

来源：OpenAI

「雷克世界」编译：嗯~是阿童木呀、KABUDA、EVA

摘要：近日，OpenAI发布了一份分析报告显示，自2012年以来，在最大规模的人工智能训练中所使用的计算量呈指数级增长，3.5个月的时间翻一倍（相比之下，摩尔定律（Moore’s Law）有18个月的倍增周期）。自2012年以来，该指标增长了30多万倍（18个月的倍增周期只会增加12倍）。

计算方面的改进一直是人工智能发展的一个关键组成部分，因此只要这种趋势继续下去，就值得为远超出当今能力的系统所带来的影响做准备。

图表显示了以petaflop/s-days为单位的总计算量，用于训练相对熟知的选定结果，为它们使用了大量时间计算，并给出了足够的信息以估计所使用的计算。petaflop/s-day（pfs-day）包括一天里每秒执行1015个神经网络操作，或者总共大约1020个操作。计算时间的产品是一种精神上的便利，类似于能量中的kW-hr。

我们不测量硬件的峰值理论FLOPS，而是尝试估计所执行的实际操作的数量。我们将加法和乘法作为单独的操作，我们将任何加法或乘法作为单个操作，而不考虑数字的精确性（使“FLOP” 略微用词不当），并且忽略全套模型。附录中提供本图中的示例计算。所显示的最佳匹配线的倍增时间为3.43个月。

概述

推动人工智能发展的因素有三个：算法创新、数据（可以是监督数据或交互环境），以及可用于训练的计算量。算法创新和数据很难追踪，但计算是非同寻常可以进行量化的，它提供了一个衡量人工智能发展进程的机会。当然，使用大量的计算有时会暴露出我们当前算法的缺点。但至少在许多当前的领域中，更多的计算似乎可以预见性地得到更好的性能，并且通常是对算法进步的补充。

对于本分析，我们认为相关的数字不是单个GPU的速度，也不是最大数据中心的容纳量，而是用于训练单个模型的计算量——这是最有可能与最佳模型的有力程度相互关联的数字。每个模型的计算与总体计算有很大的不同，因为对并行性（硬件和算法）的限制约束了模型的大小，或者模型可以被有效地训练的程度。当然，重要的突破仍然是通过少量的计算来实现的——该分析仅涵盖计算能力。

这一趋势表明每年大约增长10倍。这在一定程度上是由自定义硬件驱动的，它允许在给定价格（GPU和TPU）中每秒执行更多的操作，但这主要是由研究人员推动的，他们反复寻找方法以在并行的情况下使用更多的芯片，并愿意为此支付经济成本。

阶段

从图中我们大致可以看到四个不同的阶段：

•2012年之前：在机器学习中使用GPU并不常见，这使得图中的任何结果都难以实现。

•2012年至2014年：在许多GPU上进行训练的基础设施并不常见，因此大多数结果都使用1-8个GPU，额定功率为1-2 TFLOPS，总共为0.001-0.1 pfs-days。

•2014年至2016年：大规模的结果使用了10-100个GPU，额定功率为5-10 TFLOPS，结果为0.1-10 pfs-days。数据并行度的收益递减意味着更大规模的训练运行价值有限。

•2016年至2017年：允许更大算法并行性的方法（如大批量大小、架构搜索和专家级迭代）以及专用硬件（如TPU和更快的互连）极大地增加了这些限制，至少对于某些应用程序而言是这样。

AlphaGoZero / AlphaZero是大规模算法并行性中最明显的公开示例，但此规模的许多其他应用程序现在都是通过算法实现的，并且可能已经在生产环境中发生了。

期待

我们有多种理由去相信图表中所呈现的趋势可能会继续。许多硬件初创公司正在开发AI专用芯片，其中一些公司宣称，他们将在未来1 - 2年内实现 FLOPS / Watt（与FLOPS / $相关）的大幅增长。简单地对硬件进行重新配置来完成相同数量的操作以减少经济成本，也可能会有带来收益。在并行性方面，上述最近所提出的许多算法创新在原则上可以乘法组合——例如，体系结构搜索和大规模并行SGD。

另一方面，成本最终将会限制这一趋势的并行性，而物理学将会限制芯片的效率。我们认为，目前最大规模的训练项目所采用的硬件，仅需要数百万美元的购买成本（尽管摊销成本要低得多）。

但如今大多数神经网络计算仍然被用于推理（部署），而不是训练中，这意味着公司可以重新调整用途或购买更多的芯片进行训练。因此，如果有足够的经济激励措施，我们甚至可以看到越来越多的大规模并行训练项目，从而使这一趋势延续若干年。世界上的硬件总预算每年达1万亿美元，因此绝对的限制依然遥遥无期。

总的来说，考虑到上述数据、计算指数趋势的先例、机器学习特定硬件的运行以及经济上的激励措施，我们认为确信这种趋势在短期内不会持续存在是一个错误错误。

过去的趋势不足以预测这种趋势将持续多久，或者在它持续的过程中会发生什么。但即使存在能力迅速增长的合理潜力，也意味着现在就开始着手处理AI的安全性和恶意使用问题是至关重要的。深谋远虑对负责任的决策制定和负责任的技术发展而言至关重要，我们必须走在这些趋势的前面，而不是对它们作出姗姗来迟的反应。

附录：方法

我们使用了两种方法用于生成这些数据点。当我们有足够的信息时，我们直接在每个训练样本中所描述的架构中计算FLOP的数量（相加和相乘），并乘以训练期间的前向和后向通道总数。当我们没有足够的信息来直接计算FLOP时，我们查看了GPU的训练时间和所使用的GPU总数，并假设了使用效率（通常为0.33）。

对于大多数论文，我们能够使用第一种方法，但对于少数情况下我们依赖于第二种方法，并且我们会尽可能计算两者以作为一致性检查。在大多数情况下，我们也向作者证实了这一点。这些计算并不是精确的，但我们的目标是在2-3倍的范围内做到正确。我们在下面提供一些样本计算。

方法1示例：计数模型中的操作

当作者给出前向传递时所使用的操作数时，这种方法特别容易使用，就像在残差网络（Resnet）论文中（特别是Resnet-151模型）一样：

(add-multiplies per forward pass) * (2 FLOPs/add-multiply) * (3 for forward and backward pass) * (number of examples in dataset) * (number of epochs)
= (11.4 * 10^9) * 2 * 3 * (1.2 * 10^6 images) * 128
= 10,000 PF = 0.117 pfs-days

操作也可以在一些深度学习框架中以编程方式计算已知的模型体系结构，或者我们可以简单地手动计算操作。如果一篇论文提供了足够的信息来进行计算，它将会非常准确，但在某些情况下，论文不包含所有必要的信息，作者也无法公开揭示它。

方法2示例：GPU时间

如果我们不能直接计算操作，那么我们可以查看有多少GPU进行了多长时间的训练，使用对GPU利用率的合理猜测，来尝试估算已执行操作的次数。需要强调的是，我们不计算理论上FLOPS的峰值，而是使用理论上FLOPS的假定分数，来尝试估算实际的FLOPS。根据我们自身的经验，我们通常假定GPU的利用率为33%，CPU的利用率为17%，除非我们有更具体的信息（例如：我们与作者交谈过或工作是在OpenAI上完成的）。

举例来说，在AlexNet论文中明确指出，“我们的网络需要花费5到6天的时间在两台GTX 580 3GB GPU上进行训练”。根据我们的假设，这意味着总计算量为：

Number of GPUs * (peta-flops/GTX580) * days trained * estimated utilization
= 2 * (1.58 * 10 ^ -3 PF) * 5.5 * 0.33
= 500 PF = 0.0058 pfs-days

这种方法更为近似，我们可以轻易地减少二分之一甚至更多计算量；我们的目标只是估计数量级。在实践中，当这两种方法都适用时，它们通常可以很好地组合在一起（对于AlexNet而言，我们也可以直接进行计数操作，这时我们得到0.0054pfs-days，而对于GPU时间方法而言，我们得到0.0058pfs-days）。

1.2M images * 90 epochs * 0.75 GFLOPS * (2 add-multiply) * (3 backward pass)
= 470 PF = 0.0054 pfs-days

选择的附加计算

•丢弃率（Dropout）

Method 2:
1 GPU * 4 days * 1.54 TFLOPS/GTX 580 * 0.33 utilization
= 184 PF = 0.0021 pfs-days

•卷积神经网络的可视化与理解

Method 2:
1 GPU * 12 days * 1.54 TFLOPS/GTX 580 * 0.33 utilization
= 532 PF = 0.0062 pfs-days

•Deep Q-Learning（DQN）

Method 1:
Network is 84x84x3 input, 16, 8x8, stride 4, 32 4x4 stride 2, 256 fully connected
First layer: 20*20*3*16*8*8 = 1.23M add-multiplies
Second layer: 9*9*16*32*4*4 = 0.66M add-multiplies
Third layer: 9*9*32*256 = 0.66M add-mutliplies
Total ~ 2.55M add-multiplies
2.5 MFLOPs * 5M updates * 32 batch size * 2 multiply-add * 3 backward pass
= 2.3 PF = 2.7e-5 pfs-days

•Seq2Seq

Method 1:
(348M + 304M) words * 0.380 GF * 2 add-multiply * 3 backprop * 7.5 epoch
= 7,300 PF = 0.085 pfs-days

Method 2:
10 days * 8 GPU’s * 3.5 TFLOPS/ K20 GPU * 0.33 utilization
= 8,100 PF = 0.093 pfs-days

•VGG

Method 1:
1.2 M images * 74 epochs * 16 GFLOPS * 2 add-multiply * 3 backward pass
= 8524 PF = 0.098 pfs-days

Method 2:
4 Titan Black GPU’s * 15 days * 5.1 TFLOPS/GPU * 0.33 utilization
= 10,000 PF = 0.12 pfs-days

•DeepSpeech2

Method 1:
1 timestep = (1280 hidden units)^2 * (7 RNN layers * 4 matrices for bidirectional + 2 DNN layers) * (2 for doubling parameters from 36M to 72M) = 98 MFLOPs
20 epochs * 12,000 hours * 3600 seconds/hour * 50 samples/sec * 98 MFLOPs * 3 add-multiply * 2 backprop
= 26,000 PF = 0.30 pfs-days

Method 2:
16 TitanX GPU’s * 5 days * 6 TFLOPS/GPU * 0.50 utilization
= 21,000 PF = 0.25 pfs-days

•Xception

Method 2:
60 K80 GPU’s * 30 days * 8.5 TFLOPS/GPU * 0.33 utilization
= 4.5e5 PF = 5.0 pfs-days

•神经结构搜索

Method 1:
50 epochs * 50,000 images * 10.0 GFLOPSs * 12800 networks * 2 add-multiply * 3 backward pass
= 1.9e6 PF = 22 pfs-days

Method 2:
800 K40’s * 28 days * 4.2 TFLOPS/GPU * 0.33 utilization
= 2.8e6 PF = 31 pfs-days
Details given in a [later paper](https://arxiv.org/pdf/1707.07012.pdf).

•神经机器翻译

Method 2:
sqrt(10 * 100) factor added because production model used 2-3 orders of magnitude more data, but only 1 epoch rather than 10.
96 K80 GPU’s * 9 days * 8.5 TFLOPS * 0.33 utilization * sqrt(10 * 100)
= 6.9e6 PF = 79 pfs-days

附录：使用适度计算的最新研究结果

大规模计算显然不是产生重要结果的必要条件。近期许多值得关注的研究成果仅使用了少量的计算。下面是一些使用适度计算的结果的案例，这些案例提供了足够的信息来评估它们的计算。

我们没有采用多种方法来评估这些模型的计算，对于上限而言，我们对任何缺失的信息都进行了保守评估，因此它们具有更大的整体不确定性。它们对于我们的定量分析而言并不重要，但我们仍然认为它们很有趣，值得分享：

注意力就是你所需要的： 0.089 pfs-days (6/2017)

Adam优化器：less than 0.0007 pfs-days (12/2014)

学习对齐和翻译：0.018 pfs-days (09/2014)

生成式对抗网络：less than 0.006 pfs-days (6/2014)

Word2Vec: less than 0.00045 pfs-days (10/2013)

变分自编码器：less than 0.0000055 pfs-days (12/2013)

原文链接：https://blog.openai.com/ai-and-compute/

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。