点击上方“AI有道”,选择“星标”公众号
重磅干货,第一时间送达
结果
测试的平均结果显示在下表中,在接下来的讨论部分里将对这些结果进行详细介绍。
测量推理
推理时间是模型投入生产时的一个重要指标。为了评估模型的推理时间,我们对不同批量和不同序列长度的模型进行了对比。我们比较了适当的批量大小[1,2,4,8]和序列长度[8,64,128,256,512,1024]。批量大小仍然很小,因为我们仅仅关注推断设置。BERT和其它类似模型的最大序列长度为 512 或 256(用于 CTRL),因此不能在最后一个序列长度上进行测量。以下是我们在两种不同环境中的测试结果:- 在 CPU 上,使用 GCP n1-standard-32,它有 32 个 vCPU 和 120GB 的内存。CPU 的型号是 Intel Xeon@2.3GHz:
- 在 GPU 上,使用了带有 12 个 vCPU、40GB 内存和一个 V100 的 GPU(16GB 的 VRAM)的定制 GCP 机器;
实验细节和最佳实践
为了最大化性能,我们进行了更进一步的优化:- 上述测量使用的 Intel Xeon CPU 带有 AVX 和 AVX2 的扩展,而 TensorFlow 需要从源代码编译之后才能够利用这些扩展,所以只能这么做;
- 我们通过使用 tf.function 和预先跟踪模型来确保我们没有使用 TensorFlow 的 eager 模式;
- 我们比较了依赖于库和不依赖于库的工具:PyTorch的 TorchScript 和带有 GPU 的TensorFlow 的 XLA(自动聚类),后面会详细介绍这两个工具;
- 我们使用了原生的 Python 模块 timeit 来测量推断时间。另外,用repeat=30 和 number=3 来进行每个实验。然后求出30 个值的平均数,就会得到所期望的平均推理时间。通常超过30 个值就会获得非常稳定的结果了;
- 我们不会使用如 TFX 这样的生产环境,并且我们使用的测量模型的可调用方法是:PyTorch 的nn.module.forward 和 TensorFlow 的 tf.keras.layers.layer.call;
- 对于 TensorFlow 和 PyTorch,我们会很谨慎地使用适当的 CUDA 版本;
讨论
PyTorch 和 TensorFlow
在大多数情况下,这两个框架都会得到类似的结果,与 PyTorch 相比,TensorFlow 在CPU 上的速度通常会稍慢一些,而在 GPU 上的速度则稍快一点:- 所有的模型中,在 CPU 上,PyTorch 的平均推断时间为 0.748s,而 TensorFlow 的平均推断时间为 0.823s;
- 所有模型中,在 GPU 上,PyTorch 的平均推断时间为 0.046s,而 TensorFlow 的平均推断时间为 0.043s;
TorchScript
TorchScript 是PyTorch 用来创建可序列化模型的一种方法,可以在不同的运行时间上运行,而不需要 Python 的依赖包,如 C++ 环境。我们的测试是通过在 Python 中跟踪模型并在相同的环境中重用这个跟踪模型来完成的。我们通过预先执行前向传递以确保在测量其推断之前来跟踪模型。免责声明:虽然 TorchScript 并不是为了在 Python 环境中提高运行速度而创建的,但是我们的结果表明,使用 TorchScript 的跟踪模型可以提高性能。TorchScript 似乎非常依赖于模型以及输入的大小(批量大小*序列长度)。例如,在XLNet 上使用 TorchScript 可以获得永久性的性能提升,而在 XLM 上使用 TorchScript 则可能会出现问题,因为它在较小输入下才会提高性能,但在较大输入下反而会降低性能。平均来说,使用 TorchScript 跟踪模型的推断速度比使用相同 PyTorch 非跟踪模型的推断速度快 20%。XLA
XLA 是一个线性代数编译器,它可以提高 TensorFlow 模型的速度,但我们只能在 GPU上使用。它基于TensorFlow 的自动聚类,编译了模型的一些子图。这些结果在速度和内存的使用效率方面得到了提高:大多数内部基准在启用了XLA 后运行速度提高了 1.15 倍。在启用 XLA 后,我们所有模型性能都得到了提高。在某些极端情况下,特别是在较小输入的情况下,推断时间可以减少 70%。模型及其精炼版本
精炼模型版本在这个测试中表现出色,因为它可以很快就进行基准测试。这两个 Hugging Face-engineered 模型——DistilBERT 和 DistilGPT-2 的推断时间比它们的老师模型减少了一半。贡献
由于不同的基准测试有不同的设置和相应的工具,这些都不是靠一个组织所能实现的,因此我们也欢迎来自广大社区的基准。Github用户 @tlkh 已经通过在 TensorFlow 的模型上使用 AMP、XLA 和分布式策略实现的基准测试性能做出了重大的贡献,目前也被添加到文档的基准测试部分。如何做贡献
如果你愿意参与,我们已经在 Github 上设置了主题模板,这样操作起来就会更简单一些。你可以随意打开已有结果的主题,或者打开一个请求并到文档的基准测试部分进行添加。基准测试脚本
和本文的发布和文档中的基准测试页一起,我们在示例部分添加了一个新脚本:benchmarks.py,它是用于获取下面详细结果的脚本。它可以使用XLA 或 TorchScript 在 TensorFlow 或 PyTorch 上运行基准测试,并将结果保存到 CSV 文件当中。接下来的计划对模型进行基准测试只是提高性能的第一步。我们相信这篇介绍性的文章可能有助于比较模型的当前状态,特别是在研究 PyTorch 和 TensorFlow 之间的差异时。当我们深入研究 Transformers 生产方面时,一定会致力于性能改进。对于 Pythorch 和 TensorFlow 的自动化脚本、新架构和定制 TPU 培训,请密切关注后续文章。原文链接:https://medium.com/huggingface/benchmarking-transformers-pytorch-and-tensorflow-e2917fb891c2推荐阅读
(点击标题可跳转阅读)
完备的 AI 学习路线,最详细的资源整理!
干货 | 公众号历史文章精选
我的深度学习入门路线
我的机器学习入门路线图