tensorrt轻松部署高性能dnn推理_基于TensorRT车辆实时推理优化

基于TensorRT车辆实时推理优化

Optimizing NVIDIA TensorRT Conversion for Real-time Inference on Autonomous Vehicles

自动驾驶系统使用各种神经网络模型,这些模型要求在GPU上进行极其精确和高效的计算。Zoox是一家全新开发robotaxis的初创公司,充分利用了NVIDIA硬盘的高性能、节能计算功能。最近,Zoox在旧金山发布了一个一小时的全自动驾驶,详细展示了他们的AI堆栈。

7563e397d9e94d07f61d0acd59fa6564.png

与TensorFlow相比,NVIDIA TensorRT提供了显著的加速(fp32为2-6x,Zoox网络为9-19x),支持使用CUDA流的异步和并发推理能力。Zoox视觉/激光雷达/雷达/预测算法严重依赖于深部神经网络,这些神经网络在我们的车辆上都运行在NVIDIA gpu上,并且大多使用TensorRT部署。

TensorRT是一个用于高性能深度学习推理的SDK,它为深度学习推理应用程序提供低延迟和高吞吐量。

可以使用各种转换管道将模型转换为TensorRT引擎。例如,使用Caffe训练的模型可以使用Caffe解析器轻松地转换为TensorRT运行时。

但是,TensorFlow模型需要使用ONNX(开放式神经网络交换)转换为TensorRT引擎。本文中介绍的工具是针对TensorFlow的,但是这些原则也可以应用到其他的训练框架中。 在为所有这些深层神经网络部署和维护TensorRT引擎的过程中,我们发现了以下痛点: ONNX和TensorRT只支持有限的TensorFlow操作集。

内核大小和步幅的某些组合可能会对TensorRT造成副作用。

迁移到精度降低的推理或TensorRT升级可能导致性能回归。

在Zoox,我们开发了一组工具来促进TensorRT引擎的部署、验证和维护,如图2所示。在下面的部分中,我们将详细介绍这些模块。

TensorRT conversion checker

TensorRT转换检查器的目标是帮助您在训练网络之前识别可能的转换失败。checker是轻量级的,按设计是最小的(在本文后面的代码示例中突出显示)。在训练之前,它会在所构建的网络上触发一个TensorRT转换过程。我们只有在转换成功后才开始训练。

ba74ccb21cbfdf9deedee4b0c4ecb048.png

Figure 2. Zoox TensorRT conversion pipeline overview.

下面的代码示例显示了TensorRT转换检查器。要使用插件,用户只需要导入数据包,在网络构建期间注册输入/输出节点,然后在训练开始之前触发转换检查。

import trt_checker

class Lenet5():

def network(self, X):

input = tf.identity(X, name = "input")

# Registers the input in the conversion checker.

trt_checker.register_input(input)

# Network definition.

...

# Output node.

output = tf.identity(logits, name="output")

# Registers the output node in the conversion checker.

trt_checker.register_output(output)

return output

def main():

...

# Checks if the model can be converted to trt.

conversion_result = trt_checker.check_conversion()

# Only train when trt conversion is successful.

if conversion_result:

accuracy = lenet_network.train()

Output deviation inspection

此插件的目标是在运行整个特定于模型的计算之前,报告转换的TensorRT引擎的潜在精度回归。这个插件在转换后的TensorRT引擎和原始TensorFlow图上运行推理,输入完全相同(由用户随机生成或指定)。然后报告输出偏差的分布,给开发人员一个潜在精度回归的预警。此模块是逐层检查模块的构建块。

b1458967fbe2d766fb25347ab7d1d9bb.png

Figure 3. Output deviation inspection

Layer-by-layer inspection

下面的代码示例显示逐层检查:

def layer_by_layer_analysis(graph, input_layer):

median_error = []

for layer in graph.layers():

errors = convert(graph, input=input_layer, output=layer)

median_error.append(median(errors))

plot(median_error)

如果观察到精度回归,我们希望找出TensorRT引擎中的哪个层或操作对回归有显著贡献。这促使我们开发了逐层检测模块。调用时,模块为每个中间操作运行一个转换作业,并报告此特定操作生成的中值/最大错误(如图4所示)。当研究在不同版本的TensorRT中观察到的不同行为时,此模块非常有用。

2d7597c57755622d30d9cace4cc03bb2.png

Figure 4. Example regression observed in semantic segmentation when upgrading from TensorRT 5.1.5 to TensorRT 7.0.

图4显示了这种回归的一个例子,在这个例子中,我们观察到语义分割输出有轻微的回归。我们对TensorRT 5.1引擎和TensorRT 7.0引擎进行了逐层检查,然后绘制了每层的中间误差。 图5显示了每一层产生的中值误差。我们可以看到在这个特定网络的上采样层中可能存在一个bug。基于这些信息,我们能够在一个较小的网络上重现这种回归,并将此错误报告给NVIDIA。此错误现在已在TensorRT 7.1中修复。

966949ab4074e495d7f9a1941c3458cb.png

图5. 图4中使用的两台TensorRT发动机的逐层检查结果。橙色线显示了TensorRT 7.0推理输出与TensorFlow推理输出相比的中间误差。蓝线显示了TensorRT 5.0引擎生成的结果。上采样层的误差分布有显著差异。

Latency flame graph

为了可视化推理中的瓶颈并找出可能的优化操作,我们将TensorRT剖面仪生成的逐层计时信息绘制成火焰图。计时详细信息根据每个层的名称范围分组,如图6所示。这使我们能够看到网络的哪个部分花费的时间比预期的要长。

a1538db7a394c8ec0d8653a3cc1bd1d9.png

Figure 6. Latency flame graph on Inception Net. The 1767 samples shown in this graph indicates that a forward pass on this network takes 1.767 ms.

Automated conversion pipeline

在Zoox,我们维护一个自动转换管道,跟踪每个模型使用的转换选项。当触发时,自动转换管道将所有记录的模型转换为TensorRT引擎,并将它们上载到云中进行部署。它还为新转换的TensorRT引擎运行验证作业以验证准确性。这个管道帮助我们只用一个命令就可以将所有现有的模型升级到TensorRT的新版本。

Incompatible graph test suite

Zoox维护一个TensorFlow到TensorRT的转换测试套件。它测试了从TensorFlow图到tensort引擎的转换失败案例,以及报告的NVIDIA错误识别。

每个测试构建一个TensorFlow图,将其转换为TensorRT,并将输出偏差与TensorFlow图进行比较。使用此测试套件,我们不仅可以向Zoox工程师演示哪些图形结构或操作可能不适用于TensorRT,而且还可以检测升级到TensorRT的新版本时修复了哪些回归。

Summary

在这篇文章中,我们介绍了Zoox-TensorRT转换管道中的几个特性。TensorRT转换检查器参与神经网络训练的早期阶段,以确保在您浪费时间和资源进行全面训练之前发现不兼容的操作。可以在每一层调用推理精度验证来识别不利于降低精度计算的操作。详细的分析揭示了不必要的计算,这些计算不是在TensorRT内部优化的,但是可以通过在图构建期间简单的代码更改来优化。

自动转换管道帮助您验证每个TensorRT升级或模型重新转换。利用该流水线,我们成功地为神经网络在Zoox自主驾驶平台上执行各种流线型感知任务提供了TensorRT转换支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/558211.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

问卷调查试卷的数据设计

目录前言数据定义数据说明1、第一层{}2、question 一个题目{}3、answer一个答题回复{}4、option 一个选项{}5、selectItems {}具体数据1、发题(终端请求)示例2、答题(图片答题,终端请求)互动或静态3、停止答题(终端请求,一般是互动…

手机上网流量统计_数据统计 | 上半年手机流量同比增110.2%,你贡献了多少?

来源:工信部网站、中新经纬版权申明:内容来源网络,版权归原创者所有。除非无法确认,我们都会标明作者及出处,如有侵权烦请告知我们,我们会立即删除并表示歉意。谢谢!7月25日,工信部网…

Kotlin静态方法定义和调用

在习惯java的开发之后,使用kotlin进行编码,总有那么些不自然。 静态类的定义: 全局静态(实际上是单例模型) 直接将类声明为object,那么所有的函数也就静态的了,这种一般适用于各种util的类。 object UIUtil {fun to…

mybatis insert插入成功返回0_mybatis添加客户

在MyBatis的映射文件中,添加操作是通过元素来实现的。例如,向数据库中的t_customer表中插入一条数据可以通过如下配置来实现。在上述配置代码中,传入的参数是一个Customer类型,该类型的参数对象被传递到语句中时,#{use…

Andoid TextView显示富文本html内容及问题处理

目录富文本内容与效果TextView HtmlImageGetter 处理图片(表情)TagHandler 处理html内容的节点Html的转换过程HtmlToSpannedConverterhandleStartTagstartCssStyle(mSpannableStringBuilder, attributes)字体无效果实现getForegroundColorPattern颜色不显示的坑处理办法颜色修…

mysql截取字符串最后两位_MySQL字符串函数substring:字符串截取

MySQL 字符串截取函数:left(), right(), substring(), substring_index()。还有 mid(), substr()。其中,mid(), substr() 等价于 substring() 函数,substring() 的功能非常强大和灵活。1. 字符串截取:left(str, length)mysql> …

Java类加载顺序之一条日志引发的血案

目录为什么是null回顾类加载原因问题重现总结类加载顺序子类重写被父类构造函数调用的函数注意不能放过不起眼的日志一条日志引发的案子 [11:12:58.505][D][Gen][RTLive][getIns ins 4414717] [11:12:58.774][I][Gen][null][updateShowMode] [11:12:58.864][D][Gen][VideoCame…

Java错误:找不到或无法加载主类

目录前言javac xxx.java 编译需要相对物理路径java xxx 执行需要虚拟路径总结前言 一般情况下,我们都使用工具进行代码的编辑和调试,例如eclipse 、Manven、Android Studio、sublime、vim、notepad、记事本等。 当我们用eclipse android studio等创建的p…

vue取通过key取value_如何通过获取map中的key来获得与key对应的value值,进行运算...

展开全部获取map的key和value的方法分为以下62616964757a686964616fe4b893e5b19e31333366306439两种形式:1、map.keySet():先获取map的key,然后根据key获取对应的value;2、map.entrySet():同时查询map的key和value&…

Android坑点-ByteBuffer.array() 入过坑吗

目录1、坑点介绍2、正确使用姿势(入坑了怎么办)3、坑坑详解3.1HeapByteBuffer可以用buffer.array()3.2DirectByteBuffer的坑在哪里1、坑点介绍 如下代码: ByteBuffer buffer ByteBuffer.allocateDirect(int capacity) byte[] array buf…

php四则运算出题器_php实现简单四则运算器

本文实例为大家分享了php实现简单四则运算器的具体代码,供大家参考,具体内容如下前端代码 :php计算器请输入num1:请选择运算符:-*/%请输入num2:后台:php计算器$num1$_post["num1"];$n…

步苹果iOS的后尘,谷歌Android12“翻车”,更新需谨慎?

苹果不论电脑还是移动设备,都是一如既往的“强硬”。说实话,忽视“兼容”,体验极低。 有小伙伴调侃:人家就是要你买新机器。也有小伙伴(包括我在内),直接关闭系统自动更新。 开发者&#xff1a…

word把选择答案弄到题目里_word中把选择题的正确答案自动填到括号里技巧

为了适应各类复习迎考,大家都会利用一些题目来练习。当面对题目与答案分离的现状(两个文档或一个文档的两个部分)时,怎样将题目和答案合二为一,使答案自动填充到题目后的括号中是颇让大家头疼的一件事情。经过实践探索多步骤的组合操作可以实…

Android Studio无线连接设备调试,比数据线更方便

前言 一般情况下,多数移动开发者使用的是数据线连接电脑,进行各种移动设备的调试,更有胜者,非常迷恋模拟器,模拟器它好不好,答案是好,因为直接运行在电脑上,直接操作,调试…

机器学习里面的基函数_神经网络与机器学习 笔记—核方法和径向基函数网络(上)...

对于神经网络的监督学习有多种不同方法。之前一直总结整理的多层感知器反向传播算法,可以看做是递归技术的应用,这种技术在统计学中通称为随机逼近。这次是采用不同的途径,通过包含如下两个阶段的混合方式解决非线性可分模式的分类问题&#…

AndroidJava List与equals的微妙关系,小心掉坑里

前言 List 有多个实现,本文以ArrayList(LinkedList也一样)作为说明,equals是Object的一个成员函数,例子中的bean重写实现它。 一、Bean 类定义并重写equals函数 public class Book {private String id;private String name;public String ge…

apache缺省banner_http服务器缺省banner

HTTP协议详解(真的很经典)HTTP协议详解(真的很经典)Author :清晨引言HTTP是一个属于应用层的面向对象的协议,由于其简捷、快速的方式,适用于分布式超媒体信息系统。它于1990年提出,经过几年的使用与发展,得到不断地完善和扩展。目…

GenseeSDK 使用Kotlin要注意TODOAndroid Studio关闭TODO

目录一、Kotlin的TODO二、GenseeSDK与TODO 请注意三、Android studio关闭TODO一、Kotlin的TODO 在实现一些接口时候,工具自动将所有的接口函数"空"实现,并在函数体中增加一行代码: TODO或TODO(“not implemented”) 作为提醒催促…

如何启动netcat_Netcat用法

Netcat用法--服务泄漏内部信息要得到某些端口号的详细信息,可以连接到某个端口,对应的服务会告知它的版本号、结构甚至其工作的操作系统。所以,可以使用Netcat来扫描一个特定范围内的端口并报告在这些端口上运行的服务。要使Netcat自动工作&a…

AndroidJava try-catch-finally正确用法

目录一、try-catch-finally的用途二、try-catch的正确使用三、奇怪的try-finally (错误的用法)四、关于try-catch-finally的面试考察1、try、catch、finally 考察,请指出下面程序的运行结果。2、try、catch、finally 考察2,请指出…