NVIDIA TensorRT是一个高性能的深度学习推理优化器和运行时,它提供低延迟和高吞吐量。TensorRT可以从每个深度学习框架导入经过训练的模型,从而轻松地创建可以集成到大型应用程序和服务中的高效推理引擎。
这个视频的五个关键点:
1.TensorRT支持RNNv2, MatrixMultiply, ElementWise, TopK层。
2.RNNv2层需要单独设置每个门和层的权重,RNNv2的输入格式为BSE (Batch, Sequence, embed)。
3.完全连接层也可以用矩阵乘层和Element-Wise 层实现。或者,您可以直接使用TensorRT的完全连接层,但是在将权重输入到该层之前,需要对其进行重新设置。
4. 可以将引擎序列化到内存块,然后将内存块序列化到文件或流。这消除了再次执行优化步骤的需要。
5. 虽然这个示例是用c++构建的,但是您可以使用TensorRT Python API在Python中实现相同的功能。
本视频演示如何使用NVIDIA TensorRT配置基于字符级语言模型的简单递归神经网络(RNN)。
视频将近7分钟,我们已经翻译成中文字幕,请耐心观看。
更多教程:新版Matlab居然已经全面集成了对NVIDIA Jetson的支持,这操作...
用Matlab在NVIDIA Jetson平台上生成和部署目标检测CUDA代码小妙招(中文字幕)
如何在NVIDIA GPU上进行混合精度训练(中文字幕)
如何在Singularity中运行NVIDIA GPU云容器以配置HPC开发环境(中文字幕)
NVIDIA System Profiler 使用介绍(中文字幕)
NVIDIA Jetson摄像头开发视频教程
有不明白的地方,请在本文后留言
或者在我们的技术论坛bbs.gpuworld.cn上发帖