随着 NVIDIA GPU 计算性能的不断提升,如何提升 GPU 利用率是开发者普遍关心的问题之一。从 Kepler 架构开始,NVIDIA GPU 支持多个 CUDA kernels 函数的并发执行,称为 Hyper-Q 技术。Hyper-Q 技术支持多个 CUDA streams、多个 CPU threads 或者多个 CPU processes 同时发射 CUDA kernels 函数到 GPU 上,在硬件资源允许的情况下,实现多个 kernels 的并发执行。对于多个 CPU processes 发射 kernels 的情况,要想实现真正的 kernels 并发,就需要借助 CUDA 中的工具:MPS (Multi-Process Service)。为此,NVIDIA 中国区 GPU 计算专家团队高级工程师吴磊将带来一场线上直播分享,从介绍 CUDA context / Hyper-Q 等背景知识入手,深入浅出的向大家展示 MPS 技术的最佳实践方法,并以实际案例向大家说明 MPS 能够带来的 GPU 性能提升,同时让大家了解一些 MPS 使用过程中的注意事项。本次直播的预备知识为对 GPU 和 CUDA 的基本概念有所了解,例如什么是 GPU 利用率 (Utilization) 和占用率 (Occupancy),什么是 CUDA kernel 函数和 stream 异步并发执行等,难度较低,希望能给 GPU 开发者带来帮助。本次线上分享详情如下:
主题:CUDA多进程服务工具:MPS
日期:2019 年 10 月 31 日,星期四
时间:20:00-21:30
演讲嘉宾
吴磊
NVIDIA中国区GPU计算专家团队高级工程师
吴磊先后从事HPC领域基于CUDA的代码移植和优化,人工智能领域深度学习模型的训练和推理优化。对GPU体系架构,CUDA编程和优化,深度学习推理加速等技术有深刻的理解和丰富的工程经验。点击,立即报名。Accelerating your future
NVIDIA GPU计算专家团队致力于为中国客户提供基于GPU系统的最快解决方案,工作内容涉及视频图像处理、语音识别和合成、自然语言处理、推荐系统等各个方面,通过代码优化、模型优化和Pipeline优化,提供端到端的解决方案。本团队开源了若干原型项目,帮助用户评估GPU可以带来的业务收益,并通过进一步开发集成,利用GPU为用户降低成本,提高效率。