数据驱动是自动驾驶发展的公认方向,也让自动驾驶模型训练成为一头“吃算力”的巨兽。自动驾驶的视觉检测、轨迹预测与行车规划等算法模型,有赖于机器学习海量数据集,但算力的不足让研发速度仍远远赶不上数据量增长的速度。随着传感器的进一步增加,算力的挑战越来越大。
编辑 | 宋慧
出品 | CSDN云计算
近年来,专用于机器学习的AI智算成为发展最快的一种算力形式。包括谷歌、微软、Meta、阿里巴巴在内的顶尖科技公司都纷纷建造了智算中心。
8月2日,小鹏汽车宣布在乌兰察布建成中国最大的自动驾驶智算中心“扶摇”,用于自动驾驶模型训练。“扶摇”基于阿里云智能计算平台,算力可达600PFLOPS(每秒浮点运算60亿亿次),将小鹏自动驾驶核心模型的训练速度提升了近170倍。
对于汽车行业与自动驾驶领域来说,自动驾驶算法模型训练是机器学习的典型场景之一。在乌兰察布,小鹏汽车建造了一个算力规模达600PFLOPS的自动驾驶专用智算中心“扶摇”,来进一步提高模型训练的效率。小鹏汽车董事长、CEO何小鹏在现场对媒体表示,小鹏汽车在2022年到2025年要达到智能辅助驾驶的下一个平台——全场景智能驾驶,现在的智算中心是基础工作。有了高性能的算力平台支撑,自动驾驶才能去改进优化更多细致的场景和需求。
对于云计算的头部企业阿里云来说,和小鹏汽车联合建立自动驾驶的智算平台,阿里云也不再仅仅是提供算力网络存储等云的基础能力。阿里云智能汽车行业总经理李强表示,阿里云团队和小鹏汽车的全球团队一起做了平台的调优工作,并涉及到场景、业务的调优。另外,阿里云也具备了基于云计算的汽车制造、驾驶、营销等在内的多个汽车行业解决方案。
通过与阿里云合作,“扶摇”以更低成本实现了更强算力。首先,对GPU资源进行细粒度切分、调度,将GPU资源虚拟化利用率提高3倍,支持更多人同时在线开发,效率提升十倍以上。在通讯层面,端对端通信延迟降低80%至2微秒。整体计算效率上,实现了算力的线性扩展。存储吞吐比业界20GB/s的普遍水准提升了40倍,数据传输能力相当于从送快递的微型面包车,换成了20多米长的40吨集装箱重卡。此外,阿里云机器学习平台PAI提供了模型训练部署、推理优化等AI工程化工具,比开源框架训练性能提升30%以上。
“扶摇”支持小鹏自动驾驶核心模型的训练时长从7天,缩短至1小时内,大幅提速近170倍。目前,“扶摇”正用于小鹏城市NGP辅助驾驶系统的算法模型训练。和高速道路相比,城市路段的交通状况更为复杂,自动驾驶特殊场景(corner case)的数据集规模增加了上百倍。