摘要
在自动驾驶汽车技术领域,多模式车辆检测网络(MVDNet)代表了一个重大的飞跃,特别是在具有挑战性的天气条件下。本文主要通过集成多头关注层对MVDNet进行增强,旨在改进其性能。MVDNet模型中集成的多头关注层是一个关键的改进,提高了网络更有效地处理和融合多模态传感器信息的能力。本文通过综合测试验证了MVDNet在多头关注下的改进性能,其中包括来自Oxford Radar RobotCar的训练数据集。结果清楚地表明,多头MVDNet优于其他相关的传统模型,特别是在平均精度方面(AP)的估计,在具有挑战性的环境条件下。所提出的多头MVDNet不仅对自动驾驶汽车检测领域做出了重大贡献,而且强调了复杂传感器融合技术在克服环境限制方面的潜力。
关键词:多头注意力;MVDNet;传感器融合;视觉变压器;激光雷达;雷达;美国有线电视新闻网(CNN);R-CNN;自主驾驶;目标检测;深度学习
介绍
自动驾驶汽车的出现代表了交通运输发展的一个重要里程碑,它融合了人工智能、传感器技术和机器学习,重新定义了移动性。该领域最初专注于提供基本的驾驶辅助,但现在已经迅速发展到能够自主导航复杂环境的车辆。这一领域的成就包括复杂感知系统的集成、动态决策能力和在各种环境条件下的广泛测试,推动了技术可能性的极限。随着技术的不断进步,这些技术的融合不仅旨在提高道路安全和效率,还将改变出行体验。
在自动驾驶汽车技术的先进领域,核心目标是实现全自动驾驶(Level 5)。这一目标的核心是对物体检测系统的要求[1],这对于确保车辆周围物体的准确识别和定位至关重要,即使在雾、雨或雪等恶劣天气条件下也是如此。现代自动驾驶汽车通常采用各种复杂的传感器模式[2-4],例如雷达、激光雷达(光探测和测距)和摄像头。这些传感器通过融合它们的互补功能,共同增强了目标检测能力。这种不同感官输入的融合在减轻固有限制方面尤为重要。虽然多模态传感器的融合是一个很有前途的进步,但大多数目标检测方法,主要是结合激光雷达和相机数据[5-7],如图1所示,表现出对能见度的显著依赖。这种依赖充满了挑战,特别是在雾等恶劣天气条件下[8],视觉传感器的有效性受到严重损害[9]。雷达技术正在成为自动驾驶汽车传感器套件的关键组成部分[12],特别是其在雾天条件下导航的有效性[2,3],在雾天条件下,许多传感器(如激光雷达和摄像头)往往无法提供预期的性能。雷达在这种情况下的优势源于它对毫米波信号的使用。与形成雾、雨和雪的细颗粒不同,这些波长明显更大[13],使雷达信号更容易穿透或绕过这些障碍物。尽管有这样的优势,雷达数据在当前自动驾驶数据集中的整合和探索仍然有限。这种限制主要是由于雷达数据的分散性质。最近,牛津雷达机器人汽车(ORR)数据集[11]引入了一种更精细的方法,实现了旋转喇叭天线雷达系统。这种设计有助于实现360°的环境视图和0.9°的精细方位角分辨率。
MVDNet是一种多模式深度融合模型,旨在解决雾天条件下车辆检测的挑战,这是自动驾驶技术进步的一个关键方面。MVDNet的体系结构分为两个关键阶段[10],提高了车辆检测的准确性和可靠性。该模型的第一阶段致力于从激光雷达和雷达数据中单独生成初始建议。这种独立的处理确保了每个传感器模态的独特特性得到充分利用。在MVDNet的第二阶段和更高级阶段,战略性地实施了一种融合机制。该机制旨在整合从激光雷达和雷达传感器提取的特征,通过3D卷积处理利用时间分析。该模型中的后期融合方法旨在将处理集中在关键区域,即感兴趣区域(RoI)上,从而提高了提议生成的效率和传感器数据集成的精度。
多头注意机制被纳入MVDNet,通过将注意过程划分为多个部分或“头部”来发挥作用,每个部分或“头部”专注于输入数据的不同方面。这种方法允许对不同的特征或维度进行并行分析[14],如空间关系或信号强度,使MVDNet能够从输入数据中提取更广泛的信息或特征,而不是使用单一注意力机制,一次只关注数据的一个方面。在本文中,通过对不同数据段的关注分数的计算和比较,该机制动态确定了关注区域,保证了分析的全面细致,从而提高了MVDNet模型的算法的性能。
文献综述及相关著作
-
汽车传感器
随着摄像头、雷达和激光雷达等尖端传感技术的引入,汽车行业发生了重大转变,这些技术是自动驾驶和辅助驾驶系统进步的基础。摄像头通过为交通监控和车道识别等任务提供关键的视觉信息发挥着至关重要的作用,尽管它们的性能可能会在不理想的照明或不利的气象条件下受到影响。相反,雷达传感器通过使用无线电波来确定物体的距离和速度,在这些困难的条件下表现出优越的性能,从而证明了防撞和自适应巡航控制等功能的必要性。此外,LiDAR传感器利用激光技术生成车辆周围环境的复杂三维表示,这是自动驾驶框架内精确导航的关键因素,尽管成本上升和对特定气候条件的敏感性带来了挑战[15]。这些传感器的协同集成显著提高了车辆的安全性和操作能力,代表了汽车技术在实现更先进、更可靠的运输系统方面的显著进步。 -
激光雷达
激光雷达技术的功能是调度激光束,并确定这些光束从目标反射后返回所需的持续时间。虽然基本概念看起来很简单,但执行起来很复杂,需要高精度的定时测量和低信噪比。激光雷达系统技术多样,服务于多个行业,包括汽车、军事、机器人、监视和地形测绘,采用机载激光扫描仪。每个领域都需要激光雷达系统的特定功能;例如,汽车行业寻求具有成本效益、快速和高分辨率的扫描仪。该领域的知名制造商,如Velodyne、Ibeo和Valeo,主要采用机械光束转向、光学激光二极管发射脉冲和雪崩光电二极管进行检测[9]。在图2中展示了来自ORR数据集的Velodyne LiDAR扫描,该数据集已广泛用于车辆检测任务。尽管如此,最近的进展倾向于固态技术,为这些设备提供了更好的耐用性和更低的维护要求。
与雷达技术相比,激光雷达技术以其优越的分辨率和在恶劣天气条件下比相机表现更好的能力而闻名。这使得它在为车辆创建准确的环境模型方面非常有效[16]。然而,激光雷达系统也面临着一系列挑战,包括需要大量的计算资源和复杂的数据分析能力。此外,它们的性能还会受到各种环境因素的影响。先进功能和技术需求的复杂融合凸显了激光雷达在推进车辆技术和提高环境感知精度方面的关键作用。 -
雷达
雷达传感器的采用正在显著增长,特别是在旨在支持自动驾驶的系统中,如自适应驾驶辅助系统(ADAS)。这些系统通常利用雷达的功能,如自动制动和自适应巡航控制。雷达传感器在增强基于摄像头的系统、增强防撞、探测行人和骑自行车者等功能方面的作用越来越受到重视。在汽车领域使用的雷达技术中,调频连续波(FMCW)雷达因其广泛的应用而脱颖而出。它的流行归因于几个好处,包括其组件的可负担性和信号分析的较低计算需求。
在图3中,展示了来自ORR数据集的FMCW雷达扫描,该扫描已广泛用于车辆检测任务。雷达技术的核心机制是基于无线电波的发射和接收,其功能类似于声学回波。与声音在洞穴中回响的方式类似,雷达系统发出的频率波会被附近的物体反射。反射信号随后被雷达系统捕获并处理以确定目标的距离和方向。这种回波探测原理使雷达能够精确地评估近处物体的位置和运动,在增强当代车辆安全和导航系统方面发挥着至关重要的作用。
-
多模态融合
在汽车技术的动态领域,多模态传感器融合的出现标志着一个重大突破。这种创新的方法综合了来自各种传感器的数据,包括摄像头、激光雷达、雷达和超声波,以增强车辆的认知和决策框架。多模态传感器融合的本质在于对来自不同来源的数据进行合并和分析,以形成对车辆外部环境的连贯和精确的描述。摄像头提供丰富的视觉线索,激光雷达提供精确的距离度量,雷达确保在恶劣天气条件下的可靠性。这些不同数据流的整合为车辆提供了对周围环境的全方位感知[17]。
传感器融合技术的主要好处是它有助于建立一个更可靠、更健壮的系统,如图4所示。它解决了独立传感器的固有缺点,即使在特定传感器类型受损时也能保证不间断运行。这种特性在自动驾驶等对安全性和精度要求很高的应用中尤为重要。在高级驾驶辅助系统(ADAS)的范围内,传感器融合是必不可少的。它增强了自适应巡航控制、防撞和车道维护辅助等功能,从而提高了驾驶安全性和效率。合并后的数据有助于提高预测的准确性和对不断变化的道路场景的适应性[18]。
然而,传感器融合的实现并非没有挑战。它需要大量的计算能力来处理实时环境中的各种数据输入。实现跨不同传感器模式的同步和校准是保持数据准确性完整性的必要条件。此外,集成这些系统所涉及的复杂性会影响车辆的整体设计和经济方面。 -
评测指标
在目标检测领域,模型的评估主要依赖于四个关键指标:精度,召回率,平均精度(AP)和over Union(IoU)。
精确度: 精度用于衡量模型识别正向实例的准确性,计算准确的正向检测的比例。较高的精度分数表明,该模型的积极预测在很大程度上是可信的。在不正确的积极预测的影响相当大的情况下,这个指标尤其重要。精度由正确正向预测的总数除以正确正向和错误正向的总和来确定[19]。
召回率: 召回评估模型正确识别所有真实正向实例的能力,反映了模型成功检测到的实际正向实例的比例。表现出高回忆分数的模型在识别积极实例方面是有效的,从而减少了假反向的发生率。在忽视积极实例可能导致严重后果的领域中,这一指标至关重要。召回率的计算涉及真正向识别与真正向和假反向之和的比率[19]。
平均精度: 平均精度(AP)作为目标检测领域的一个关键指标出现,它提供了对模型在不同召回阈值上的性能的深入评估。它通过提供更广泛的模型有效性衡量标准,克服了精确度或召回率等个体指标的限制。平均精度(AP)计算为精确率-召回率图中曲线下的面积。这条曲线是通过绘制不同阈值设置下的精确率和召回率来创建的。在这里,精确度表示准确识别的积极实例与做出的积极预测总数的比率,而召回率表示准确识别的积极实例与总体实际积极实例的比率。
对构成积极预测的阈值水平的调整会影响准确率和召回率指标,从而影响准确率-召回率曲线的形状。AP的计算包括计算该曲线下的面积,面积越大表明目标检测模型的性能增强。
Intersection over Union (IoU): IoU是计算机视觉领域的一个关键指标,广泛用于评估针对特定数据集的对象检测和分割模型的准确性。它通过计算预测边界框与地面真实边界框的相交面积与并集面积的比值来度量预测边界框与地面真实边界框的重叠程度,如图5所示。IoU分数表明模型在物体定位方面的准确性,IoU值越高,表示预测定位与实际物体位置之间的一致性越高。通常建立一个IoU阈值(例如0.5)来区分检测结果是真正向还是假正向,从而促进对检测准确性的标准化评估[20]。
-
相关工作
在基于激光雷达的车辆检测领域,技术可以分为两类,它们都利用了激光雷达数据的固有特性。初始方法如下激光雷达数据作为点云,并利用专门为无组织点集开发的专门架构[22-24]。正如多个模型所证明的那样,该方法允许从未处理的点云中直接学习[16,25]。PointRCNN[25]实现PointNet[22]提取不同的点特征,并在不同阶段将这些特征组合起来进行目标检测。PointPillars[16]利用PointNet将点云分割成“柱”并提取特征。然而,这些方法在从受环境条件影响的地点提取特征方面面临困难。第二种方法是将LiDAR点云转换成体素化形式,使其与传统的图像检测方法兼容[26-28]。PIXOR[28]是一种根据高度将点云划分成部分创建地图的方法,便于体素数据与其他图像形式的集成。
雾和霾等大气条件导致的数据质量下降导致了先进的视觉传感器除雾方法的发展。然而,激光雷达数据的点云表现出稀疏性,使得典型的密集三维点云清理算法[29-31]在除雾方面效率低下。Heinzler等人[32]提出的基于CNN的雾去噪模型在该领域取得了进展,但不能完全解决雾引起的LiDAR数据可见性担忧问题。
DEF[2]开发了一种创新的融合探测器,集成了摄像头、雷达和传感器激光雷达数据。虽然DEF采用了一种创新的方法,但它的雷达和相机组件都受到有限角度视野的限制。RadarNet[33]代表了一个显著的进步,通过CNN在特征提取阶段的早期融合阶段将稀疏雷达数据与LiDAR点云融合在一起。这种融合使物体检测具有完整的360°视图。同样,LiRaNet[34]集成了雷达和LiDAR点云,在初始状态下绘制道路地图,更准确地预测车辆方向。MVDNet[10]专注于雾天条件下的鲁棒性(稳定性)车辆检测。为了实现这一目标,与LiRaNet和RadarNet中使用的雷达相比,MVDNet集成了分辨率更高的雷达,以增强从LiDAR点云获得的信息,并采用了深度后期融合技术。正如这些进展所证明的那样,利用多模态传感器融合[6,7,17,35]提供了数据冗余,从而提高了检测系统对传感器噪声和不利天气环境造成的干扰的弹性。
视觉深度学习(Vision transformer, ViT)采用变压器架构,广泛应用于自然语言处理,可以处理计算机视觉任务[36]。利用视觉变换中自注意的有效性,可以对图像进行分类和目标检测,该体系结构也取得了显著的成功相比于CNN。另一种新的多流形多头注意机制用于视觉转换器(ViT),提高了图像识别和分类的性能。该机制集成了三个独立的流形[37],即欧几里得流形、格拉斯曼流形和多头对称正定流形,作为自注意机制的替代方案,允许更深入地关注从图像中提取复杂特征。
方法
多头注意力MVDNet是基本MVDNet模型的高级变体,在MVDNet框架的融合网络单元中特别纳入了多头注意力层。MVDNet模型的基本结构分为两个不同的阶段,如图6所示。在初始阶段,区域建议网络(RPN)的任务是处理来自激光雷达和雷达传感器的输入,从传感器数据中提取特征地图,然后根据这些地图生成建议。第二阶段称为区域融合网络(RFN),负责融合和汇集从每个传感器数据中提取的区域特定特征。
-
区域建议网络(RPN)
在MVDNet架构中,如图6所示,两个独立的特征提取器模块用于激光雷达和雷达输入信号,每个模块共享相同的结构设计。与雷达相比,LiDAR部分包含的特征通道数量明显更多,这一决定受到LiDAR输入中存在的更大通道数量的影响。特征提取阶段由四个卷积层组成,每个卷积层都有一个3 × 3的核,用于以相似的输入分辨率进行初始特征提取。随后,该过程涉及通过最大池化步骤对输出进行下采样。在进一步的步骤中,该模型采用转置卷积层对特征映射进行升级。然后,通过跳过连接将这些升级样本的输出与更高分辨率的特征图集成,如图7所示。这种方法为激光雷达和雷达输入提供了一组复合特征图。
该模型的建议生成阶段在这些传感器的集成特征图上运行。考虑到移动车辆在多个传感器帧中可能出现在不同位置的动态特性,本文采用的方法不同于基于单个帧的特征图生成建议的传统方法。相反,该模型将传感器的所有可用帧的特征图连接起来。然后,根据激光雷达和雷达传感器的综合信息生成提案。 -
区域融合网络(RFN)
MVDNet-RPN模块生成建议,随后由感兴趣区域(RoI)池器使用,为每种传感器类型创建特定于区域的特征。传感器融合单元集成了来自激光雷达和雷达数据的特征张量。例如,当车辆完全被雾遮住,导致没有LiDAR点时,LiDAR特征张量的权重被调整为不那么重要。相反,在雷达强度图由于某些背景元素而呈现明显峰值的情况下,该区域中相应的雷达特征张量被分配减少的权重。 -
RFN中的多头注意层
在多头注意的初始阶段,输入序列被投影到几个子空间中。在图8中,这些输入序列(来自LiDAR和雷达的特征张量)通常是查询(Q)、键(K)和值(V)。对于每个注意头h,这些序列使用不同的可学习权矩阵进行线性变换。
这里,W(hQ)、W(hK)和W(hV)分别是查询、键和值的权重矩阵。每个头部都有自己的一组这些矩阵,这使得模型能够同时记录输入的各个部分。
每个头部通过执行缩放的点积注意力来计算注意力分数。该操作是对查询和键之间兼容性的度量。
比例因子√dk,由键的维数(dk)推导而来,用来缓解点积尺寸过大的问题。这样做是为了避免在训练过程中梯度消失的发生。计算每个头部的注意力输出后,将这些输出连接起来,然后进行线性转换。这一步将每个头部捕获的信息合并到单个输出中。
每个头部输出headH是注意函数的结果:
然后将连接的结果乘以另一个可学习的权重矩阵W^0。
评估
-
训练和数据集
Oxford Radar RobotCar数据集由8862个样本组成,分为两部分——7071个样本(占总样本的80%)用于训练,1791个样本(占数据的20%)用于测试——确保两组样本之间没有地理重叠。模型的训练过程以0.01的学习率开始。在40K次迭代之后,这个速率系统地降低了0.1,训练的总次数跨越了85K次迭代,从一个未训练的状态开始。为了训练模型在雾天条件下准确工作,采用随机方法将雾引入到ORR数据集样本中的LiDAR点云中。雾模拟使用深度融合(deep fusion, DEF)[2]框架中的雾模型进行,在所用样本内应用0.5概率。由于激光雷达技术对雾的固有敏感性,该干预措施专门针对激光雷达样本,雾会降低能见度,从而显著影响其性能。
原始ORR数据的收集涉及使用配备了一个NavTech CTS350-X雷达,英国旺塔奇,位于屋顶中央。该雷达与位于苏格兰爱丁堡的两台名为Velodyne HDL-32E的激光雷达一起使用,联合王国,其产出是合并的。在同步激光雷达数据和雷达数据方面,该方法与传统的每次雷达扫描与最近一次激光雷达扫描的配对方法在时间上有所不同。相反,这个过程需要将所有内容连接起来激光雷达扫描(F = 5)发生在单次雷达扫描间隔内。Oxford radar RobotCar数据集包含8862个样本,遵循用于合并激光雷达和雷达数据的同步策略,每个样本封装了分配给单个雷达扫描的持续时间内的5个激光雷达扫描集合。因此,所有8862个样本的LiDAR扫描总数约为44,310次(计算方法为5次LiDAR扫描乘以8862个样本),而雷达扫描总数为8862次,对应于每个样本一次雷达扫描。对于给定的雷达帧及其并发的F = 5个LiDAR帧,如果第n个LiDAR帧中的一个点x位于区间[(n-1)/(F+1)π,(n+1)/(F+1)π]所定义的区域内,则包含该点x。 -
多头数的选择
在多头注意机制中,选择最优的头数是影响神经网络结构性能的关键决策。增加注意头的数量增强了模型从输入数据中识别和整合复杂特征的能力,每个注意头捕获数据的一个不同方面,从而丰富了模型从不同角度的理解。
在每个注意头的上下文中,键、查询和值向量的维数相对于模型的总维数按比例减少,并在现有的注意头数量中平均分配。因此,较高的注意头数会导致每个注意头的尺寸减小,这可能会影响模型识别和处理复杂模式的能力。此外,计算需求随着磁头的增加而增加,因此需要仔细考虑可用的计算资源。在有计算限制的环境中,减少正面次数可能是明智的。或者,用额外的层来增强模型可能比仅仅增加人员数量更有效,因为更深的层可以增强特征提取的深度,而更多的头可以扩大特征提取的范围。
为了使多头注意机制发挥最佳作用,输入的维数(包括键向量、查询向量和值向量的维数)必须能被所选的头数整除。这种可整除性确保了输入的维度在每个头部的均匀分布,从而允许一致的处理。因此,我们的架构设计考虑了人数,如2、4、7、14、21和49,与我们的基线模型输入维度的可分割性标准保持一致。通过全面的实验评估,我们的重点被精炼到评估4、7和14个头部,以确定最适合我们模型的配置,在计算效率和捕获广泛数据见解的能力之间取得平衡。 -
结果
在MVDNet模型的融合网络单元内,通过考虑不同交集超过联合阈值的平均精度(AP),选择现有MVDNet模型中表现最优的注意层中头的数量,对所提出的多头注意层进行评估。这个分析包括将注意力层的正面数改为4、7和14。可以观察到,当头数设置为7时,性能达到最佳,如表1所示。因此,该配置被选择用于在MVDNet的融合网络,以提高其性能。
作为某些迭代的示例,图9显示了多头MVDNet和基本MVDNet在第一个历元中所演示的损失率的比较分析。该图提供了多头车辆检测网络与经过多次迭代精心绘制的基线MVDNet之间损失度量的深入比较。这种并行分析在一个epoch内执行了超过1000次迭代,并揭示了每个网络配置随时间的执行情况。对比的目的是清楚地了解每个系统在检测车辆方面的运行情况,重点是了解创新的多头车辆检测网络与标准MVDNet之间的性能差异。通过检查这些迭代中损失指标的变化,我们可以看到哪个网络可能更有效或更高效,从而深入了解使用更复杂的网络结构(如多头车辆检测网络)进行车辆检测任务的潜在好处。
提出的多头MVDNet在不同天气条件下的性能进行了严格测试,特别是在雾天和晴朗的情况下进行了平均测试。在本文中,评估涉及对多头MVDNet与几个基准的比较研究:基线MVDNet、DEF激光雷达-雷达融合方法,以及仅依赖激光雷达或仅依赖雷达的系统。结果表明,该方法具有多头效应MVDNet在不同IoU值(0.5、0.65和0.8)上的表现始终优于表2中提到的方法。
表2中详细的结果说明了所建议的多头MVDNet在各种交叉超过联合(IoU)阈值上的卓越性能。具体来说,在IoU阈值为0.5时,多头MVDNet实现了令人印象深刻的平均精度(AP)为91.20%,较基线显著改善2.05%与无自我注意机制的MVDNet变体(AP为88.19%)相比,MVDNet变体(AP为89.15%)增加了3.01%。这些发现如图10所示,突出了多头注意机制在车辆检测精度方面带来的增强。
在更严格的IoU阈值0.65进一步检查表明,多头MVDNet不仅保持而且扩大了领先优势,AP为88.90%。这标志着比基线MVDNet (AP为86.72%)提高2.18%,显著优于雷达方法(AP为68.27%)和激光雷达配置(AP为80.72%)。图11描述了多头MVDNet的先进性能,即使在更高的检测严格程度下,也显示了它的鲁棒性和卓越的精度。
在最苛刻的IoU阈值为0.8时,所提出的模型继续显示其优势,实现了74.10%的AP,比MVDNet的基准性能高出2.34% (AP为71.76%)。与DEF方法(AP为43.62%)和雷达设置(AP为43.25%)中观察到的AP显著下降相比,这一性能尤为显著,强调了多头MVDNet在严格精度要求下检测车辆时保持准确性和可靠性的增强能力。
结论
multi-head MVDNet的实施标志着车辆检测领域的重大进步,特别是在雾或雪等恶劣天气条件下。多头MVDNet模型建立在现有MVDNet框架的基础上,通过后期融合提取的特征张量,利用激光雷达和雷达的互补优势。新的MVDNet模型的一个关键改进是在其融合网络中集成了多头注意层。这一层取代了MVDNet中传统的自注意机制,将注意过程分割成多个部分。通过对各种头数量计数的广泛实验,使用七个头的配置被认为是最有效的,因此成为多人注意的选择设置。在检查多头MVDNet时ORR数据集具有高分辨率雷达和激光雷达数据的特点。实验结果表明,多头MVDNet在车辆检测精度方面始终优于原始MVDNet、LiDAR-only和DEF模型。他们计划通过试验不同类型的注意力机制来进一步扩展该系统的功能。
此外,为了未来在自动驾驶汽车中的实时实现,本研究将探索采用双阶段计算策略,以现有的NVIDIA GTX 1080M GPU为基础,用于拟议的多头车辆检测网络。最初,网络将继续在该GPU上进行训练,选择该GPU是因为其经过验证的计算效率,这对于确保模型的鲁棒性和准确性至关重要。训练成功后,该模型将部署在嵌入式边缘计算平台上,镜像现有传感器融合框架中使用的方法[38]。这种部署的目标是类似于边缘计算机的平台,将通过与车辆操作系统的直接接口,促进高效的实时处理和决策。这种高性能训练和高效边缘推理的战略整合旨在为自动驾驶系统提供精确的环境解释,这对于车辆在复杂场景下的即时响应至关重要。 实现这种双阶段计算方法确保了多头车辆检测网络在自动驾驶汽车实际硬件中的实用性和可扩展性。