VALSE 2024 Workshop报告分享┆ 大规模自动驾驶仿真系统研究

视觉与学习青年学者研讨会(VALSE)旨在为从事计算机视觉、图像处理、模式识别与机器学习研究的中国青年学者提供一个广泛而深入的学术交流平台。该平台旨在促进国内青年学者的思想交流和学术合作,以期在相关领域做出显著的学术贡献,并提升中国学者在国际学术舞台上的影响力。

2024年视觉与学习青年学者研讨会(VALSE 2024)于5月5日到7日在重庆悦来国际会议中心举行。本公众号将全方位地对会议的热点进行报道,方便广大读者跟踪和了解人工智能的前沿理论和技术。欢迎广大读者对文章进行关注、阅读和转发。文章是对报告人演讲内容的理解或转述,可能与报告人的原意有所不同,敬请读者理解;如报告人认为文章与自己报告的内容差别较大,可以联系公众号删除。

VALSE 2024在5月7日的会议主要包括3个Tutorial和9个Workshop。

3个Tutorial:在这三个Tutorial中,来自复旦大学的邱锡鹏教授、北京大学的王鹤教授和快手的王鑫涛呈现了3个报告,分别为《基于大模型的自主智能体》、《具身智能的Sim2Real泛化途径》和《视频生成的初探及其可控性研究》。

9个Workshop: 这些Workshop围绕多模态大模型、脑启发的视觉与学习、优秀学生论坛、女科学家成长论坛、异构联邦学习、多模态感知与对话、大模型与因果推理、遥感图像智能解译以及端到端自动驾驶等主题进行了广泛的探讨。从多模态大模型在复杂数据处理中的应用、到脑启发系统如何影响机器学习的未来发展;从优秀学生展示其创新研究成果的论坛,到支持和鼓励女科学家发展的专场讨论;再到异构联邦学习在保护隐私中的关键角色,以及多模态感知与对话技术在人机交互中的应用。此外,会议还深入探讨了大模型与因果推理在预测和决策中的重要性,遥感图像智能解译技术在环境监测和灾害响应中的应用,以及端到端自动驾驶技术的最新进展。这些讨论不仅突出了技术的创新应用,还强调了科研在推动行业发展和解决现实问题中的关键作用。

本文主要对复旦大学张力研究员的Workshop报告《大规模自动驾驶仿真系统研究》进行总结和分享。

1.报告人简介

张力,复旦大学大数据学院研究员,主要研究领域包括三维重建和自动驾驶等。

2.报告概述

近年来,随着自动驾驶技术及仿真系统的迅速发展,越来越多的研究旨在开发能够模拟极其逼真的驾驶环境的系统。这些研究试图在复杂的交通情景与动态参与者行为的基础上,为自动驾驶算法提供丰富的训练及测试环境。尽管如此,现有的仿真系统在遇到新的驾驶条件或交通场景时,由于依赖现有的数据采集,泛化能力受限。通过利用神经辐射场(NeRF)的三维重建技术以及雷达点云数据作为重建的先验信息,一些研究在提升街景重建的三维一致性上取得了成果,但在应对更广泛且复杂的动态场景时,仍然面临成本和重建质量的挑战。此外,自动驾驶系统迫切需要解决数据多样性不足及复杂光照条件的处理问题,以适应广泛而多样化的数据需求。本报告提出了一种从稀疏视角生成连续时空场景的高精度仿真数据方法,该方法能够准确地捕捉和模拟对象的运动与环境变化,涵盖各种环境条件、光照变化及动态场景,并在时间和空间上保持连续性与一致性,极大地提高了模型训练效率和预测的准确性。

3.最近的相关工作

根据张力研究员在现场的报告内容,选自其中的三篇最近的相关工作如下所示。如需了解张力研究员的更多工作和贡献,可以访问他的谷歌学术主页(张力研究员的谷歌学术主页链接:https://scholar.google.com.hk/citations?user=-wOTCE8AAAAJ&hl=zh-CN&oi=sra)。本推文以2024年的论文“S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation”为例,结合个人理解进行了总结分享,具体见第4节。

(1)论文题目S-NeRF++: Autonomous Driving Simulation via Neural Reconstruction and Generation

论文下载链接:https://arxiv.org/pdf/2402.02112。

(2)论文题目:S-Agents: Self-organizing Agents in Open-ended Environments

论文下载链接:https://arxiv.org/pdf/2402.04578。

(3)论文题目Periodic Vibration Gaussian: Dynamic Urban Scene Reconstruction and Real-time Rendering

论文下载链接:https://arxiv.org/pdf/2311.18561。

4.内容总结

报告介绍了一种名为S-NeRF++的新型自动驾驶仿真系统,该系统基于神经重建技术。这种方法主要解决了传统仿真系统依赖手动建模和2D图像编辑,难以扩展到大规模场景且生成的仿真数据不够真实的问题。S-NeRF++通过改进的神经辐射场(Neural Radiance Fields, NeRF)技术,利用自动驾驶数据集如nuScenes和Waymo进行训练,能够生成大量高质量的街景和前景对象,提供了更高的渲染质量和操作灵活性。

图1 摄像头设置对比

图1(a) 展示了传统NeRF所需的摄像头设置,这些摄像头设置需要大量的重叠视场来有效训练NeRF模型,以实现高质量的3D重建和视图合成。这种设置通常适用于物体中心的场景,如室内环境或较小的室外区域。图1(b) 展示了自主车辆的摄像头设置,这是针对广阔的室外城市驾驶环境设计的。这种设置涵盖了360度的全景视角,摄像头之间的重叠区域相对较少,这对传统NeRF模型来说是一个挑战,因为这种模型依赖于高度重叠的视图来精确重建场景。

图2 新视角渲染性能示例

图2(a) 描述了一种当前最先进的方法(Mip-NeRF 360)在nuScenes场景中的渲染结果,展示了在复杂的城市场景中该方法遇到的问题,如模糊的纹理细节和大量的深度误差。图2(b) 展示了S-NeRF++在相同场景中的渲染结果,显示出明显改进的深度准确性和纹理细节,减少了渲染错误,提供了更为精确和真实的视觉效果。此外,图2(c) 和 图2(d)的对比进一步展示了S-NeRF++在处理动态对象(如移动车辆)时的能力,展示了其在复杂场景中合成新视图的能力,与GeoSim相比具有更高的质量和准确性。

图3 深度监督和渲染管道

图3详细说明了S-NeRF++如何利用来自LiDAR的稀疏点云数据进行深度监督,包括:图3(a) 展示了原始的噪声稀疏点云。图3(b) 展示了从这些点云数据中派生出的深度监督信息。图3(c) 展示了学习到的置信度图,帮助模型评估深度数据的可靠性。图3(d) 展示了最终的深度渲染结果,说明了通过优化深度数据的处理,模型能够生成更准确的深度图,从而改善整体的渲染质量。

图4 移动车辆的相机变换过程

图4展示了自主车辆(ego vehicle)与目标车辆(target vehicle)在数据收集期间动态变化的相对位置处理方法。图中说明了将相机坐标系统转换为以目标车辆为中心的坐标系统,以便更有效地模拟和渲染动态对象。这种处理方式简化了在自动驾驶数据收集中考虑动态目标的复杂性,使得S-NeRF++能够更准确地重建和渲染包含动态前景的场景。

图5 置信度组件的可视化

图5具体展示了深度监督过程中所使用的各种置信度组件的可视化,包括几何置信度和感知置信度等,图中显示了这些置信度如何分别针对不同的数据不一致性进行评估。几何置信度主要处理物理和几何的一致性问题,而感知置信度则关注于图像的视觉和纹理信息的一致性。此外,还展示了如何将这些不同的置信度度量整合到一个综合的置信度图中,这个综合置信度图在模型训练中被用来权衡来自不同数据源的信息,优化最终的学习和渲染过程。

图6 S-NeRF++系统中重建框架的整体概览

图6详细展示了S-NeRF++系统中重建框架的整体概览,特别强调了通过生成密集深度图和可学习的置信度图来监督训练过程。具体而言,首先使用稀疏的LiDAR数据创建初始的深度图,接着这些初始深度图通过深度补全技术被转化为更加密集的深度图。随后,系统生成了基于RGB图像、光流和SSIM/VGG的置信度图,这些置信度图帮助模型区分可靠和不可靠的深度信息。最终,这些数据被用于训练一个基于NeRF的网络,网络输出渲染的RGB图像和对应的深度图。此外,还展示了如何通过学习聚合不同的置信度指标,优化模型的深度估计,从而提高重建和渲染的质量和精度。整个流程说明了S-NeRF++如何结合先进的深度处理技术和神经渲染,以生成高质量的自动驾驶仿真数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/8577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【三】DRF序列化进阶

序列化器的定义与使用 多表关联序列化 【1】准备工作 # settings.py DATABASES {default: {# 数据库引擎选择使用MySQLENGINE: django.db.backends.mysql,# 指定数据库名字,需提前创建NAME: books,# 指定数据库用户名USER: root,# 指定数据库用户密码PASSWORD: …

嵌入式学习69-C++(Opencv)

知识零碎: QT的两种编译模式 1.debug 调试模式 …

时序图详解

1.这是iic总线在回应时候的时序图,data in代表eeprom收到数据,回stm32的ack,数据回应,data out代表stm32收到eeprom的消息,数据输出ack回应 2.交叉线 代表在这一次输出高电平,或者在这一次也可能输出低电…

【bash】笔记

在Shell脚本中,-e 是一个测试运算符,用于检查给定的文件或目录是否存在。 | 是通道符,会把前面的输出给后面作为输入。 sudo tee命令在这里用于同时更新文件和在终端显示输出(尽管 > /dev/null 将标准输出重定向到黑洞&…

ai智能答题助手,这四款软件让知识触手可及!

在数字化时代,知识的获取变得前所未有的便捷。随着人工智能技术的不断发展,AI智能答题助手应运而生,成为了人们学习、工作和生活中的得力助手。今天,就为大家介绍四款备受欢迎的AI智能答题助手软件,让你感受知识的魅力…

俄罗斯国际消费类电子电器展ICEE:人潮如织,盛况空前

近日,备受全球瞩目的俄罗斯国际消费类电子电器展ICEE在莫斯科盛大落幕。本次展会为期四天,真的攒足了眼球,不仅俄罗斯这边的很多媒体和自媒体有报道,展会第一天,很多参展商通过短视频平台将展会的盛况传到了国内&#…

libcity/model/trajectory_loc_prediction/DeepMove.py

1 DeepMove 1.1 构造函数 1.2 初始化权重 1.3 forward 1.4 predict def predict(self, batch):score self.forward(batch)if self.evaluate_method sample:# build pos_neg_inedxpos_neg_index torch.cat((batch[target].unsqueeze(1), batch[neg_loc]), dim1)score tor…

在思科和华为上实现两个主机A,B A能ping通B,B不能ping通A

1.华为实验的topo如下 常规状态下任意两台主机都是可以ping通的 此时的需求是PC4能ping通PC2和PC3但是PC2和PC3不能ping通PC4 这里需要用到ACL策略 在接口上调用 验证: PC4能ping通PC2和PC3 PC2和PC3不能ping通PC4 2.思科类似 正常情况下是都能互相ping通 加上ac…

深入了解 NumPy:深度学习中的数学运算利器

文章目录 1. 导入NumPy2. 创建NumPy数组3. 数组的算术运算4. N维数组4.1 创建和操作多维数组4.2 高维数组 5. NumPy的广播功能5.1 基本广播示例5.2 更复杂的广播示例 6. 访问数组元素6.1 基于索引的访问6.2 遍历数组6.3 基于条件的访问6.4 高级索引6.5 性能考虑 在深度学习和数…

【idea-sprongboot项目】在linux服务器上纯远程开发方式

继上一篇博客【idea-sprongboot项目】SSH连接云服务器进行远程开发-CSDN博客 目录 五、远程开发方式 2)纯远程开发方式 步骤 五、远程开发方式 2)纯远程开发方式 实现原理, 步骤 (1)首先,关闭当前正在…

springMVC入门学习

目录 1、 什么是springmvc 2、springmvc工作流程 3、 springmvc快速入门(XML版本) 4、加载自定义目录下的springmvc.xml配置文件 5、 解析器InternalResourceViewResolver 6、 映射器BeanNameUrlHandlerMapping 7、 适配器SimpleControllerHandle…

el-select 点击按钮滚动到选择框顶部

主要代码是在visibleChange 在这个 popper 里面找到 .el-select-dropdown__list let popper ref.$refs.popper const ref this.$refs.select let dom popper.querySelector(.el-select-dropdown__list) setTimeout(() > { dom.scrollIntoView() }, 800) <templat…

CSF(Cloth Simulation Filter)点云地面点滤波

CSF[Cloth Simulation Filter]点云地面点滤波 0.引言1.布料模拟2.修改布料模拟3.布料滤波4.CSF总体过程 0.引言 code 基本原理&#xff1a;原始点云被倒置过来&#xff0c;然后⼀块布从上⽅掉落到倒置的表⾯。通过分析布的节点与相应的LIDAR点之间的相互作⽤&#xff0c;可以确…

【中级软件设计师】上午题15-计算机网络

上午题15-计算机网络 1 网络设备2 协议簇3 TCP和UDP4 SMTP和POP35 ARP和RARP6 DHCP&#xff08;Dynamic Host Configuration Protocol&#xff09;7 URL8 浏览器9 IP地址和子网划分10 IPv611 Windows命令12 路由器 1 网络设备 物理层设备&#xff1a;中继器、集线器&#xff0…

Mysql基础(五)外键约束

一 外键 激励&#xff1a; 每天进步一点点即可 ① 思考 1、在MySQL中,我们知道主键 PRIMARY KEY的主要作用是唯一区分表中的各个行 [记录];思考&#xff1a;但是对于外键 foreign key比较陌生? 那么外键作用以及限制条件和目的呢? ② 外键的定义 1、外键是某个表 A中…

图像处理之SVD检测显示屏缺陷(C++)

图像处理之SVD检测显示屏缺陷&#xff08;C&#xff09; 文章目录 图像处理之SVD检测显示屏缺陷&#xff08;C&#xff09;前言一、SVD算法简介二、代码实现总结 前言 显示屏缺陷检测是机器视觉领域的一处较广泛的应用场景&#xff0c;显示屏主要有LCD和OLED&#xff0c;缺陷类…

基于java,SpringBoot和Vue的智慧校园在线考试留言讨论系统设计

摘要 基于Java, SpringBoot和Vue的智慧校园在线考试留言讨论系统是一个为现代教育需求定制的Web应用&#xff0c;它结合了最新的前后端技术来提供一个互动性强、用户友好的学习和交流平台。该系统旨在通过提供实时留言和讨论功能&#xff0c;增进学生间的互动以及师生之间的沟…

快来看 2024年ICLR杰出论文奖揭晓啦 值得关注

会议之眼 快讯 在人工智能的浪潮中&#xff0c;国际学习表征会议&#xff08;ICLR&#xff09;无疑是引领学术前沿的重要会议之一&#xff01;ICLR是深度学习领域的顶级会议之一&#xff0c;由深度学习领域的两位巨头Yoshua Bengio和Yann LeCun于2013年创办。 2024年5月6日&a…

NSSCTF中的web

目录 [第五空间 2021]WebFTP [LitCTF 2023]PHP是世界上最好的语言&#xff01;&#xff01; [SWPUCTF 2021 新生赛]PseudoProtocols [LitCTF 2023]导弹迷踪 [NISACTF 2022]easyssrf [第五空间 2021]WebFTP 1.进入页面&#xff0c;发现是登录页面&#xff0c;想到 弱口令&…

大模型微调之 在亚马逊AWS上实战LlaMA案例(六)

大模型微调之 在亚马逊AWS上实战LlaMA案例&#xff08;六&#xff09; 通过 SageMaker Python SDK 进行微调Llama2 可以使用 SageMaker Python SDK 微调 Llama 2 模型。以下是在数据集上微调 Llama 2 7B 的示例代码&#xff1a; import os import boto3 from sagemaker.sessi…