自动驾驶车通过动作捕捉,学会阅读街上人们的肢体语言

来源:机器学习研究组订阅号 

编译:lin

想象一下,工人正在修复路面上一个大坑洞,因此拥有四条车道的马路缩小为两车道。一名工人左手松松地举着停车标志,用右手挥手示意汽车通过。如果是人来开车的话,自然不会考虑是否要遵循手势或标志,而是会平稳前进。

然而,这种情况可能会让自动驾驶汽车停下来。它会理解停止的标志并停下来,但是那个手势呢?这对于自动驾驶系统来说要复杂得多。

在这些情况下,解读肢体语言是关键。

所以,要想在不影响交通流量的情况下,安全、无缝地应对这些挑战,就需要自动驾驶系统了解用于引导人类司机应对意外情况的常见手势,以及行人处理事情时的手势和肢体语言。

世界各地的自动驾驶汽车开发人员多年来一直致力于让自动驾驶汽车至少理解一些基本的手势,最初的重点是自行车手发出的信号。一般来说,开发人员依靠机器学习来提高车辆识别现实环境并了解如何应对的能力。

Cruise,一家为城市设计自动驾驶汽车服务的初创公司,他们从200多辆自动驾驶汽车中收集数据。在过去的七年里,这些汽车每年行驶数十万英里;在疫情爆发之前,它们昼夜不停地在路上行驶,只有在充电(他们的汽车是全电动的)和定期维护时才会休息。我们的汽车学习速度很快,因为它们正在旧金山的丘陵街道上行驶,旧金山是美国最复杂的驾驶环境之一。

但他们意识到,机器学习模型并不总是有足够的训练数据,因为汽车在现实世界中体验重要手势的次数不够多。汽车需要从不同的角度、不同的距离以及在不同的光照条件下识别出每一种情况——这些限制因素的组合产生了大量的可能性。如果仅仅依靠汽车的真实体验,将需要数年时间来获得这些事件的足够信息。

他们在Cruise找到了一个创造性的解决方案:人类手势的动作捕捉(mo-cap),一种游戏开发者用来创造角色的技术。Cruise一直在雇佣游戏开发者,以获得模拟详细世界的专业技能,他们中的一些人则承担起捕捉数据的挑战,以便教他们的车辆理解手势。

首先,他们的数据收集团队会建立一份完整的清单,列出人们使用身体与世界和他人互动的方式,比如打出租车,走路时打电话,或者走到街上躲避人行道施工。从自动驾驶汽车可能会误解为指令本身的动作开始——例如,行人向朋友挥手。接着,他们又做了其他一些靠近车辆但不是针对它的手势,比如停车人员在车辆旁边的车道上挥手示意车辆开进车库,建筑工人举着要求车辆暂时停车的牌子。

最终,他们提出了一个用手势传达的五个关键信息的初始列表:停、走、左转、右转,以及我们常说的“不”——也就是那些与过路车辆无关的常见动作,比如自拍或取走背包。研究人员使用了普遍接受的美国手势,假设汽车会在右边行驶,因为他们是在旧金山进行测试。

当然,人们用来发送这些信息的手势并不是统一的,所以研究人员从一开始就知道他们的数据集必须包含远不止五个例子。到底有多少,他们不确定。

创建这个数据集需要使用动作捕捉技术。有两种类型的mo-cap系统:光学和非光学。光学版的mo-cap使用分布在一个巨大网格状结构上的相机,这个结构围绕着一个舞台;来自这些摄像机的视讯流可以用来三角定位演员穿着的全身套装上的视觉标记的3D位置。该系统有几种变体,可以产生非常详细的捕捉,包括那些面部表情。这种技术允许电影演员扮演非人类角色,比如2009年的电影《阿凡达》,也允许游戏行业记录运动员的动作,以开发以体育为主题的电子游戏。

然而,光学运动捕捉必须在工作室中使用复杂的多摄像头设置来完成。因此,Cruise选择了一种非光学的、基于传感器的动作捕捉版本。这项技术依赖于微机电系统(MEMS),携带方便,无线,不需要专门的工作室空间。这给了研究人员很大的灵活性,允许他们把它带出工作室,放到现实世界的位置。

他们的动作捕捉每一套都有19个传感器包,它们附着在身体的关键部位,包括头部、胸部、臀部、肩膀、上臂、前臂和腿部。每个包裹大约是一枚银币大小,包含一个加速计、一个陀螺仪和一个磁强计。这些设备都被连接到一条包含电池组、控制总线和Wi-Fi收发器的皮带上。传感器数据无线传输到一台运行专用软件的笔记本电脑上,让工程师实时查看和评估数据。

研究人员从Cruise工程团队中招募了5名身体特征各异(包括身高、体重和性别的差异)的志愿者,让他们穿上套装,并把他们带到相对没有电子干扰的地方。每个工程师兼演员首先摆出t形(站直,双腿并拢,手臂伸向一侧)来校准动作捕捉系统。从那里,演员做了一个又一个手势,这些手势来自他们团队从真实数据中创建的手势列表。

在7天的过程中,研究人员让这5位演员一遍又一遍的使用这套手势,每只手分别使用,有时也一起使用。他们还要求演员们表达不同的强度。例如,对于在施工区内超速行驶的汽车发出紧急停车信号的手势,其强度可能会很高。当运动表明汽车应该减速并逐渐停止时,强度会降低。研究人员最终得到了239个30秒的剪辑。

Cruise使用来自动作捕捉系统的数据来生成简笔画(下图)和道路工人的动画(上图),作为教会自动驾驶车辆识别人类手势的努力的一部分。 

然后,工程师准备数据,输入到机器学习模型中。首先,他们验证了所有的手势都被正确记录下来,没有额外的噪音,并且没有旋转错误的传感器提供了错误的数据。然后工程师通过软件对每个手势序列进行运行,以确定序列中每一帧的关节位置和方向。由于这些位置最初是三维捕获的,软件可以计算每个序列的多个二维透视图;该功能允许我们通过递增地旋转点来扩展手势设置,以模拟10个不同的视点。

研究人员创造了更多的变化,通过随机放下身体的不同点来模拟真实世界中某些东西隐藏了这些点,然后再一次递增地旋转剩下的点来创造不同的视角。

  

除了提供不同的人从不同的角度所做的各种各样的手势,动作捕捉也给研究人员提供了非常干净的数据:人体姿势的骨骼结构是一致的,无论服装的风格、颜色或光线条件可能是什么。这些干净的数据让他们更有效地训练机器学习系统。

一旦汽车接受了动作捕捉数据的训练,它们就能更好地驾驭城市驾驶呈现的各种场景。其中一个例子就是道路建设。旧金山总是有过多的建设项目在进行中,这意味着汽车经常面对着指挥交通的工人。使用cruise的手势识别系统,汽车将能够在理解他们各自的手势的同时,安全地绕过多个工作人员。

举个例子,三名公路工人挡住了一辆自动驾驶汽车计划行驶的车道。其中一名工作人员负责指挥交通,另外两名工作人员负责评估道路损坏情况。指挥交通的工人手里拿着一个牌子;它有八条边,像个停车标志,但上面写着“慢点”。他用另一只手示意车辆向前走。为了安全通过十字路口,自动驾驶汽车将识别这个人是控制交通的人。车辆将正确地理解他的手势,即它应该转到另一条车道,向前行驶,并忽略在十字路口对面停车但似乎拥有路权的汽车。

在另一种情况下,车辆会意识到,有人进入十字路口,无视闪烁的“禁止行走”标志,实际上是在指挥交通,而不是一个闯红灯的行人。汽车会注意到这个人是面对着它的,而不是表现出他的立场,就像准备过马路的人会做的那样。它会注意到这个人的一只手是抬起的,另一只手在移动,以便给车辆发出信号让它过马路。它甚至会记录武断的行为。所有这些使汽车明白,即使在十字路口看到有人,它也可以继续向前行驶。

训练自动驾驶汽车理解手势只是一个开始。这些系统必须能够探测到不仅仅是一个人的基本运动。研究人员正在继续测试手势识别系统,使用测试车辆在现实世界中行驶时收集的视频。与此同时,研究人员已经开始训练系统来理解人类搬运或推其他物体的概念,比如自行车。这一点很重要,因为推自行车的人通常与骑自行车的人行为不同。

研究人员还计划扩大数据集,以帮助汽车更好地理解骑自行车的人的手势——例如,左手向上,肘部呈90度角,意味着骑自行车的人要右转;右臂直向外也有同样的意思。自动驾驶汽车已经能识别骑自行车的人,并自动减速为他们腾出空间。然而,知道他们的手势意味着什么,可以让汽车确保给骑自行车的人足够的空间来执行有信号的操作,而不会完全停下来,造成不必要的交通堵塞。(当然,汽车仍然会注意那些没有表明意图的自行车手的意外转弯。)

在未来几年,自动驾驶汽车将改变人们的生活方式。机器学习在这方面已经帮助研究人员走了很长的路。但是创造性地使用像动作捕捉这样的技术可以让研究人员更快地教会自动驾驶车更好地在城市中共存,让我们的道路更加安全。

相关报道:

https://spectrum.ieee.org/transportation/self-driving/selfdriving-cars-learn-to-read-the-body-language-of-people-on-the-street

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/487032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI解梦成为现实 未来还有无限可能

文章来源:学术头条编译:阳光排版:赵辰霞编审:王新凯古代巴比伦人认为梦境包含了预言,而古埃及人则将梦境视为神灵给予的信息来崇拜。在 19 世纪 90 年代,西格蒙德弗洛伊德(Sigmund Freud&#x…

fiddler工具条、状态栏、请求信息栏各按钮的作用

1.fiddler工具条 2.fiddler状态栏 3.请求信息栏 转载于:https://www.cnblogs.com/kakaln/p/8198299.html

超9成SCI论文发在国外!中文期刊到底差在哪?

来源 | 科学网撰文 | 卜叶编辑 | 宗华学术界不投中文期刊的原因是什么?这一老生常谈的问题,最近再次出现在某知识问答平台热榜。短短两周,便吸引了180个回答,浏览量超过34万。中文期刊到底差在哪?面对逐渐边缘化的态势…

pyqt5 点击开始执行_《快速掌握PyQt5》第一章 PyQt5的起点

1.1 开始安装PyQt5就跟安装其他库的方法一样,非常简单:Windows上安装:pip install pyqt5Linux上安装:sudo apt-get install pyqt5-dev-toolsMacOS上安装:pip3 install pyqt5验证是否安装成功,只需要导入下该…

不用math type解决word公式上浮问题

今天来解决一下文档整理时候令人头痛的公式上浮问题。 问题 就是这种,以前碰见了简直就是无解,今天不管怎样,解决它!! 准备 开始前要检查一下公式是否是office math格式,如果不是,需要先转化成…

前沿研究丨基于驾驶脑的智能驾驶车辆硬件平台架构

本文选自中国工程院院刊《Engineering》2018年第4期作者:李德毅,高洪波来源:A Hardware Platform Framework for an Intelligent Vehicle Based on a Driving Brain[J].Engineering,2018,4(4):464-470.编者按智能驾驶车辆试验平台是人工智能科…

cogs2840. 二叉查找树

二叉查找树 时间限制:1 s 内存限制:512 MB 【题目描述】 二叉查找树是一种特殊的二叉树(每个节点最多只有两个儿子的树)。树的每个节点上存有一个唯一的值,并且满足:这个节点的左子树内所有点的值都比这个…

苹果挂端口方法_调音台变身直播声卡的方法

现在干直播的多了,搞音响的也可以利用自己手头的专业设备,把调音台变身为直播声卡,然后进行多通道的高品质混音直播。需要的条件:数字调音台或带有USB音频功能的模拟调音台苹果手机(本人没有安卓手机,就以苹果手机为例…

word删除所有的回车、空格

一、打开替换窗口 二、①删除回车 在查找内容中输入 ^p 在替换为中输入 ^s 或者空白 全部替换 ②删除空格 在查找内容中输入 ^w 在替换为中输入 空白 全部替换 三、总结 在Word中 ^p表示回车, ^s表示空白, ^w表示空格

xp的viostor驱动无法获取磁盘序列号的分析

深信服的viostor驱动在获取序列号的时候,多了一个IDE处理的代码,位置在1128处。它会在刚开机加载viostor.sys时机被调用,然后去读取注册表HKLM\\SYSTEM\CurrentControlSet\Services\viostor\Parameters的IDESNCompat,若为1则有此功…

十问亿级神经元类脑计算机:AI领域有望突破,哪些还需火候

来源:澎湃新闻近日,浙江大学联合之江实验室共同研制成功了中国首台基于自主知识产权类脑芯片的类脑计算机(Darwin Mouse)。研究团队在9月1日的成果发布会上指出,该类脑计算机在神经元规模上超越了德国海德堡大学的Brai…

网络加载空页面

空页面的显示很常用,所以自己做了一个通用的空页面显示,先看效果图 在有网络的时候正常加载显示,在没有网络的时候自动加载空页面,点击空页面重新加载网络请求的一个功能 1:定义一个xml页面,页面布局是一个…

excel有的单元文字可以超出单元格_excel单元格斜线

excel表格的强大功能,给办公带来了很多便捷,但是有很多强大的功能,其实我们都还不会用,如在做报表时,要用到给单元格加两条斜线,三条斜线时,有时就不知道怎么弄,两条或许会&#xff…

百度地图发布专网地图时空数据托管平台,构建智慧城市数字底盘

来源:百度地图“新基建”浪潮下,智慧城市的建设和发展进一步提速,作为智慧城市数字基础设施的地理信息系统,其数据体量也极大增长,对海量GIS数据集成、存储、管理、计算、表达、分析和应用等有关技术的创新发展提出了急…

word取消空格显示为点

其实就是编辑标记的隐藏与显示问题 看这里 这就是“显示/隐藏编辑标记”按钮,加深颜色时就会和我的文章一样有点点,再点击一下就好啦。

cad细等线体不显示_CAD图纸乱码、钢筋符号不显示解决办法(内含万能字体)

好课推荐:零基础CAD:点我CAD室内:点我 周站长CAD:点我CAD机械:点我 Bim教程:点我CAD建筑:点我CAD三维:点我全屋定制:点我 ps教程:点我苹果版CAD:点我 3dmax教…

长达1500年之久的争论:意识是连续的还是离散的?心理物理学家给出了新的回答...

来源:brainnews两种主要理论推动了由Saint Augustine发起的长达1500年之久的争论:意识是连续的(即我们在每一个时间点都有意识),还是离散的(即我们只在特定的时刻有意识)? 9月3日发表…

kind富文本编辑器_在VueJs中集成UEditor 富文本编辑器

来源 | http://www.mshady.com/archives/378在vue的项目中遇到了需要使用富文本编辑器的需求,在github上看了很多vue封装的editor插件,很多对图片上传和视频上传的支持并不是很好,最终还是决定使用UEditor。这类的文章网上有很多,…

彭博社 : 中国稀土——美欧的苦恼

文章来源:彭博社作者:Joe Deaux图片、视频来源:网络编辑:江上波对于那些用于电动汽车、风力涡轮机等领域的稀有原材料,美国和欧洲提高产量、降低对中国依赖性的雄心壮志将面临很多障碍,包括更高的成本和环境…

反射应用二:利用反射加配置文件实现多数据库的访问

在上一篇文章中讲解了什么是反射,以及利用反射可以获取程序集里面的哪些内容。在平时的项目中,可能会遇到项目需要使用多种数据库,这篇文章中将会讲解如何利用反射实现访问多种数据库。 项目整体结构如下图所示: 1、Database.Inst…