摄像头图像分析目标物体大小位置_单个运动摄像头估计运动物体深度,谷歌挑战新难题...

155cac060a7cdfb89c2be08624c2e776.png

雷锋网 AI 科技评论按:人类视觉系统有一个我们习以为然但其实极其强大的功能,那就是可以从平面图像反推出对应的三维世界的样子。即便在有多个物体同时移动的复杂环境中,人类也能够对这些物体的几何形状、深度关系做出合理的推测。

然而类似的事情对计算机视觉来说就有相当大的挑战,在摄像头和被拍摄物品都静止的情况下尚不能稳定地解决所有的情况,摄像头和物体都在空间中自由运动的情况就更难以得到正确的结果了。原因是,传统的三维重建算法依赖三角计算,需要假设同一个物体可以从至少两个不同的角度同时观察,通过拍摄的图像之间的区别(视差)解算三维模型。想要满足这样的前提,要么需要一个多摄像头阵列,要么要保持被拍摄物体完全静止不动,允许单个摄像头在空间中移动观察。那么,在只有单个摄像头的情况下,深度计算中要么会忽略掉移动物体,要么无法计算出正确的结果。

7d58f228659ae565265d9c9c2cabbff6.png

在谷歌的新研究《Learning the Depths of Moving People by Watching Frozen People》中,他们提出了一种新的基于深度学习的方法来解决单个摄像头+摄像头和物体都在移动的状况下的深度预测,在任意视频上都有很好的效果。这个方法中用人类姿态、常见物体形态的先验学习替代了对于图像的直接三角计算。雷锋网 AI 科技评论介绍如下。

值得指出的是,用机器学习的方法「学习」三维重建/深度预测并不是什么新鲜事,不过谷歌的这项研究专门针对的是摄像头和被摄物体都在移动的场景,而且重点关注的被摄物体是人物,毕竟人物的深度估计可以在 AR、三维视频特效中都派上用场。

3ddd5de75572a04bafd225fb2a872989.gif

3029b906aef349570b7071a7db39c3d0.gif

巧妙地寻找训练数据

正如绝大多数此类方法一样,谷歌选择了用有监督方法训练这个模型。那么他们就需要找到移动的摄像头拍摄的自然场景视频,同时还带有准确的深度图。找到大量这样的视频并不容易。如果选择生成视频的方法,这需要非常逼真的建模,而且在多种场景、光照、复杂度的组合下呈现自然的人物动作,不仅有很高的难度,而且想要泛化到真实场景中仍然有一定难度。另一方法是在真实世界中拍摄这样的视频,需要摄像头支持 RGBD (彩色图像+深度图),微软的 Kinect 就是一种常用的低价方案;但这个方案的问题是,这类摄像头通常只适用于室内环境,而且在三维重建过程中也通常有各自的问题,难以得到理想的精度。

机智的研究人员们想到了利用 YouTube 上面的视频。YouTube 上的海量视频中,各种题材、场景、拍摄手法的都有,有一类视频对这个任务极其有帮助:视频中的人假装时间静止,保持位置和姿态不动,然后一个摄像机在空间中移动,拍下整个场景。由于整个场景中的物体都是固定的,就可以用传统的基于三角计算的方法精确地还原整个三维场景,也就得到了高精度的深度图。谷歌的研究人员们搜集了大概 2000 个这样的视频,包括了不同数量的人们在各种各样不同的真实场景中摆出各种姿势。

f6eecfcff21a51bbdf539fbafe20e2ca.gif

9d01fde8f5a896c45e0b26fa2cbc59ac.gif

为正在移动的人估算距离

上面说到的「时间静止」视频提供了移动的摄像头+静止的物体的训练数据,但是研究的最终目标是解决摄像头和物体同时运动的情况。为了应对这个区别,谷歌的研究人员们需要把网络的输入结构化。

一种简单的解决方案是为视频中的每一帧分别推理深度图(也就是说模型的输入是单帧画面)。虽然用「时间静止」视频训练出的模型已经可以在单帧图像的深度预测中取得顶尖的表现,但谷歌的研究人员们认为,他们还可以利用多个帧的信息进一步提升模型的表现。比如,对于同样的固定物体,摄像头的移动形成了不同视角的两帧画面,就可以为深度估计提供非常有用的线索(视差)。为了利用这种信息,研究人员们计算了每个输入帧和另一帧之间的二维光流(两帧之间的像素位移)。光流同时取决于场景的深度和摄像头的相对位置,不过由于摄像头的位置是未知的,就可以从光流场中消去两者间的依赖,从而得到了初始深度图。这样得到的深度图只对场景中静态的部分有效,为了还能处理移动的人,研究人员们增加了一个人物分割网络,把人从初始深度图中遮蔽掉。那么,网络的输入就由这三部分组成:RGB 彩色图像,人物掩蔽,以及通过视差计算的带有掩蔽的深度图。

234d1a5d540f79219c7f5d7c48d6324a.png

对于这样的输入,网络的任务就是补上有人的区域的深度图,以及对整幅画面的深度图做一些完善。由于人体有较为固定的形状和尺寸,网络可以很容易地从训练数据中学到这些先验,并给出较为准确的深度估计。在训练完毕后,模型就可以处理摄像头和人物动作都任意变化的自然拍摄视频了。

与当前的其它优秀方法的对比如下图。

91cbd79e7e078b400554c7ef40a7a6d9.gif

通过深度图实现三维视频效果

得到准确的深度图之后,一种简单、常见的使用方法就是实现景深和虚焦效果,如下图。

1474e887039caa9595b77e825dfab8d7.gif

其它的用法还比如可以用原图结合深度图进行小幅视角变换,合成「三维画面」,如下图;甚至在画面中增加具有准确深度和尺寸的三维元素也不难。

98b44ee41866f519efe8b14e717ed3ff.gif

论文地址:https://arxiv.org/abs/1904.11111

via ai.googleblog.com,雷锋网 AI 科技评论编译

Github项目推荐:

d70997c630c62df1ded3a551abce7f48.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/472082.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring中DispacherServlet、WebApplicationContext、ServletContext的关系

解释一: 要想很好理解这三个上下文的关系,需要先熟悉spring是怎样在web容器中启动起来的。spring的启动过程其实就是其IoC容器的启动过程,对于web程序,IoC容器启动过程即是建立上下文的过程。 spring的启动过程: 首先&…

LeetCode LCS 03. 主题空间(广度优先搜索BFS)

文章目录1. 题目2. 解题1. 题目 「以扣会友」线下活动所在场地由若干主题空间与走廊组成,场地的地图记作由一维字符串型数组 grid,字符串中仅包含 “0"~"5” 这 6 个字符。 地图上每一个字符代表面积为 1 的区域,其中 …

UIImage 裁剪图片和等比列缩放图片

本文转载至 http://blog.csdn.net/cuiweijie3/article/details/9514293 转自 http://www.tedz.me/ios/uiimage-crop-resize-image interface UIImage(UIImageScale)-(UIImage*)getSubImage:(CGRect)rect;-(UIImage*)scaleToSize:(CGSize)size;endimplementation UIImage(UIIma…

python模式匹配算法_详解Python 最短匹配模式

问题你正在试着用正则表达式匹配某个文本模式,但是它找到的是模式的最长可能匹配。 而你想修改它变成查找最短的可能匹配。解决方案这个问题一般出现在需要匹配一对分隔符之间的文本的时候(比如引号包含的字符串)。 为了说明清楚,考虑如下的例子&#xf…

Paddle 基于预训练模型 ERNIE-Gram 实现语义匹配

文章目录1. 导入一些包2. 加载数据3. 数据预处理3.1 获取tokenizer,得到 input_ids, token_type_ids3.2 转换函数、batch化函数、sampler、data_loader4. 编写模型5. 学习率、参数衰减、优化器、loss、评估标准6. 评估函数7. 训练评估8. 保存模型到文件9. 预测10. 多…

j2ee和mysql怎么连接_J2EE数据库连接不再烦恼

刚开始接触j2ee的时候总是为数据库的开关连接问题而烦恼,虽然问题很简单却很是琐碎,于是干脆写成一个类将所有必要的基本操作全部总结进去,以后只要轻松的import一下就可以了啊:)菜鸟们enjoying!import java.sql.Connection;import java.sql.Statement;import java.sql.ResultS…

SQL SERVER PIVOT 行转列、列传行

在数据库操作中,有些时候我们遇到需要实现“行转列”的需求,例如一下的表为某店铺的一周收入情况表: WEEK_INCOME(WEEK VARCHAR(10),INCOME DECIMAL) 我们先插入一些模拟数据: INSERT INTO WEEK_INCOME SELECT 星期一,1000 UNION…

python安装scipy出现红字_windows下安装numpy,scipy遇到的问题总结

1.安装numpy下载numpy编译包,进入该目录下, 调用命令 python setup.py install进行安装,返回错误:error: Unable to find vcvarsall.bat出现这个原因的问题貌似跟vc编译器有关,具体原因没有细究,但是经Goog…

mysql cluster 查看数据库表名称_MySQL Cluster如何创建磁盘表方法解读

MySQL Cluster采用一系列的Disk Data objects来实现磁盘表;接下来为您详细介绍一、概念MySQL Cluster采用一系列的Disk Data objects来实现磁盘表。Tablespaces:作用是作为其他Disk Data objects的容器。Undo log files:存储事务进行回滚需要的信息&…

(运算符) 运算符

& 运算符既可作为一元运算符也可作为二元运算符。 备注 一元 & 运算符返回操作数的地址(要求 unsafe 上下文)。 为整型和 bool 类型预定义了二进制 & 运算符。 对于整型,& 计算操作数的逻辑按位“与”。 对于 bool 操作数&am…

LeetCode 1903. 字符串中的最大奇数

文章目录1. 题目2. 解题1. 题目 给你一个字符串 num ,表示一个大整数。 请你在字符串 num 的所有 非空子字符串 中找出 值最大的奇数 ,并以字符串形式返回。如果不存在奇数,则返回一个空字符串 “” 。 子字符串 是字符串中的一个连续的字符…

python模拟qq空间登录_python selenium模拟登录163邮箱和QQ空间

最近在看python网络爬虫,于是我想自己写一个邮箱和QQ空间的自动登录的小程序,下面以登录163邮箱和QQ空间和为例:了解到在Web应用中经常会遇到frame/iframe 表单嵌套页面的应用,WebDriver 只能在一个页面上对元素识别与定位&#x…

mysql分页插件springboot_SpringBoot--使用Mybatis分页插件

1、导入分页插件包和jpa包org.springframework.bootspring-boot-starter-data-jpacom.github.pagehelperpagehelper-spring-boot-starter1.2.52、增加分页配置# 主键自增回写方法,默认值MYSQL,详细说明请看文档mapper:identity: MYSQL# 设置 insert 和 update 中,是…

top 命令详解

作用: 实时动态查看系统的整体运行情况, 是一个综合了多方信息监测系统性能和运行信息的实用工具。 选项:-b 以批处理模式操作-c 显示完整的命令-d 屏幕刷新间隔时间-I 忽略失效过程-s 保密模式-S 累积模式-i 设置时间间隔-u 指定用户…

LeetCode 1904. 你完成的完整对局数

文章目录1. 题目2. 解题1. 题目 一款新的在线电子游戏在近期发布,在该电子游戏中,以 刻钟 为周期规划若干时长为 15 分钟 的游戏对局。 这意味着,在 HH:00、HH:15、HH:30 和 HH:45 ,将会开始一个新的对局,其中 HH 用一…

python scipy库函数solve用法_如何在中使用事件scipy.integrate.solve_ivp

我不确定事件处理是否scipy.integrate.solve_ivp工作正常。在下面的例子中,我对一个导数进行积分,得到一个三次多项式,它的根在x-6,x-2和x2。我设置了一个事件函数,返回y,在x值处为零。我希望在解决方案的t…

将MYSQL查询导出到文件

sql文件&#xff1a; set names utf8; select * from xxxxx mysql命令&#xff1a; mysql -h xxxx -uxxxx -p < 4.sql > 4.txt 转载于:https://www.cnblogs.com/aguncn/p/4449969.html

mysql维护计划任务_浅谈MySQL event 计划任务

一、查看event是否开启show variables like %sche%;set global event_scheduler 1;二、-- 设置时区并设置计划事件调度器开启&#xff0c;也可以 event_scheduler onset time_zone 8:00;set global event_scheduler 1;-- 设置该事件使用或所属的数据库base数据库use test;--…

LeetCode 1905. 统计子岛屿(BFS)

文章目录1. 题目2. 解题1. 题目 给你两个 m x n 的二进制矩阵 grid1 和 grid2 &#xff0c;它们只包含 0 &#xff08;表示水域&#xff09;和 1 &#xff08;表示陆地&#xff09;。 一个 岛屿 是由 四个方向 &#xff08;水平或者竖直&#xff09;上相邻的 1 组成的区域。 任…

vue是什么软件_Angular vs React vs Vue:2020年的最佳选择是什么?

在2020年&#xff0c;想象没有HTML&#xff0c;CSS和Javascript的Web开发是不切实际的。 Javascript是Web应用程序前端开发的灵魂。 如果您登陆此页面&#xff0c;那么我认为您在Java语言和Java编程语言的不同框架和库之间感到困惑。企业和软件开发人员最常见的一些查询是&…