PaperNotes(1)-Modeling the World from Internet Photo Collections

从网络图片集对世界进行建模

  • Abstract
  • Introduction
  • 2 Previous Work
    • 2.1特征匹配
    • 2.2 稀疏重建
    • 2.3 基于图像建模
    • 2.4 基于图像的渲染
    • 2.5 图像浏览,检索和注释
  • 3 Overview概述
  • 4 Reconstructing Cameras and Sparse Geometry(相机标定与稀疏重建)
    • 4.1Keypoint Detection and Matching(关键点检测和匹配)
    • 4.2 Structure from Motion(稀疏重建)
    • 4.3 Geo-Registration
    • 4.4 Scene Representation
  • 5 Photo Explorer Rendering
    • 5.1 User Interface Layout
    • 5.2 Rendering the Scene
    • 5.3 Transitions between Photographs
  • 6 Photo Explorer Navigation
  • 7 Enhancing Scenes
  • 8 Results
  • 9 Research Challenges

如有需要, 本人整理的PPT在个人中心中可以下载。

Abstract

互联网上有大量的图片,构成了最大和最多样的照片集合。计算机视觉研究者们该如何利用这些图片进行研究呢?本文从3维场景建模和可视化的角度探索这个问题。我们展示了一个structure-from-motion and image-based rendering 的算法,这个算法可以对由关键词搜索得到的图片进行操作。我们叫这个方法为** Photo Tourism**,此方法已经促进了许多世界著名遗址景点的重构工作。这篇文章展示的算法和结果是对拥有良好照片(来自互联网)的世界遗址、城市、风景等进行三维场景重建的第一步。最后,我们还讨论了研究团队遇到的困难和关键开放性问题。

Introduction

世界上大部分的地点的图片在网上都能被找到,而且角度时间齐全,例如谷歌地图的街景级别的城市图像。

网络图像为世界上的地点建模( shape modeling research)提供了丰富的资料,由于其丰富的视角和多样性,使得设计的算法具有鲁棒性,能够适应与多变的环境。

网络图像由于其无序、未校准、变化多、亮度不受控制、分辨率和质量等问题,而 很难被传统计算机视觉所应用。将这些图片应用在计算机视觉领域的一个主要挑战是:两张图片对应3D坐标的匹配问题。

本文的行文思路:首先回顾最新技术,然后介绍解决此问题的一些第一步,以及我们称之为Photo Tourism的可视化前端。然后,我们为本领域提出了一组开放的研究问题,包括为超大图像数据集创建更有效的对应和重建技术。本文的研究是在2006年文章的基础上发展而来的,发展了新的算法,更多详细内容详见:,http://phototour.cs.washington.edu.

2 Previous Work

过去20年,3D计算机视觉算法在性能上取得飞速发展。这些算法涵括:特征对应、稀疏重建、基于图像建模、基于图像绘制技术、图像搜索技术。以下小节分别介绍各个算法的内容。

2.1特征匹配

介绍了近20年的特征匹配技术,最后说明本文采用SIFT特征( Scale Invariant Feature Transform (SIFT),尺度不变特征变换)

2.2 稀疏重建

**稀疏重建技术:**从匹配特征集合中同时重构三维场景和估计相机位置姿态。近20年来,有大量的工作,本文的工作与前人的工作有相似之处,但是 有相比于前人有更显著的贡献:将SfM技术应用与来自网络的真实世界图片。在应用SfM方法时,我们做了4点改变:(1)用姿态估计来初始化相机参数;(2)启发式的规则选择两幅初始化图像;(3)检验每一重构点的优良性后,在决定是否将其加入重构场景;(4)从图像的EXIF信息中计算相机焦距。

2.3 基于图像建模

近些年来,诸如稀疏重建、基于模型重建等计算机视觉技术在计算机图形领域获得了巨大的吸引力,这些方法又被称为基于图像的建模方法。有很多人已经做过许多优秀的工作了,在这个方面,相比与前人,我们工作强调的是开创图片与三维模型之间的光滑转换,而不是交互的可视化三维模型;因为这个工作前人是做过的。

2.4 基于图像的渲染

Image-Based Rendering 领域开创性的工作是 Aspen MovieMap project (Lippman 1980)。该项目从移动的车上获取了 Aspen Colorado 城中的成千上万张图片,重构了该地城区图的精确三维场景地图,并且,提供了交互式的用户接口。本文工作与该工程类似,但是,花费的人力时间少。且重建建筑物的表面不如IBR相关工作的逼真,但是,这并不是一个问题,因为,我们的初始目标就不是重构的逼真度。因此,我们避开了IBR领域的一些挑战性问题:完整表面模型重建、光照问题、像素精确插值问题。这使得我们能够不受IBM与IBR方法的限制,更随心所欲地操作输入图片。

2.5 图像浏览,检索和注释

最近,使用位置信息来浏览图片的方法越来越流行。现有的系统,都是通过GPS或者手手动的方式来设置位置信息。我们的方法利用现有的图片数据库和网上搜索得到的图片,我们还利用稀疏三维几何和图像特征匹配来构成导航信息。
我们使用的检索技术是: Video Google ,但是为原来技术的三维扩展版本。
我们注释技术能够使的特定目标或者区域的技术在不同图片间移。可自己开发一套注释技术;也可以从Flickr中直接导入现有的注释;还可以进行注释迁移。
2002年有一个传照片返回拍照位置的系统,我们的系统能够完成同样的功能,而且,还附加了:可视化,导航,注释等功能。

3 Overview概述

(此部分为文章脉络概述)
本文主要目标:Our objective is to geometrically register large photo collections from the Internet and other sources。
主要困难:网络图形对于建模的不友好性:质量问题。
主要解决方法:特征匹配和稀疏重建
第四部分:详细叙述本文方法
第五部分:如何得到一个吸引人的表面
第六部分:photo explorer接口,用于用户输入图片后三维重建场景
第七部分:标注在多张图片中转移的技术
第八部分:11个场景的建模效果展示
第九部分:研究团队遇到的挑战性问题。

4 Reconstructing Cameras and Sparse Geometry(相机标定与稀疏重建)

稀疏重建需要相机的内参数,位置,姿态,或者绝对坐标等信息。但是,网络图片不具备这些信息,焦距可以通过EXIF信息读取计算为初值后,进行优化求解。其他参数需要经过相机标定技术进行计算。
**计算过程:**每张图片特征点标注->图片之间的特征点匹配->迭代SFM过程优化相机参数。最后,我们使用交互式技术,将恢复的相机信息存储在构造的地图上空。

4.1Keypoint Detection and Matching(关键点检测和匹配)

本文使用SIFT特征来检测和表示每一张图片中的特征点。因为SIFT良好的尺度不变性,和给每一个特征点赋予的局部描述子。一张图片可能会包含几千个SIFT特征点。
每对(I,J)图片中的特征点匹配:从J的描述子中构造kd-tree。不是通过设置最近邻的距离阈值选匹配点,而是通过I中某一特征点在J中的两个最近邻的距离比值确定d1d2<0.6\frac{d_1}{d_2}<0.6d2d1<0.6.确定该特征点的匹配点。(如果两张图片中的特征出现一对多的情况,则去除这些匹配,因为其中必有一些是错误的)
特征点匹配后,利用RANSAC算法计算两视图几何中的基本矩阵。在每次迭代中,我们利用八点法计算基本矩阵的候选集合。RANSAC outlier threshold= 0.6% of the maximum image dimension。RANSAC算法返回的F矩阵的8个参数由 Levenberg-Marquardt algorithm进行精细化优化。通过上述设置的阈值,移除不符合条件的匹配点。如果总体匹配点数少于20个,则这两张图片的匹配将被全部移除。
找到每张图片的几何一致性匹配后,将多张图片中的特征点连接构成一个图片轨道,每条轨道包含同一张图上的两个关键点的话,就将该关键点剔除。一条轨道至少要包含两张图片上的关键点。
连接多张图片之间的匹配点,构成图像连通轨,由图像连通轨道构成图像连通集合
在这里插入图片描述
在这里插入图片描述

4.2 Structure from Motion(稀疏重建)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.3 Geo-Registration

在这里插入图片描述

4.4 Scene Representation

在这里插入图片描述

5 Photo Explorer Rendering

5.1 User Interface Layout

在这里插入图片描述

5.2 Rendering the Scene

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.3 Transitions between Photographs

在这里插入图片描述

6 Photo Explorer Navigation

在这里插入图片描述
在这里插入图片描述

7 Enhancing Scenes

在这里插入图片描述

8 Results

在这里插入图片描述

9 Research Challenges

在这里插入图片描述

百度文库的全文翻译现场:https://wenku.baidu.com/view/0736a232866fb84ae45c8d6d.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445314.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习(04)-- 典型CNN结构(LeNet5 ,AlexNet)

LeNet5 LeNet5可以说是最早的卷积神经网络了&#xff0c;它发表于1998年&#xff0c;论文原文Gradient-Based Learning Applied to Doucment Recognition作者是Yann Le Cun等。下面对LeNet5网络架构进行简单的说明&#xff0c;有兴趣的同学可以去参考原文&#xff0c;论文原文…

CNN的几种经典模型

本文主要介绍一下CNN的几种经典模型比较。之前自己也用过AlexNet和GoogleNet&#xff0c;网络上关于各种模型的介绍更是形形色色&#xff0c;自己就想着整理一下&#xff0c;以备自己以后查阅方便 LeNet5 先放一张图&#xff0c;我感觉凡是对深度学习有涉猎的人&#xff0c;对…

PaperNotes(2)-Generative Adversarial Net-代码实现资料

Generative Adversarial Nets-生成对抗网络Abstract1.Introduction2.Related work3.Adversarial nets4.Theoretical Results4.1全局最优 pgpdatap_gp_{data}pg​pdata​4.2算法1的收敛性质5.Experiments6.Advantagesa and disadvantages7.Conclusions and future work8.GAN-代码…

深度学习(05)--典型CNN结构(VGG13,16,19)

文章目录目录1.VGG结构2.VGG结构解释3.3*3卷积核的优点4.VGG的muti-scale方法5.VGG的应用目录 1.VGG结构  LeNet5用大的卷积核来获取图像的相似特征  AlexNet用99、1111的滤波器  VGG 巨大的进展是通过依次采用多个 33 卷积&#xff0c;模仿出更大的感受野&#xff08;r…

redis——发布和订阅

频道的订阅和退订 当一个客户端执行 SUBSCRIBE 命令&#xff0c; 订阅某个或某些频道的时候&#xff0c; 这个客户端与被订阅频道之间就建立起了一种订阅关系。 Redis 将所有频道的订阅关系都保存在服务器状态的 pubsub_channels 字典里面&#xff0c; 这个字典的键是某个被订…

redis——事务

Redis 事务可以一次执行多个命令&#xff0c; 并且带有以下三个重要的保证&#xff1a; 批量操作在发送 EXEC 命令前被放入队列缓存。收到 EXEC 命令后进入事务执行&#xff0c;事务中任意命令执行失败&#xff0c;其余的命令依然被执行。在事务执行过程&#xff0c;其他客户端…

深度学习(06)-- Network in Network(NIN)

文章目录目录1.NIN 结构2.MLP卷积3.全局均值池化4.总体网络架构5.NIN补充5.1 广义线性模型&#xff08;GLM&#xff09;的局限性5.2 CCCP层5.3 1*1卷积核作用&#xff08;补充&#xff09;6.手势识别RGB图像--NIN结构目录 1.NIN 结构 2.MLP卷积 传统CNN的局部感受野窗口的运算…

Pytorch(2)-tensor常用操作

tensor常用数学操作1. 随机数1.1 torch.rand() - 均匀分布数字1.2 torch.randn() - 正态分布数字2. 求和2.1 torch.sum(data, dim)2.2 numpy.sum(data, axis)3. 求积3.1 点乘--对应位置相乘3.2 矩阵乘法4. 均值、方差4.1 torch tensor.mean() .std()4.2 numpy array.mean() .st…

深度学习(07)-- 经典CNN网络结构(Inception (v1-v4))

文章目录目录1.Inception介绍1.1 Inception结构1.2 Inception V1(GoogleNet)1.3 Inception V2(Batch Norm)1.4 Inception V3&#xff08;Factorization&#xff09;1.5 Inception V4&#xff08;ResNet&#xff09;1.5 Inception v1~v4 总结1.6 Inception进阶2.Inception实现目…

Python(13)-函数,lambda语句

函数1 函数定义2 函数调用3 函数注释文档4 函数参数4.1 参数列表,默认参数,任意参数4.1.1 无缺省值参数4.1.2&#xff08;部分&#xff09;缺省值参数4.1.3 数量不定形参数4.2 可变对象和不可变对象4.3 作用域4.3.1 globals()函数4.3.2 global 声明变量为全局变量5 函数返回值5…

深度学习(08)-- Residual Network (ResNet)

文章目录目录1.残差网络基础1.1基本概念1.2VGG19、ResNet34结构图1.3 梯度弥散和网络退化1.4 残差块变体1.5 ResNet模型变体1.6 Residual Network补充1.7 1*1卷积核&#xff08;补充&#xff09;2.残差网络介绍&#xff08;何凯明&#xff09;3.ResNet-50(Ng)3.1 非常深的神经网…

redis——命令请求的执行过程

发送命令请求 当用户在客户端中键入一个命令请求时&#xff0c; 客户端会将这个命令请求转换成协议格式&#xff0c; 然后通过连接到服务器的套接字&#xff0c; 将协议格式的命令请求发送给服务器。 读取命令请求 当客户端与服务器之间的连接套接字因为客户端的写入而变得可…

深度学习(09)-- DenseNet

文章目录目录1.DenseNet网络结构2.稠密连接及其优点3.代码实现4.补充说明目录 1.DenseNet网络结构 2.稠密连接及其优点 每层以之前层的输出为输入&#xff0c;对于有L层的传统网络&#xff0c;一共有L个连接&#xff0c;对于DenseNet&#xff0c;则有L*(L1)/2。 这篇论文主要…

redis——缓存击穿/穿透/雪崩

缓存穿透 一般的缓存系统&#xff0c;都是按照key去缓存查询&#xff0c;如果不存在对应的value&#xff0c;就去后端系统查找&#xff08;比如DB&#xff09;。 一些恶意的请求会故意查询不存在的key,请求量很大&#xff0c;就会对后端系统造成很大的压力。这就叫做缓存穿透…

python(15)-window7配置iPython

前提&#xff1a;安装了Pythonanaconda anaconda安装参考&#xff1a;https://www.zhihu.com/question/58033789 在window系统下可以使用两种方法来实现类似与于Linux终端命令运行程序的方法&#xff08;推荐方式2&#xff09;: 1.cmd:自己没有操作过&#xff0c;可以参考下面…

深度学习(10)-- Capsules Networks(CapsNet)

版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/malele4th/article/details/79430464 </div><div id"content_views" class"markdown_views"><!-- flowchart 箭头图标 勿删 --&g…

手把手maven的功能/安装/使用/idea集成

看这篇文章不用着急安装&#xff0c;跟着步骤一定会成功&#xff0c;要理解maven是什么&#xff0c;如何使用。 介绍 maven官网 对于一个小白来说&#xff0c;官网有用的信息就是这些 不管如何介绍maven&#xff0c;作为使用者来说&#xff0c;主要感觉两个方面有帮助&#x…

python(16)-列表list,for循环

高级数据类型--列表1列表定义2列表中取值3列表的增&#xff0c;删&#xff0c;查&#xff0c;改3.1修改指定位置的数据3.2确定指定元素的索引3.3增加操作3.4删除操作3.5 元素是否存在与列表中 in3.6在指定索引位置插入元素4列表的数据统计5列表排序6列表的循环遍历-for7多维度l…

深度学习(11)-- GAN

TensorFlow &#xff08;GAN&#xff09; 目录 TensorFlow &#xff08;GAN&#xff09;目录1、GAN1.1 常见神经网络形式1.2 生成网络1.3 新手画家 & 新手鉴赏家1.4 GAN网络1.5 例子 1、GAN 今天我们会来说说现在最流行的一种生成网络, 叫做 GAN, 又称生成对抗网络, 也…

redis——数据结构和对象的使用介绍

redis官网 微软写的windows下的redis 我们下载第一个 额案后基本一路默认就行了 安装后&#xff0c;服务自动启动&#xff0c;以后也不用自动启动。 出现这个表示我们连接上了。 redis命令参考链接 String 字符串结构 struct sdshdr{//记录buf数组中已使用字节的数量int …