CV01_相机成像原理与坐标系之间的转换

目录

0.引言:小孔成像->映射表达式

1. 相机自身的运动如何表征?->外参矩阵E

1.1 旋转

1.2 平移

2. 如何投影到“像平面”?->内参矩阵K

2.1 图像平面坐标转换为像素坐标系      

3. 三维到二维的维度是如何丢失的?->透视变换

4. 坐标变换的应用

附:像平面投影实际的偏差问题

参考资料


0.引言:小孔成像->映射表达式

视觉包含着大量的信息,是几乎所有生物感知环境的主要工具,也是机器人的重要传感器之一,但是相机究竟是如何成像的呢?

现在我们假设一种情况:黑暗的环境下,空中有一个发光的小球,小球对面是铺满了墙壁的一张纸,我们会发现小球照亮了整个纸面,但是小球的二维投影圆却没有呈现在纸上。

现在我们再给一个平面放在小球和纸之间,这个平面中心有一个小孔,光透过小孔,我们发现纸面整体虽然变暗了,但是小球二维投影圆却能清晰看见了。这就是小孔成像。

但是小孔到底起着怎样的作用?从数学角度看,小孔就是一个映射或者函数表达式,它让“物点”与“像点”的空间位置有了一一对应的关系。如果没有“小孔”,那么物点会“漫射”到所有像点,自然不会呈现任何形状。

小孔成像就是相机的基本原理,因为镜头本身和小孔一样,也是一个映射。镜头将物点投射到图像传感器上,将光强信号转换到成电流信号,电流信号再由运算电路转化成数字信号,合成数字图像,就是照片。

下面我们就来具体求解这个镜头代表的映射函数的具体形式,从而构建物和像之间的数学关系。

1. 相机自身的运动如何表征?->外参矩阵E

首先,我们建立一个世界坐标系W,而我们的相机自身也有一个坐标系,我们称为相机坐标系C,而且相机坐标系C可以在世界坐标系W中运动,这就引出几个问题:

1.相机自身的运动如何表征?

2.世界坐标系中的“物点”投影到相机的成像平面,这又如何表示?

3.三维到二维的维度是如何丢失的?

4.这些坐标的变换有什么应用?

问题一个一个解决。我们先看第一个问题,为了明白背后的原理我先采用二维坐标(三维坐标是同理的),这样便于理解。

从世界坐标系变换到相机坐标系属于刚体变换。首先介绍刚体运动的概念:刚体(即形状和大小不变的理想化物体)进行的运动,这种运动保持了物体内部所有点之间的相对距离不变。刚体变换通常包括“平移”和”旋转“。

(注意说明旋转和平移时用的是二维举例,三维坐标系的原理是相同的,推广即可)

1.1 旋转

我们先看旋转。现在在二维空间(三维空间同理)有一点P,其W坐标系下(x,y),红色的相机坐标系原来与世界坐标系重合,现在其旋转了θ角:

那么,P点在做了旋转运动了的相机坐标系C下的坐标(x',y')是多少呢?

这个问题我们回头解决,我们先看一下二维平面内的旋转运动是如何表达的:

二维空间内一点P的坐标为(x,y),其绕原点旋转θ后得到P’的坐标是(x',y'),如何求x',y'?

假设OP连线与X轴夹角为 α,由于旋转不改变OP长度,所以有这个等式

\frac x{\cos\alpha}=\frac{x^{\prime}}{\cos{(\alpha+\theta)}}                     

利用和角公式展开可得到x',相似,我们也能得到y'

y'=x\sin\theta+y\cos\theta

我们利用线性代数的知识写成矩阵的形式,这就得到一个旋转矩阵R,也是一个二维的线性变换

\begin{bmatrix}x'\\y'\end{bmatrix}=\begin{bmatrix}\cos\theta&-\sin\theta\\\sin\theta&\cos\theta\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}

我们记作p'=Rp,R为上面的旋转矩阵。


我们回到刚才的问题,用同样的思路,还是有OP长度相等的关系,我们计算可得x'y'x^{\prime}=x\cos\theta+y\sin\theta\\y^{\prime}=-x\sin\theta+y\cos\theta

还是用矩阵来表达,我们就得到了一个坐标基变换的表达式

\begin{bmatrix}x'\\y'\end{bmatrix}=\begin{bmatrix}\cos\theta&\sin\theta\\-\sin\theta&\cos\theta\end{bmatrix}\begin{bmatrix}x\\y\end{bmatrix}

上面的矩阵我们记作A,写作p'=Ap(其实这就是坐标基变换

矩阵A的作用就是对同一点不同坐标系下的表达式进行转化

如果我们把刚刚得到的R和A相乘,结果会发现是一个单位矩阵I,则A和R就是互逆的。换句话说:再量相同的情况下,旋转点和坐标系变换是互逆的操作。

\begin{aligned}\mathbf{AR}&=\begin{bmatrix}1&0\\0&1\end{bmatrix}=\mathbf{I}\\\mathbf{A}&=\mathbf{R}^{-1}\end{aligned}

这一点非常有用,也就是只要我们知道了相机的运动,就可以求表示相机运动的逆矩阵来求空间物点在运动后的相机坐标系下的表达

1.2 平移

上面的是旋转运动,下面我们看一下平移运动。

点P移动到P',(x',y')的坐标很容易得到。但是我们要注意,平移不是线性变换,也就是说我们不能用矩阵表示平移运动。但是如果我们硬要用矩阵来表示平移呢?----这就引出了齐次坐标(homogeneous)

我们可以用如下方式表示点P的平移

\begin{bmatrix}x'\\y'\\1\end{bmatrix}=\begin{bmatrix}1&0&a\\0&1&b\\0&0&1\end{bmatrix}\begin{bmatrix}x\\y\\1\end{bmatrix}

上面的矩阵其实就是三维剪切变换,带入到三维中通过线性变换来达到“平移”的效果

那条白色的线其实都发生了成比例的缩放,缩放因子就是最后一个维度的值ω,ω=1时称为归一化平面,齐次坐标ω不同的点在笛卡尔坐标系下是同一个点。

这就是所谓的透视投影(中心投影变换)。透视中心就在ω=0的所谓无穷远点处。

这样我们就明白,我们可以通过高维的剪切变换来实现低维度的平移变换,从而解决了平移运动的矩阵表示问题。

我们通常把线性变换+ 平移称为“仿射变换”(Affine) 

同样地,对于相机坐标系的平移,我们可以通过直接求平移矩阵T的逆矩阵来得到基变换矩阵A。

\begin{aligned} &\mathbf{p}^{\prime}=\mathbf{Tp} \\ &\mathbf{p}^{\prime}=\mathbf{Ap}=\mathbf{T}^{-1}\mathbf{p} \\ &\mathbf{T}=\begin{bmatrix}1&0&a\\0&1&b\\0&0&1\end{bmatrix}\quad\mathbf{A}=\begin{bmatrix}1&0&-a\\0&1&-b\\0&0&1\end{bmatrix} \end{aligned}

然后我们把刚刚提到的平移和旋转合在一起,拼成一个矩阵,就得到了能够转换二维(三维同理)世界坐标到运动的相机坐标系的桥梁(线性变换)。

\left[\begin{array}{ccc}\cos\theta&\sin\theta&a\\-\sin\theta&\cos\theta&b\\0&0&1\end{array}\right]

我们把这个矩阵写成更一般的形式,T和R分别表示平移和旋转,我们称E为相机的“外参矩阵”(Extrinsic Matrix)

E=\begin{bmatrix}R&T\\0^T&1\end{bmatrix},\mathbf{p}'=E\mathbf{p}

写成这种形式的好处是,可以统一的表达有限维空间的情况,比如二维和三维

(注:基于欧拉角的旋转矩阵,其具体形式与旋转轴是否固定以及旋转顺序有关)

如此一来,我们就把第一个问题解决了。

2. 如何投影到“像平面”?->内参矩阵K

我们已经把世界坐标系通过外参矩阵E转换到了运动了的相机坐标系下了,现在我们把目光聚焦到相机坐标系就可以了。像平面与XY平面的距离我们称为焦距f,相机坐标系下一点P(x,y,z)与坐标原点所连直线与像平面的交点P'就是:P在像平面上或者说焦平面上的投影点。

现在我们来求P' 的坐标,根据两个三角形相似,可得

\frac{x'}x=\frac fz\\\frac{y'}y=\frac fz  则P'的坐标为p'(xf/z,yf/z,f)

我们再定义像平面上的坐标为(xf/z,yf/z)这就是图像坐标系下的坐标值。

写成齐次坐标下矩阵的形式为

z\begin{bmatrix}x'\\y'\\1\end{bmatrix}=\begin{bmatrix}f&0&0&0\\0&f&0&0\\0&0&1&0\end{bmatrix}\begin{bmatrix}x\\y\\z\\1\end{bmatrix}, z代表点p的深度信息。


 


2.1 图像平面坐标转换为像素坐标系      

像素坐标系和图像坐标系都在成像平面上只是各自的原点和度量单位不一样。图像坐标系的原点为相机光轴与成像平面的交点,通常情况下是成像平面的中点或者叫principal point。图像坐标系的单位是mm,是物理单位,而像素坐标系的单位是pixel,我们平常描述一个像素点都是几行几列。所以这两者之间的转换关系如下:

\begin{array}{l}u=\frac{xf/z}{dx}+u_0\\\nu=\frac{yf/z}{dy}+\nu_0\end{array}

其中,dx和dy分别表示每一列和每一行分别代表多少mm,即1pixel=dxmm。以齐次坐标形式表示为:
 \begin{bmatrix}u\\\\\nu\\1\end{bmatrix}=\begin{bmatrix}\frac{1}{dx}&0&u_0\\\\0&\frac{1}{dy}&\nu_0\\\\0&0&1\end{bmatrix}\begin{bmatrix}{xf/z}\\{yf/z}\\1\end{bmatrix}

那么将上面得线性变换矩阵与之前的作矩阵乘法,有

\begin{bmatrix}\frac{1}{dx}&0&u_0\\0&\frac{1}{dy}&\nu_0\\0&0&1\end{bmatrix}\begin{bmatrix}f&0&0&0\\0&f&0&0\\0&0&1&0\end{bmatrix}=\begin{bmatrix}f_x&0&u_0&0\\0&f_y&\nu_0&0\\0&0&1&0\end{bmatrix} ,其中fx,fy是焦距(mm)像素值表示(pixel)

右侧的矩阵即为相机的内参矩阵,我们记作K。我们可以看到,这个矩阵其实也是一个仿射变换的形式。

这样,我们的第二个问题也解决了。

3. 三维到二维的维度是如何丢失的?->透视变换

我们把内外参矩阵写在一起,就得到了之前“小孔成像”所代表的映射的表达式P^{\prime}=KEP

这里本质上是一个透视变换,即齐次坐标转笛卡尔坐标(降维了),相机成像三维到二维的维度丢失,就是在这里发生的,得到的归一化像素坐标系下的uv值就是我们要找的图像坐标了。

一句话总结第三个问题的答案:相机坐标系到归一化像素坐标系的透视变换(投影)

4. 坐标变换的应用

1.相机标定:

每一个相机生产出来之后都要进行标定,这样才能把相机的内参写进产品手册卖给客户,而外参会随着相机运动变化而变化,一般把相机固定之后再校正。常用的标定方法是张正友老师提出的棋盘格校定法,此外还有直接线性法DLT。但无论哪种方法,本质都是求解内外参矩阵E和K

2.视觉测量:
iphone的measure也是通过内外参矩阵,才能把图像像素的距离和真实的物理距离对应起来。

3.视觉导航:

如果我们用摄像头作为传感器进行导航和定位,尤其是在视觉SLAM中,如果我们不知道相机的内外参矩阵,又怎么能通过摄像头提供的图像信息解算真实世界的位置,构建真实世界的物理地图呢?

附:像平面投影实际的偏差问题

在实际情况下,相机的成像并没有那么理想。

首先,由于图像传感器的尺寸和形状误差,导致像平面沿xy轴有不同尺度的缩放(scale):

\begin{aligned}(u,v)=(\alpha xf/z,\beta yf/z)\end{aligned}

再者,相机在实际生产过程中存在公差和不确定性因素,导致Z轴或者说主光轴未穿过像平面的中心而产生偏移(offset):
\begin{aligned}(u,v)=(\alpha xf/z+x_0,\beta yf/z+y_0)\end{aligned}

最后,由于工艺问题,像平面不再是矩形而是平行四边形,我们用θ来刻画这种偏斜(skew)。我们会发现这本质也是一个坐标基变换的问题,从垂直XY轴,变成了非垂直的xy轴,从正交基变为了非正交基。

x'=x-y\cot\theta\quad y'=y/\sin\theta

(u,v)=(\alpha(x-y\cot\theta)f/z+x_0,\beta(y/\sin\theta)f/z+y_0)

参考资料

参考1

参考2

参考3

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/39008.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LVS-负载均衡

目录 一、概念 二、LVS工作原理 1. ipvs/ipvsadm 2.名词: 三、常用命令 四、工作模式 1.NAT地址转换模式 (1)工作流程 (2)特点 (3)实验过程 a.环境准备: b.修改测试机的…

UE5 动画蓝图

文章目录 一、State Machines二、Blend Spaces三、Aim Offset四、Montage 初步介绍 Unreal Engine 5 Tutorial - Animation Blueprint Part 1: State Machines (youtube.com) Unreal Engine 5 Tutorial - Animation Blueprint Part 2: Blend Spaces (youtube.com) Unreal Engi…

非静压模型SWASH学习(8)——三维孤立波在锥形岛屿上的爬坡过程(Runup of solitary waves on a conical island)

三维孤立波在锥形岛屿上的爬坡过程(Runup of solitary waves on a conical island) 算例简介模型配置网格及参数设置网格与地形初始条件与边界条件数值求解方法输出设置模拟时间 波浪(孤立波)入射边界的时间序列.bnd文件模拟结果注…

HTML5 SVG: 探索矢量图形的新纪元

HTML5 SVG: 探索矢量图形的新纪元 引言 HTML5,作为现代网页开发的核心技术之一,极大地推动了网页内容的丰富性和交互性。在HTML5的众多特性中,SVG(可缩放矢量图形)发挥着重要作用,它允许开发者创建复杂、响应式的矢量图形,这些图形在任何分辨率下都能保持清晰。本文将…

服务器推送有几种方式,分别有什么优缺点

服务器推送主要有以下几种方式: 长轮询(Long Polling): 优点: 相对简单易实现。能够在一定程度上减少无效的请求,降低服务器资源消耗。 缺点: 仍然存在一定的延迟。如果连接意外中断&#xff…

[吃瓜教程]南瓜书第4章决策树

1.决策树的算法原理 从逻辑角度,条件判断语句的组合;从几何角度,根据某种准则划分特征空间; 是一种分治的思想,其最终目的是将样本约分约纯,而划分的核心是在条件的选择或者说是**特征空间的划分标准 ** …

Mamba项目实战-Ubuntu

注:演示环境需要一个可用的cuda环境,可执行两个命令进行验证 1.nvidia-smi 2.nvcc -V 若出现正确输出,可继续博客以下的操作步骤,否则请确认是否已经安装或已配置环境变量,若未安装则转到博客:深度学习项…

mac安装达梦数据库

参考:mac安装达梦数据库​​​​​​ 实践如下: 1、下载达梦Docker镜像文件 同参考链接 2、导入镜像 镜像可以随便放在某个目录,相当于安装包,导入后就没有作用了。 查找达梦镜像名称:dm8_20240613_rev229704_x86…

第1章 人工智能的基础概念与应用导论

亲爱的读者朋友们,你们好!欢迎来到这个充满神奇与奥秘的人工智能世界。我知道,对于很多人来说,人工智能(AI)可能是个既神秘又高大上的词汇,仿佛遥不可及,只存在于科幻电影或者顶级科…

Figma-ui设计学习APP Store

Figma汉化:Figma 中文社区_插件组件库,软件汉化教程 - Figma.Cool 选择Chorme汉化版离线包 插件安装: 打开浏览器安装扩展,解压加载进去即可。 打开标尺,设置左右内边距参考线(左21 右356),wi…

Java使用分布式实现数据库读写分离

配置主从复制:在MySQL中,可以通过配置主从复制来实现数据同步。将一个节点作为主节点(Master),其他节点作为从节点(Slave)。当主节点上的数据发生变化时,自动将变更内容同步到所有从…

JS面试题6——深拷贝和浅拷贝

它们都是用来复制的 1. 浅拷贝(只复制引用,而未复制真正的值) /* 简单赋值 */ var arr1 [a, b, c, d]; var arr2 arr1; /* Object.assign实现的也是浅拷贝 */ var obj1 {a:1, b:2} var obj2 Object.assign(obj1); 2. 深拷贝(是…

C++ 预处理器定义

目录 一、什么是预处理器定义 二、常见用法 1. 条件编译 2. 宏定义 3. 防止重复包含 4. 动态链接库的导入导出 5、如何设置预处理器定义 一、什么是预处理器定义 预处理器定义(Preprocessor Definitions)在C和C编程中用于在编译过程中进行文本替换…

华为OCR识别技术 [C#]

了解华为OCR识别技术 光学字符识别(OCR,Optical Character Recognition)是一种将印刷或手写的文本字符转换为机器可读文本的技术。华为的OCR技术在业界以其高精度和高效率而著称,广泛应用于金融、教育、政府等多个领域。 OCR技术…

hive explain分析Hsql详解

Hive explain HIVE提供了EXPLAIN命令来展示一个查询的执行计划,可以帮助我们查看stage的依赖情况、排查数据倾斜、hive 调优等 使用语法如下: EXPLAIN [EXTENDED|CBO|AST|DEPENDENCY|AUTHORIZATION|LOCKS|VECTORIZATION|ANALYZE] query explain 后面可以…

【postgresql】版本学习

PostgreSQL 17 Beta 2 发布于2024-06-27。 PostgreSQL 17 Beta 2功能和变更功能的完整列表:PostgreSQL: Documentation: 17: E.1. Release 17 ​ 支持的版本: 16 ( 当前版本) / 15 / 14 / 13 / 12 ​ 不支持的版本: 11 / 10 / 9.6 / 9.5 /…

Symfony框架实战入门:打造简易博客应用全过程解析

Symfony框架详解 一、引言 随着Web应用的复杂度不断提升,开发者们越来越需要高效、可扩展和易于维护的框架来支持他们的工作。Symfony就是这样一款优秀的PHP框架,它基于MVC(模型-视图-控制器)设计模式,提供了许多强大…

探索工业AI智能摄像机的高端科技

在当今快速发展的工业智能化领域,工业AI智能摄像机系列以其卓越的性能和多功能性在国内外备受关注(文末有国外工程师的评测链接)。搭载Raspberry Pi CM4支持的旨在广泛应用,涵盖从简单的条形码扫描到基于人工智能的工业环境中的缺…

7.1.SQL注入-基于函数报错的方式来利用updatexml()

基于函数报错的方式来进行利用-字符型(本页updatexml()) 前提条件是后台数据库没有屏蔽数据库语法报错信息 updatexml()方法详解 注释: 第一个参数,意思就是xml文档的名称 第二个参数,意思就是定位到xml文档中指定…

OFDM关键技术——ICI消除技术

ICI消除算法可以分为以下几类: 1、OFDM符号长度和载波间隔的最优选择,较短的符号周期更有利于降低ICI 2、OFDM基信号的最佳选择,选择频域衰减更快的OFDM基带脉冲 3、自干扰消除技术,将信息调制到一组子载波上 4、频域均衡器&a…