什么是图像

图像,尤其是数字图像的定义,在冈萨雷斯的书中是一个二维函数f(x,y),x,y是空间平面坐标,幅值f是图像在该点处的灰度或者强度。下面通过OpenCV中最常用的图像表示方法Mat来看一下在计算机中是怎么定义图像的。

Mat的定义

OpenCV在2.0之后改用C++实现了Mat类,从而代替了IplImage,不用再手动分配和释放内存。Mat其实是原来存放数组的,数组可以是单通道的也可以是多通道的。通过Mat我们可以存储矢量、张量、点云、矩阵、灰度图、彩色图等。

Mat包含两个部分:矩阵头和指向矩阵元素数据的指针。

当我们定义一个Mat类型的变量,Mat a,这个a只是一个矩阵头,它的大小是固定的,不随矩阵(图像)大小的变化而变化,它包含了矩阵的基本信息,矩阵多大,存放在哪里,怎么存放,还有引用的次数。

关于这个引用次数,其实也是矩阵头存在原因。因为矩阵可能很大,在复制和传递的过程中会占据很大的成本,所以我们其实只需要复制矩阵头和指针,矩阵头中的引用次数会根据复制或者销毁而变化。cv::Mat b = a其实这种拷贝方式就是浅拷贝,两个指向相同矩阵的变量,其中一个的变化会影响另外一个。如果想进行深拷贝,可以使用cv::Mat c = a.clone();或者a.copyTo(d);

Mat的使用

Mat的初始化

cv::Mat img(2,2,CV_8UC3,cv::Scalar(0,0,255));

行列数,元素类型和初始值。8UC3是最熟悉的,8bit的无符号三通道类型,0~255

Mat的输入

cv::Mat imread(const string& filename,int flags=1)

注意第二个参数ImreadModes,有13种枚举类型,常用的是-1,0,1,对应IMREAD_UNCHANGED  ,IMREAD_GRAYSCALE,IMREAD_COLOR

Mat的保存

Cv:: imwrite( const String& filename, InputArray img,const std::vector<int>& params = std::vector<int>());

这里的filename和imread中的一样。保存路径中的filename的后缀名,即图像的格式,和第三个参数有关。第三个参数是图像格式的具体参数,以int型的动态数组的形式给出,每两个为一对,分别是参数名和参数值。(paramId_1, paramValue_1, paramId_2, paramValue_2, ... .)。For JPEG, it can be a quality from 0 to 100 (the higher is the better). Default value is 95.当格式是PNG时,参数决定压缩级别(0到9),压缩级别越高图像占用的空间越小,默认是IMWRITE_PNG_STRATEGY_DEFAULT,当图像数据由滤波预测得到,数据由small values构成,使用IMWRITE_PNG_STRATEGY_FILTERED得到更好的效果;IMWRITE_PNG_STRATEGY_HUFFMAN_ONLY使用Haffman编码。

只有8bit单通道或者三通道的可以通过这个函数保存,三通道时颜色顺序是BGR。Only 8-bit (or 16-bit unsigned (CV_16U) in case of PNG, JPEG 2000, and TIFF) single-channel or 3-channel (with 'BGR' channel order) images can be saved using this function.

当图像格式是PNG(Portable Network Graphics),JPEG2000或者TIFF时可以是CV_16UC的。带有透明度通道的PNG图像也可以使用这个函数保存,通道顺序是BGRA,完全透明Fully transparent pixels时,A=0,完全不透明fully opaque pixels时,A=255/65535

Mat的属性:type depth step

img(3*4)的type是CV_16UC4,

Mat img(3, 4, CV_16UC4, Scalar_<uchar>(1, 2, 3, 4));cout << img << endl;cout << "dims:" << img.dims << endl;cout << "rows:" << img.rows << endl;cout << "cols:" << img.cols << endl;cout << "channels:" << img.channels() << endl;cout << "type:" << img.type() << endl;cout << "depth:" << img.depth() << endl;cout << "elemSize:" << img.elemSize() << endl;cout << "elemSize1:" << img.elemSize1() << endl;cout << "Step[0]:" << img.step[0] << endl;cout << "Step[1]:" << img.step[1] << endl;

 图像的维度,行列数很好理解。但是在多通道时需要注意,列数指的是元素的个数,而元素可能有三通道,而在计算时很多地方习惯把通道展开,这样得到一个通道数和列数的乘积,如int colNumber = outputimage.cols*outputimage.channels()。

Mat类型的type()返回一个int型的值,通过查表可以知道数据类型和通道数。depth和type类似,相比于type缺少了通道信息。

step[0]是其一行所占的数据字节数4 *4 * 16 / 8  = 32.Step得到的和step[0]是一样的

step[1] 是一个元素所占的字节数,img的一个元素具有4个通道,故:4 * 16 / 8 = 8

step返回的是一个MatStep类型的变量,MatStep通过重载运算符[]返回了size_t, size_t则是无符号int型的unsigned int。MatStep初始化后得到一个int型的数组,p = buf; p[0] = p[1] = 0;

Mat中一个uchar* data指向矩阵数据的首地址,而现在又知道了每一行和每一个元素的数据大小,就可以快速的访问Mat中的任意元素了。

Add(M_{I,j})=M.data+M.step[0]*i+M.step[1]*j

如果将一层for循环变成列数乘通道数,那么也可以写为

Add(M_{I,j})=M.data+M.step[0]*i+ j

上面分析step是一个size_t[2],实际不是很正确,正确的来说step应该是size_t[dims],dims是Mat的维度,所以对于上面的二维的Mat来说,step是size_t[2]也是正确的。

下面就对三维的Mat数据布局以及step

图像格式和屏幕接口

三通道时差分之后占用357KB,使用单通道时126KB,但是还是大于原来的120KB,为什么呢,虽然做了差分,但是编码都是8bit编码,图像大小没有变化,图像占用空间大小应该也是一样的。于是把原图读取进来之后直接保存,发现这样子得到的是126KB。但是为什么把png图像读进来再保存成png,占用空间大小就变了呢?

首先来看一下PNG这种格式,它是一种无损压缩的形式,无损压缩即没有丢失原始信息,可以完全恢复原来的格式。压缩的原理是利用特殊的编码将重复的数据进行了标记,同时不再是记录每一个像素的彩色信息,而是进行索引,将颜色对应到各个位置。PNG最为熟悉的地方是它支持透明效果,消除锯齿边缘?这在平面设计中是常用的。另外,PNG的英文名Portable Network Graphics表明它对于网络传输做了优化,什么优化呢?在2G时代,看一张图像往往是一行一行加载出来的,而在现在4G时代网速已经快了很多,但是有时候还是不能马上加载出一幅图像,于是,借助PNG,可以得到更好的体验:先显示出一个基本的图像的模糊版本,之后逐渐清晰起来。

与PNG联系较密切的是GIF格式。因为GIF 中使用了LZW压缩算法,所以GIF的使用需要向Unisys公司缴纳专利费,这才有了PNG的推广。GIF被人熟知主要是因为一些动态表情包,其实GIF也是一种无损压缩算法,只不过GIF可以存放多张图像,人们在显示时将多张图像依次读取并显示,就可以得到动画效果。

之前提到的CV_8UC3就是标准的24位(BGR一共24bit)真彩色,可以表达2^24=1677万种颜色,而人眼只能识别一千万种。真彩色图通常是指RGB 8:8:8,但在显示器上显示的颜色就不一定是真彩色,要得到真彩色图像需要有真彩色显示适配器,现在在PC上用的VGA适配器是很难得到真彩色图像的。VGA(Video Graphics Adapter)接口,又叫D-sub接口,是D-subminiature的简称。显卡所处理的信息最终都要输出到显示器上,而液晶显示器如LCD之前的CRT显示器只能接收模拟信号,所以就有了VGA标准,输出模拟信号。VGA物理接口是梯形的,共3行15个针孔。VGA接口竖置的说明是集成显卡,VGA接口横置说明是独立显卡。

与VGA对应的就是HDMI了,这是High Definition Multimedia Interface,高清多媒体接口,可以传输视频和音频数字信号。对比之下VGA只能传输视频信号,音频信号需要另外的连线。因为是HDMi设备可以接收数字信号,这样就无需进行A/D、D/A转换了,

说到接口就顺便看一下日常使用的手机接口。

 

TypeA:即我们常见的标准USB大口,主流的可以分为USB2.0速度(几十M/S)和USB3.0速度(上百M/S)

TypeB:常见于打印机以及带触摸和USB接口的显示器,日常使用频率低。但是Type-B的分支Micro B接口和Mini B是大多数旧款手机、学习机、数码相机等的的接口格式。

MircoB分为MicroB 2.0和MicroB 3.0,MicroB 3.0更宽,所以可以兼容MicroB 2.0,一般用于移动硬盘,我也见过三星一款手机的耳机以此为接口。该接口过于扁长,多次插拔后故障率较高

 

Type-C:目前绝大多数手机的充电/数据接口,有些还同时是手机的耳机接口。

这里可以看到通过USB Type-C集成了HDMI的功能,既然HDMI可以同时传输视频音频,所以有些手机厂商取消了耳机接口,通过USB Type-C连接耳机。

后记:

OpenCV的官方文档是值得仔细看的,不仅有代码样例还有很详细的解读,通过一些很具体而形象的例子可以快速理解图像处理的知识。

Reference:

1.http://www.cnblogs.com/wangguchangqing/p/4016179.html

2.https://baijiahao.baidu.com/s?id=1611944986325018535&wfr=spider&for=pc

3.http://www.cnblogs.com/wangguchangqing/p/3841271.html

4.https://docs.opencv.org/3.4.0/d3/d63/classcv_1_1Mat.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

吴恩达作业6:梯度检验

梯度检验的目的就是看反向传播过程中的导数有没有较大的误差&#xff0c;首先看Jtheta*x的梯度检验&#xff1a;代码如下 import numpy as np """ Jx*theta的前向传播 """ def forward_propagation(x,theta):Jx*thetareturn J ""&quo…

10年后的计算机会是怎样的?

作者&#xff1a;孙鹏&#xff08;剑桥大学计算机系博士&#xff09;来源&#xff1a;新原理研究所上个世纪三十年代&#xff0c;邱奇和图灵共同提出了通用计算机的概念[1]。在接下来的十多年里&#xff0c;因为战争需要下的国家推动&#xff0c;计算机得以很快从理论发展成为实…

什么是图像变换

还是看OpenCV官方手册&#xff0c;我觉得这样可以同时学习如何使用函数和如何理解一些基本概念。 首先&#xff0c;这里的几何变换geometrical transformations是针对2D图像而言的&#xff0c;不改变图像内容而是将像素网格变形deform the pixel grid&#xff0c;映射到目标图…

MSRA20周年研究趋势文章|图像识别的未来:机遇与挑战并存

文/微软亚洲研究院 代季峰 林思德 郭百宁识别图像对人类来说是件极容易的事情&#xff0c;但是对机器而言&#xff0c;这也经历了漫长岁月。在计算机视觉领域&#xff0c;图像识别这几年的发展突飞猛进。例如&#xff0c;在 PASCAL VOC 物体检测基准测试中&#xff0c;检测器的…

吴恩达作业7:梯度下降优化算法

先说说BatchGD用整个训练样本进行训练得出损失值&#xff0c;SGD是只用一个训练样本训练就得出损失值&#xff0c;GD导致训练慢&#xff0c;SGD导致收敛到最小值不平滑&#xff0c;故引入Mini-batch GD&#xff0c;选取部分样本进行训练得出损失值&#xff0c; 普通梯度下降算…

什么是单应矩阵和本质矩阵

知乎上面的大牛还是很多&#xff0c;直接搜Homography或者单应矩阵就能得到很多大神的回答&#xff0c;可能回答中的一句话或者一个链接就够自己学习很久。 其实在之前研究双目视觉的时候就接触了对极几何&#xff0c;通过视觉就可以得到物体的远近信息&#xff0c;这也是特斯…

tensorflow实现反卷积

先看ogrid用法 from numpy import ogrid,repeat,newaxis from skimage import io import numpy as np size3 x,yogrid[:size,:size]#第一部分产生多行一列 第二部分产生一行多列 print(x) print(y) 打印结果&#xff1a; newaxis用法&#xff1a; """ newaxis…

寿命能推算吗?加州大学科学家提出“预测方法”

来源&#xff1a;中国科学报从古至今&#xff0c;从国内到国外&#xff0c;从炼丹术到现代科学&#xff0c;长生不老似乎一直是人类乐此不疲的追求。但若要延缓衰老&#xff0c;首先要弄清是什么造成了衰老。近日&#xff0c;加州大学洛杉矶分校&#xff08;UCLA&#xff09;生…

Deep Image Homography Estimation

在知乎问题&#xff1a;深度学习应用在哪些领域让你觉得「我去&#xff0c;这也能行&#xff01;」&#xff1f;中遇到一篇提交在arXiv 2016&#xff08;arXiv不是正式发表&#xff0c;只是可以证明原创性&#xff0c;提供时间戳的网站&#xff09;的文章《Deep Image Homograp…

tensorflow:双线性插值反卷积

首先生成333的黑色图片 """ 生成333黑色图像 """ def produce_image():size 3x, y ogrid[:size, :size] # 第一部分产生多行一列 第二部分产生一行多列z x yz z[:, :, newaxis] # 增加第三维# print(z)img repeat(z, 3, 2)/12 # 在第三…

腾讯医疗AI新突破:提出器官神经网络,全自动辅助头颈放疗规划 | 论文

来源&#xff1a;量子位腾讯医疗AI实验室又有新研究。这次跟美国加州大学合作&#xff0c;在国际权威期刊《Medical Physics》发表最新研究成果&#xff1a;《器官神经网络&#xff1a;深度学习用于快速和全自动整体头颈危及器官靶区勾画》AnatomyNet: Deep Learning for Fast …

视频制作中的绿幕与拜耳阵列

先来欣赏一些大片背后的特效。 现在国内的电影市场越来越大&#xff0c;做短视频的自媒体也越来越多&#xff0c;在他们的后期视频制作的片花中可以看到很多都在使用绿幕或者蓝幕&#xff0c;这是为什么呢&#xff1f; 首先肯定是为了抠图的方便。将主体部分抠出再将通过特效…

吴恩达作业8:三层神经网络实现手势数字的识别(基于tensorflow)

数据集的载入&#xff0c;随机产生mini-batch放在tf_utils.py,代码如下 import h5py import numpy as np import tensorflow as tf import mathdef load_dataset():train_dataset h5py.File(datasets/train_signs.h5, "r")train_set_x_orig np.array(train_datase…

基于visual Studio2013解决面试题之0307最后谁剩下

&#xfeff;&#xfeff;&#xfeff;题目解决代码及点评/* n 个数字&#xff08;0,1,…,n-1&#xff09;形成一个圆圈&#xff0c;从数字 0 开始&#xff0c;每次从这个圆圈中删除第 m 个数字&#xff08;第一个为当前数字本身&#xff0c;第二个为当前数字的下一个数字&…

谷歌、苹果等大佬亲自戳穿自动驾驶完美童话,技术、场景、安全牢笼实难突围!...

来源&#xff1a; 物联网智库摘要&#xff1a;自动驾驶普及不仅局限于自身技术和应用场景&#xff0c;而且与产业链各环节密切相关。一项科技从诞生到被人们所接受是一个循序渐进的过程&#xff0c;自动驾驶真正普及还任重而道远。2018年11月1日百度世界大会上&#xff0c;百度…

使用文件监控对象FileSystemWatcher实现数据同步

使用文件监控对象FileSystemWatcher实现数据同步 原文 使用文件监控对象FileSystemWatcher实现数据同步 最近在项目中有这么个需求&#xff0c;就是得去实时获取某个在无规律改变的文本文件中的内 容。首先想到的是用程序定期去访问这个文件&#xff0c;因为对实时性要求很高&a…

吴恩达作业11:残差网络实现手势数字的识别(基于 keras)+tensorbord显示loss值和acc值

一&#xff0c;残差网络实现手写数字识别 数据集地址&#xff1a;https://download.csdn.net/download/fanzonghao/10551018 首先来resnets_utils.py,里面有手势数字的数据集载入函数和随机产生mini-batch的函数&#xff0c;代码如下&#xff1a; import os import numpy as…

通过SVD求解单应矩阵

我们现在知道原则上4对匹配点对就可以唯一确定单应矩阵&#xff0c;但是在实际应用中我们无法保证两个视图严格满足使用条件&#xff08;只有旋转变换&#xff1b;远景&#xff1b;平面场景&#xff09;&#xff0c;所以要使用拟合的方法求一个最优解。现在就来以SIFT算法源码为…

注意力机制(Attention)最新综述论文及相关源码

来源&#xff1a;专知注意力机制(Attention)起源于模仿人类的思维方式&#xff0c;后被广泛应用于机器翻译、情感分类、自动摘要、自动问答等、依存分析等机器学习应用中。专知编辑整理了Arxiv上一篇关于注意力机制在NLP中应用的综述《An Introductory Survey on Attention Mec…

橙子楼的猥琐大叔

故事要从暑假开始说起&#xff0c;那时我还在准备考研&#xff0c;每天往返于教室、宿舍和食堂&#xff0c;单调但不会无趣&#xff0c;常常会有故事发生&#xff0c;生活也很充实。 考研的一般都会在固定的教室有个自己的位子。 坐我正前面的是一个妹子&#xff0c;准确的说是…