1.OpenCV的模块
其中core、highgui、imgproc是最基础的模块,该课程主要是围绕这几个模块展开的,分别介绍如下:
- core模块实现了最核心的数据结构及其基本运算,如绘图函数、数组操作相关函数等。
- highgui模块实现了视频与图像的读取、显示、存储等接口。
- imgproc模块实现了图像处理的基础方法,包括图像滤波、图像的几何变换、平滑、阈值分割、形态学处理、边缘检测、目标检测、运动分析和对象跟踪等。
对于图像处理其他更高层次的方向及应用,OpenCV也有相关的模块实现
- features2d模块用于提取图像特征以及特征匹配,nonfree模块实现了一些专利算法,如sift特征。
- objdetect模块实现了一些目标检测的功能,经典的基于Haar、LBP特征的人脸检测,基于HOG的行人、汽车等目标检测,分类器使用Cascade Classification(级联分类)和Latent SVM等。
- stitching模块实现了图像拼接功能。
- FLANN模块(Fast Library for Approximate Nearest Neighbors),包含快速近似最近邻搜索FLANN 和聚类Clustering算法。
- ml模块机器学习模块(SVM,决策树,Boosting等等)。
- photo模块包含图像修复和图像去噪两部分。
- video模块针对视频处理,如背景分离,前景检测、对象跟踪等。
- calib3d模块即Calibration(校准)3D,这个模块主要是相机校准和三维重建相关的内容。包含了基本的多视角几何算法,单个立体摄像头标定,物体姿态估计,立体相似性算法,3D信息的重建等等。
- G-API模块包含超高效的图像处理pipeline引擎
2.图像的基础操作
图像的IO操作
2.1读取图像
- API
cv.imread()
参数:
要读取的图像
读取方式的标志
cv.IMREAD*COLOR:以彩色模式加载图像,任何图像的透明度都将被忽略。这是默认参数。
cv.IMREAD*GRAYSCALE:以灰度模式加载图像
cv.IMREAD_UNCHANGED:包括alpha通道的加载图像模式。
可以使用1、0或者-1来替代上面三个标志
参考代码
import numpy as np import cv2 as cv # 以灰度图的形式读取图像 img = cv.imread('messi5.jpg',0)
2.2显示图像
api
cv.imwrite()
参数:
- 文件名,要保存在哪里
- 要保存的图像
参考代码
cv.imwrite('messigray.png',img)
2.3总结
3.绘制几何图形
3.1 绘制直线
cv.line(img,start,end,color,thickness)
参数:
- img:要绘制直线的图像
- Start,end: 直线的起点和终点
- color: 线条的颜色
- Thickness: 线条宽度
3.2 绘制圆形
cv.circle(img,centerpoint, r, color, thickness)
参数:
- img:要绘制圆形的图像
- Centerpoint, r: 圆心和半径
- color: 线条的颜色
- Thickness: 线条宽度,为-1时生成闭合图案并填充颜色
3.3 绘制矩形
cv.rectangle(img,leftupper,rightdown,color,thickness)
参数:
- img:要绘制矩形的图像
- Leftupper, rightdown: 矩形的左上角和右下角坐标
- color: 线条的颜色
- Thickness: 线条宽度
3.4 向图像中添加文字
cv.putText(img,text,station, font, fontsize,color,thickness,cv.LINE_AA)
参数:
- img: 图像
- text:要写入的文本数据
- station:文本的放置位置
- font:字体
- Fontsize :字体大小
3.5效果展示
我们生成一个全黑的图像,然后在里面绘制图像并添加文字
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 创建一个空白的图像 img = np.zeros((512,512,3), np.uint8) # 2 绘制图形 cv.line(img,(0,0),(511,511),(255,0,0),5) cv.rectangle(img,(384,0),(510,128),(0,255,0),3) cv.circle(img,(447,63), 63, (0,0,255), -1) font = cv.FONT_HERSHEY_SIMPLEX cv.putText(img,'OpenCV',(10,500), font, 4,(255,255,255),2,cv.LINE_AA) # 3 图像展示 plt.imshow(img[:,:,::-1]) plt.title('匹配结果'), plt.xticks([]), plt.yticks([]) plt.show()
获取并修改图像中的像素点
我们可以通过行和列的坐标值获取该像素点的像素值。对于BGR图像,它返回一个蓝,绿,红值的数组。对于灰度图像,仅返回相应的强度值。使用相同的方法对像素值进行修改。
import numpy as np import cv2 as cv img = cv.imread('messi5.jpg') # 获取某个像素点的值 px = img[100,100] # 仅获取蓝色通道的强度值 blue = img[100,100,0] # 修改某个位置的像素值 img[100,100] = [255,255,255]
获取图像的属性
图像属性包括行数,列数和通道数,图像数据类型,像素数等。图像通道的拆分与合并
有时需要在B,G,R通道图像上单独工作。在这种情况下,需要将BGR图像分割为单个通道。或者在其他情况下,可能需要将这些单独的通道合并到BGR图像。你可以通过以下方式完成。
# 通道拆分 b,g,r = cv.split(img) # 通道合并 img = cv.merge((b,g,r))
色彩空间的改变
OpenCV中有150多种颜色空间转换方法。最广泛使用的转换方法有两种,BGR↔Gray和BGR↔HSV。
API:
cv.cvtColor(input_image,flag)
参数:
- input_image: 进行颜色空间转换的图像
- flag: 转换类型
- cv.COLOR_BGR2GRAY : BGR↔Gray
- cv.COLOR_BGR2HSV: BGR→HSV
4.算数操作
4.1图像的加法
你可以使用OpenCV的cv.add()函数把两幅图像相加,或者可以简单地通过numpy操作添加两个图像,如res = img1 + img2。两个图像应该具有相同的大小和类型,或者第二个图像可以是标量值。
注意:OpenCV加法和Numpy加法之间存在差异。OpenCV的加法是饱和操作,而Numpy添加是模运算。
>>> x = np.uint8([250]) >>> y = np.uint8([10]) >>> print( cv.add(x,y) ) # 250+10 = 260 => 255 [[255]] >>> print( x+y ) # 250+10 = 260 % 256 = 4 [4]
这种差别在你对两幅图像进行加法时会更加明显。OpenCV 的结果会更好一点。所以我们尽量使用 OpenCV 中的函数。
我们将下面两幅图像:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt# 1 读取图像 img1 = cv.imread("view.jpg") img2 = cv.imread("rain.jpg")# 2 加法操作 img3 = cv.add(img1,img2) # cv中的加法 img4 = img1+img2 # 直接相加# 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img3[:,:,::-1]) axes[0].set_title("cv中的加法") axes[1].imshow(img4[:,:,::-1]) axes[1].set_title("直接相加") plt.show()
4.2图像的混合
这其实也是加法,但是不同的是两幅图像的权重不同,这就会给人一种混合或者透明的感觉。图像混合的计算公式如下:
g(x) = (1−α)f0(x) + αf1(x)
通过修改 α 的值(0 → 1),可以实现非常炫酷的混合。
现在我们把两幅图混合在一起。第一幅图的权重是0.7,第二幅图的权重是0.3。函数cv2.addWeighted()可以按下面的公式对图片进行混合操作。
dst = α⋅img1 + β⋅img2 + γ
import numpy as np import cv2 as cv import matplotlib.pyplot as plt# 1 读取图像 img1 = cv.imread("view.jpg") img2 = cv.imread("rain.jpg")# 2 图像混合 img3 = cv.addWeighted(img1,0.7,img2,0.3,0)# 3 图像显示 plt.figure(figsize=(8,8)) plt.imshow(img3[:,:,::-1]) plt.show()
5.几何变换
5.1图像缩放
缩放是对图像的大小进行调整,即使图像放大或缩小。
API
cv2.resize(src,dsize,fx=0,fy=0,interpolation=cv2.INTER_LINEAR)
参数:
src : 输入图像
dsize: 绝对尺寸,直接指定调整后图像的大小
fx,fy: 相对尺寸,将dsize设置为None,然后将fx和fy设置为比例因子即可
interpolation:插值方法,
import cv2 as cv # 1. 读取图片 img1 = cv.imread("./image/dog.jpeg") # 2.图像缩放 # 2.1 绝对尺寸 rows,cols = img1.shape[:2] res = cv.resize(img1,(2*cols,2*rows),interpolation=cv.INTER_CUBIC)# 2.2 相对尺寸 res1 = cv.resize(img1,None,fx=0.5,fy=0.5)# 3 图像显示 # 3.1 使用opencv显示图像(不推荐) cv.imshow("orignal",img1) cv.imshow("enlarge",res) cv.imshow("shrink)",res1) cv.waitKey(0)# 3.2 使用matplotlib显示图像 fig,axes=plt.subplots(nrows=1,ncols=3,figsize=(10,8),dpi=100) axes[0].imshow(res[:,:,::-1]) axes[0].set_title("绝对尺度(放大)") axes[1].imshow(img1[:,:,::-1]) axes[1].set_title("原图") axes[2].imshow(res1[:,:,::-1]) axes[2].set_title("相对尺度(缩小)") plt.show()
5.2图像平移
图像平移将图像按照指定方向和距离,移动到相应的位置。
- API
cv.warpAffine(img,M,dsize)
参数:
img: 输入图像
M: 2∗∗3移动矩阵
对于(x,y)处的像素点,要把它移动到x+tx,y+ty)处时,M矩阵应如下设置:
注意:将�M设置为np.float32类型的Numpy数组。
需求是将图像的像素点移动(50,100)的距离:
dsize: 输出图像的大小
注意:输出图像的大小,它应该是(宽度,高度)的形式。请记住,width=列数,height=行数。
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1. 读取图像 img1 = cv.imread("./image/image2.jpg")# 2. 图像平移 rows,cols = img1.shape[:2] M = M = np.float32([[1,0,100],[0,1,50]])# 平移矩阵 dst = cv.warpAffine(img1,M,(cols,rows))# 3. 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img1[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("平移后结果") plt.show()
5.3图像旋转
图像旋转是指图像按照某个位置转动一定角度的过程,旋转中图像仍保持这原始尺寸。图像旋转后图像的水平对称轴、垂直对称轴及中心坐标原点都可能会发生变换,因此需要对图像旋转中的坐标进行相应转换。
那图像是怎么进行旋转的呢?如下图所示:在OpenCV中图像旋转首先根据旋转角度和旋转中心获取旋转矩阵,然后根据旋转矩阵进行变换,即可实现任意角度和任意中心的旋转效果。
API
cv2.getRotationMatrix2D(center, angle, scale)
参数:
- center:旋转中心
- angle:旋转角度
- scale:缩放比例
返回:
M:旋转矩阵
调用cv.warpAffine完成图像的旋转
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image2.jpg")# 2 图像旋转 rows,cols = img.shape[:2] # 2.1 生成旋转矩阵 M = cv.getRotationMatrix2D((cols/2,rows/2),90,1) # 2.2 进行旋转变换 dst = cv.warpAffine(img,M,(cols,rows))# 3 图像展示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img1[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("旋转后结果") plt.show()
5.4仿射变换
图像的仿射变换涉及到图像的形状位置角度的变化,是深度学习预处理中常到的功能,仿射变换主要是对图像的缩放,旋转,翻转和平移等操作的组合。
那什么是图像的仿射变换,如下图所示,图1中的点1, 2 和 3 与图二中三个点一一映射, 仍然形成三角形, 但形状已经大大改变,通过这样两组三点(感兴趣点)求出仿射变换, 接下来我们就能把仿射变换应用到图像中所有的点中,就完成了图像的仿射变换。
需要注意的是,对于图像而言,宽度方向是x,高度方向是y,坐标的顺序和图像像素对应下标一致。所以原点的位置不是左下角而是右上角,y的方向也不是向上,而是向下。
在仿射变换中,原图中所有的平行线在结果图像中同样平行。为了创建这个矩阵我们需要从原图像中找到三个点以及他们在输出图像中的位置。然后cv2.getAffineTransform 会创建一个 2x3 的矩阵,最后这个矩阵会被传给函数 cv2.warpAffine。
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 图像读取 img = cv.imread("./image/image2.jpg")# 2 仿射变换 rows,cols = img.shape[:2] # 2.1 创建变换矩阵 pts1 = np.float32([[50,50],[200,50],[50,200]]) pts2 = np.float32([[100,100],[200,50],[100,250]]) M = cv.getAffineTransform(pts1,pts2) # 2.2 完成仿射变换 dst = cv.warpAffine(img,M,(cols,rows))# 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("仿射后结果") plt.show()
5.5透射变换
透射变换是视角变化的结果,是指利用透视中心、像点、目标点三点共线的条件,按透视旋转定律使承影面(透视面)绕迹线(透视轴)旋转某一角度,破坏原有的投影光线束,仍能保持承影面上投影几何图形不变的变换。
其中:T1表示对图像进行线性变换,T2对图像进行平移,T3表示对图像进行投射变换,�22a22一般设为1.
在opencv中,我们要找到四个点,其中任意三个不共线,然后获取变换矩阵T,再进行透射变换。通过函数cv.getPerspectiveTransform找到变换矩阵,将cv.warpPerspective应用于此3x3变换矩阵。
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image2.jpg") # 2 透射变换 rows,cols = img.shape[:2] # 2.1 创建变换矩阵 pts1 = np.float32([[56,65],[368,52],[28,387],[389,390]]) pts2 = np.float32([[100,145],[300,100],[80,290],[310,300]])T = cv.getPerspectiveTransform(pts1,pts2) # 2.2 进行变换 dst = cv.warpPerspective(img,T,(cols,rows))# 3 图像显示 fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100) axes[0].imshow(img[:,:,::-1]) axes[0].set_title("原图") axes[1].imshow(dst[:,:,::-1]) axes[1].set_title("透射后结果") plt.show()
5.6 图像金字塔
图像金字塔是图像多尺度表达的一种,最主要用于图像的分割,是一种以多分辨率来解释图像的有效但概念简单的结构。
图像金字塔用于机器视觉和图像压缩,一幅图像的金字塔是一系列以金字塔形状排列的分辨率逐步降低,且来源于同一张原始图的图像集合。其通过梯次向下采样获得,直到达到某个终止条件才停止采样。
金字塔的底部是待处理图像的高分辨率表示,而顶部是低分辨率的近似,层级越高,图像越小,分辨率越低。
API
cv.pyrUp(img) #对图像进行上采样 cv.pyrDown(img) #对图像进行下采样
示例
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 图像读取 img = cv.imread("./image/image2.jpg") # 2 进行图像采样 up_img = cv.pyrUp(img) # 上采样操作 img_1 = cv.pyrDown(img) # 下采样操作 # 3 图像显示 cv.imshow('enlarge', up_img) cv.imshow('original', img) cv.imshow('shrink', img_1) cv.waitKey(0) cv.destroyAllWindows()
6.形态学操作
6.1连通性
在图像中,最小的单位是像素,每个像素周围有8个邻接像素,常见的邻接关系有3种:4邻接、8邻接和D邻接。分别如下图所示:
6.2形态学操作
形态学转换是基于图像形状的一些简单操作。它通常在二进制图像上执行。腐.蚀和膨胀是两个基本的形态学运算符。然后它的变体形式如开运算,闭运算,礼帽黑帽等。
6.2.1腐蚀和膨胀
腐蚀和膨胀是最基本的形态学操作,腐蚀和膨胀都是针对白色部分(高亮部分)而言的。
膨胀就是使图像中高亮部分扩张,效果图拥有比原图更大的高亮区域;腐蚀是原图中的高亮区域被蚕食,效果图拥有比原图更小的高亮区域。膨胀是求局部最大值的操作,腐蚀是求局部最小值的操作。
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为0,则该像素为0,否则为1。如下图所示,结构A被结构B腐蚀后:作用是将与物体接触的所有背景点合并到物体中,使目标增大,可添补目标中的孔洞。
API:
-
腐蚀
具体操作是:用一个结构元素扫描图像中的每一个像素,用结构元素中的每一个像素与其覆盖的像素做“与”操作,如果都为1,则该像素为1,否则为0。如下图所示,结构A被结构B腐蚀后:API:
cv.erode(img,kernel,iterations)
参数:
- img: 要处理的图像
- kernel: 核结构
- iterations: 腐蚀的次数,默认是1
- 膨胀
- 我们使用一个5*5的卷积核实现腐蚀和膨胀的运算:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img = cv.imread("./image/image3.png") # 2 创建核结构 kernel = np.ones((5, 5), np.uint8)# 3 图像腐蚀和膨胀 erosion = cv.erode(img, kernel) # 腐蚀 dilate = cv.dilate(img,kernel) # 膨胀# 4 图像展示 fig,axes=plt.subplots(nrows=1,ncols=3,figsize=(10,8),dpi=100) axes[0].imshow(img) axes[0].set_title("原图") axes[1].imshow(erosion) axes[1].set_title("腐蚀后结果") axes[2].imshow(dilate) axes[2].set_title("膨胀后结果") plt.show()
6.3开闭运算
开运算和闭运算是将腐蚀和膨胀按照一定的次序进行处理。 但这两者并不是可逆的,即先开后闭并不能得到原来的图像。
-
开运算
开运算是先腐蚀后膨胀,其作用是:分离物体,消除小区域。特点:消除噪点,去除小的干扰块,而不影响原来的图像。
2.闭运算
闭运算与开运算相反,是先膨胀后腐蚀,作用是消除/“闭合”物体里面的孔洞,特点:可以填充闭合区域。API
cv.morphologyEx(img, op, kernel)
-
参数:
- img: 要处理的图像
- op: 处理方式:若进行开运算,则设为cv.MORPH_OPEN,若进行闭运算,则设为cv.MORPH_CLOSE
- Kernel: 核结构
-
示例
使用10*10的核结构对卷积进行开闭运算的实现。
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img1 = cv.imread("./image/image5.png") img2 = cv.imread("./image/image6.png") # 2 创建核结构 kernel = np.ones((10, 10), np.uint8) # 3 图像的开闭运算 cvOpen = cv.morphologyEx(img1,cv.MORPH_OPEN,kernel) # 开运算 cvClose = cv.morphologyEx(img2,cv.MORPH_CLOSE,kernel)# 闭运算 # 4 图像展示 fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8)) axes[0,0].imshow(img1) axes[0,0].set_title("原图") axes[0,1].imshow(cvOpen) axes[0,1].set_title("开运算结果") axes[1,0].imshow(img2) axes[1,0].set_title("原图") axes[1,1].imshow(cvClose) axes[1,1].set_title("闭运算结果") plt.show()
6.4礼帽和黑帽
礼帽运算
原图像与“开运算“的结果图之差,如下式计算:
-
因为开运算带来的结果是放大了裂缝或者局部低亮度的区域,因此,从原图中减去开运算后的图,得到的效果图突出了比原图轮廓周围的区域更明亮的区域,且这一操作和选择的核的大小相关。
礼帽运算用来分离比邻近点亮一些的斑块。当一幅图像具有大幅的背景的时候,而微小物品比较有规律的情况下,可以使用顶帽运算进行背景提取。
-
黑帽运算
为”闭运算“的结果图与原图像之差。数学表达式为:
黑帽运算后的效果图突出了比原图轮廓周围的区域更暗的区域,且这一操作和选择的核的大小相关。
黑帽运算用来分离比邻近点暗一些的斑块。
API
cv.morphologyEx(img, op, kernel)
参数:
-
img: 要处理的图像
-
op: 处理方式:
import numpy as np import cv2 as cv import matplotlib.pyplot as plt # 1 读取图像 img1 = cv.imread("./image/image5.png") img2 = cv.imread("./image/image6.png") # 2 创建核结构 kernel = np.ones((10, 10), np.uint8) # 3 图像的礼帽和黑帽运算 cvOpen = cv.morphologyEx(img1,cv.MORPH_TOPHAT,kernel) # 礼帽运算 cvClose = cv.morphologyEx(img2,cv.MORPH_BLACKHAT,kernel)# 黑帽运算 # 4 图像显示 fig,axes=plt.subplots(nrows=2,ncols=2,figsize=(10,8)) axes[0,0].imshow(img1) axes[0,0].set_title("原图") axes[0,1].imshow(cvOpen) axes[0,1].set_title("礼帽运算结果") axes[1,0].imshow(img2) axes[1,0].set_title("原图") axes[1,1].imshow(cvClose) axes[1,1].set_title("黑帽运算结果") plt.show()