深度学习之双线性插值(Bilinear interpolation)

1. 什么是插值

Interpolation is a method of constructing new data points within the range of a discrete set of known data points. Image interpolation refers to the“guess”of intensity values at missing locations.

图片放大是图像处理中的一个特别基础的操作。在几乎每一个图片相关的项目中,从传统图像处理到深度学习,都有应用。生活里,和朋友通过微信传张图片,从图片发出,到朋友收到图片,查看图片,都会数次的的改变图像的尺寸,从而用到这个算法。但是很少关注这个算法的实现细节:插值算法是如何工作的。
简单来说,插值指利用已知的点来“猜”未知的点,图像领域插值常用在修改图像尺寸的过程,由旧的图像矩阵中的点计算新图像矩阵中的点并插入,不同的计算过程就是不同的插值算法。

2.常用的插值算法

插值算法有很多种,常见的插值运算包括:

  • 最近邻法(Nearest Interpolation):计算速度最快,但是效果最差。
  • 双线性插值(Bilinear Interpolation):双线性插值是用原图像中4(2*2)个点计算新图像中1个点,效果略逊于双三次插值,速度比双三次插值快,属于一种平衡美,在很多框架中属于默认算法。由于折中的插值效果和运算速度,运用比较广泛。
  • 双三次插值(Bicubic interpolation):双三次插值是用原图像中16(4*4)个点计算新图像中1个点,效果比较好,但是计算代价过大。

3.最近邻法(Nearest Interpolation)

越是简单的模型越适合用来举例子,我们就举个简单的图像:3∗33*333 的256级灰度图。假如图像的象素矩阵如下图所示(这个原始图把它叫做源图,Source):

       234	38 	22  67 	44 	12  89 	65	63  

这个矩阵中,元素坐标(x,y)是这样确定的,x从左到右,从0开始,y从上到下,也是从零开始,这是图象处理中最常用的坐标系。

如果想把这副图放大为 4∗44*444 大小的图像,那么该怎么做呢?那么第一步肯定想到的是先把 4∗44*444 的矩阵先画出来再说,好了矩阵画出来了,如下所示,当然,矩阵的每个像素都是未知数,等待着我们去填充(这个将要被填充的图的叫做目标图,Destination):

  ? ? ? ?  ? ? ? ?  ? ? ? ?  ? ? ? ?  

然后要往这个空的矩阵里面填值了,要填的值从哪里来来呢?是从源图中来,好,先填写目标图最左上角的象素,坐标为(0,0),那么该坐标对应源图中的坐标可以由如下公式得出

srcX=dstX∗(srcWidth/dstWidth),srcY=dstY∗(srcHeight/dstHeight)srcX=dstX* (srcWidth/dstWidth) ,srcY = dstY * (srcHeight/dstHeight)srcX=dstX(srcWidth/dstWidth),srcY=dstY(srcHeight/dstHeight)

好了,套用公式,就可以找到对应的原图的坐标了 (0∗(3/4),0∗(3/4))=>(0∗0.75,0∗0.75)=>(0,0)(0*(3/4),0*(3/4))=>(0*0.75,0*0.75)=>(0,0)(0(3/4),0(3/4))=>(00.75,00.75)=>(0,0),找到了源图的对应坐标,就可以把源图中坐标为(0,0)处的234象素值填进去目标图的(0,0)这个位置了。

接下来,如法炮制,寻找目标图中坐标为(1,0)的象素对应源图中的坐标,套用公式:
(1∗0.75,0∗0.75)=>(0.75,0)(1*0.75,0*0.75)=>(0.75,0)(10.75,00.75)=>(0.75,0) 结果发现,得到的坐标里面竟然有小数,这可怎么办?计算机里的图像可是数字图像,象素就是最小单位了,象素的坐标都是整数,从来没有小数坐标。这时候采用的一种策略就是采用四舍五入的方法(也可以采用直接舍掉小数位的方法),把非整数坐标转换成整数,好,那么按照四舍五入的方法就得到坐标(1,0),完整的运算过程就是这样的:(1∗0.75,0∗0.75)=>(0.75,0)=>(1,0)(1*0.75,0*0.75)=>(0.75,0)=>(1,0)(10.75,00.75)=>(0.75,0)=>(1,0) 那么就可以再填一个象素到目标矩阵中了,同样是把源图中坐标为(1,0)处的像素值38填入目标图中的坐标。

依次填完每个象素,一幅放大后的图像就诞生了,像素矩阵如下所示:

  234 38 22 22  67 44 12 12  89 65 63 63  89 65 63 63  

这种放大图像的方法叫做最临近插值算法,这是一种最基本、最简单的图像缩放算法,效果也是最不好的,放大后的图像有很严重的马赛克,缩小后的图像有很严重的失真;效果不好的根源就是其简单的最临近插值方法引入了严重的图像失真,比如,当由目标图的坐标反推得到的源图的的坐标是一个浮点数的时候,采用了四舍五入的方法,直接采用了和这个浮点数最接近的象素的值,这种方法是很不科学的,当推得坐标值为 0.75的时候,不应该就简单的取为1,既然是0.75,比1要小0.25 ,比0要大0.75 ,那么目标象素值其实应该根据这个源图中虚拟的点四周的四个真实的点来按照一定的规律计算出来的,这样才能达到更好的缩放效果。

4 双线性插值

双线型内插值算法就是一种比较好的图像缩放算法,它充分的利用了源图中虚拟点四周的四个真实存在的像素值来共同决定目标图中的一个像素值,因此缩放效果比简单的最邻近插值要好很多。 双线性内插值算法描述如下:

对于一个目的像素,设置坐标通过反向变换得到的浮点坐标为(i+u,j+v) (其中i、j均为浮点坐标的整数部分,u、v为浮点坐标的小数部分,是取值[0,1)区间的浮点数),则这个像素得值 f(i+u,j+v) 可由原图像中坐标为 (i,j)、(i+1,j)、(i,j+1)、(i+1,j+1)所对应的周围四个像素的值决定,即:f(i+u,j+v) = (1-u)(1-v)f(i,j) + (1-u)vf(i,j+1) + u(1-v)f(i+1,j) + uvf(i+1,j+1)
其中f(i,j)表示源图像(i,j)处的的像素值,以此类推。

比如,象刚才的例子,现在假如目标图的象素坐标为(1,1),那么反推得到的对应于源图的坐标是(0.75,0.75), 这其实只是一个概念上的虚拟象素,实际在源图中并不存在这样一个象素,那么目标图的象素(1,1)的取值不能够由这个虚拟象素来决定,而只能由源图的这四个象素共同决定:(0,0)(0,1)(1,0)(1,1),而由于(0.75,0.75)离(1,1)要更近一些,那么(1,1)所起的决定作用更大一些,这从公式1中的系数uv=0.75×0.75就可以体现出来,而(0.75,0.75)离(0,0)最远,所以(0,0)所起的决定作用就要小一些,公式中系数为(1-u)(1-v)=0.25×0.25也体现出了这一特点。

计算方法
在这里插入图片描述

首先,在X方向上进行两次线性插值计算,然后在Y方向上进行一次插值计算。
  在这里插入图片描述
在这里插入图片描述

在图像处理的时候,我们先根据
  
srcX=dstX∗(srcWidth/dstWidth),srcX=dstX* (srcWidth/dstWidth) ,srcX=dstX(srcWidth/dstWidth),
srcY=dstY∗(srcHeight/dstHeight)srcY = dstY * (srcHeight/dstHeight) srcY=dstY(srcHeight/dstHeight)

来计算目标像素在源图像中的位置,这里计算的srcX和srcY一般都是浮点数,比如f(1.2, 3.4)这个像素点是虚拟存在的,先找到与它临近的四个实际存在的像素点 (1,3) (2,3) (1,4) (2,4) 写成f(i+u,j+v)的形式,则u=0.2,v=0.4, i=1, j=3 在沿着X方向差插值时,f(R1)=u(f(Q21)-f(Q11))+f(Q11) 沿着Y方向同理计算。 或者,直接整理一步计算,f(i+u,j+v) = (1-u)(1-v)f(i,j) + (1-u)vf(i,j+1) + u(1-v)f(i+1,j) + uvf(i+1,j+1) 。

5. 加速以及优化策略

单纯按照上文实现的插值算法只能勉强完成插值的功能,速度和效果都不会理想,在具体代码实现的时候有些小技巧。参考OpenCV源码以及网上博客整理如下两点:

  • 源图像和目标图像几何中心的对齐。
  • 将浮点运算转换成整数运算

5.1 源图像和目标图像几何中心的对齐

方法:在计算源图像的虚拟浮点坐标的时候,一般情况:

srcX=dstX∗(srcWidth/dstWidth),srcY=dstY∗(srcHeight/dstHeight)srcX=dstX* (srcWidth/dstWidth) ,srcY = dstY * (srcHeight/dstHeight) srcX=dstX(srcWidth/dstWidth),srcY=dstY(srcHeight/dstHeight)

中心对齐(OpenCV也是如此):

SrcX=(dstX+0.5)∗(srcWidth/dstWidth)−0.5,SrcY=(dstY+0.5)∗(srcHeight/dstHeight)−0.5SrcX=(dstX+0.5)* (srcWidth/dstWidth) -0.5,SrcY=(dstY+0.5) * (srcHeight/dstHeight)-0.5SrcX=(dstX+0.5)(srcWidth/dstWidth)0.5,SrcY=(dstY+0.5)(srcHeight/dstHeight)0.5

问题

下面这张图是以右上角为坐标系原点,我们可以发现最右面的点都会有概率直接复制到目标图像中(至少原点肯定是这样),而且就算不不和原图像中的点重合,也相当于进行了1次单线性插值。这样如果我们采用不用的坐标系产生的结果是不一样的,而且无论我们采用什么坐标系,最左侧和最右侧(最上侧和最下侧)的点是不“公平的”,这是第一个问题。

在这里插入图片描述

整体的图像相对位置会发生变化看下面这张图,左侧是原图像(33),右侧是目标图像(55),原图像的几何中心点是(1, 1),目标图像的几何中心点是(2, 2),根据对应关系,目标图像的几何中心点对应的原图像的位置是(1.2, 1.2),如图所示,那么问题来了,目标图像的原点(0, 0)点和原始图像的原点是重合的,但是目标图像的几何中心点相对于原始图像的几何中心点偏右下,那么整体图像的位置会发生偏移,为什么这样说,其实图像是由1个个的像素点组成,单纯说1个像素点是没有太大的意义的,1个像素点跟相邻像素点的值的渐变或者突变形成图像颜色的渐变或者边界,所以参与计算的点相对都往右下偏移会产生相对的位置信息损失。这是第二个问题。

在这里插入图片描述
解决
  
将公式变形,srcX=dstX∗(srcWidth/dstWidth)+0.5∗(srcWidth/dstWidth−1)srcX=dstX* (srcWidth/dstWidth)+0.5*(srcWidth/dstWidth-1)srcX=dstX(srcWidth/dstWidth)+0.5(srcWidth/dstWidth1) 相当于我们在原始的浮点坐标上加上了 0.5∗(srcWidth/dstWidth−1)0.5*(srcWidth/dstWidth-1)0.5(srcWidth/dstWidth1) 这样一个控制因子,这项的符号可正可负,与 srcWidth/dstWidthsrcWidth/dstWidthsrcWidth/dstWidth 的比值也就是当前插值是扩大还是缩小图像有关,有什么作用呢?看一个例子:假设源图像是 3∗33*333,中心点坐标(1,1)目标图像是 9∗99*999,中心点坐标(4,4),我们在进行插值映射的时候,尽可能希望均匀的用到源图像的像素信息,最直观的就是(4,4)映射到(1,1)现在直接计算 srcX=4∗3/9=1.3333!=1srcX=4*3/9=1.3333!=1srcX=43/9=1.3333=1,也就是我们在插值的时候所利用的像素集中在图像的右下方,而不是均匀分布整个图像。现在考虑中心点对齐,srcX=(4+0.5)*3/9-0.5=1,刚好满足我们的要求。

5.2 将浮点运算转换成整数运算

参考图像处理界双线性插值算法的优化

直接进行计算的话,由于计算的srcX和srcY 都是浮点数,后续会进行大量的乘法,而图像数据量又大,速度不会理想,解决思路是:浮点运算→→整数运算→→”<<左右移按位运算”

放大的主要对象是u,v这些浮点数,OpenCV选择的放大倍数是2048“如何取这个合适的放大倍数呢,要从三个方面考虑,第一:精度问题,如果这个数取得过小,那么经过计算后可能会导致结果出现较大的误差。第二,这个数不能太大,太大会导致计算过程超过长整形所能表达的范围。第三:速度考虑。假如放大倍数取为12,那么算式在最后的结果中应该需要除以12*12=144,但是如果取为16,则最后的除数为16*16=256,这个数字好,我们可以用右移来实现,而右移要比普通的整除快多了。”我们利用左移11位操作就可以达到放大目的。

6. 代码

    uchar* dataDst = matDst1.data;int stepDst = matDst1.step;uchar* dataSrc = matSrc.data;int stepSrc = matSrc.step;int iWidthSrc = matSrc.cols;int iHiehgtSrc = matSrc.rows;for (int j = 0; j < matDst1.rows; ++j){float fy = (float)((j + 0.5) * scale_y - 0.5);int sy = cvFloor(fy);fy -= sy;sy = std::min(sy, iHiehgtSrc - 2);sy = std::max(0, sy);short cbufy[2];cbufy[0] = cv::saturate_cast<short>((1.f - fy) * 2048);cbufy[1] = 2048 - cbufy[0];for (int i = 0; i < matDst1.cols; ++i){float fx = (float)((i + 0.5) * scale_x - 0.5);int sx = cvFloor(fx);fx -= sx;if (sx < 0) {fx = 0, sx = 0;}if (sx >= iWidthSrc - 1) {fx = 0, sx = iWidthSrc - 2;}short cbufx[2];cbufx[0] = cv::saturate_cast<short>((1.f - fx) * 2048);cbufx[1] = 2048 - cbufx[0];for (int k = 0; k < matSrc.channels(); ++k){*(dataDst+ j*stepDst + 3*i + k) = (*(dataSrc + sy*stepSrc + 3*sx + k) * cbufx[0] * cbufy[0] + *(dataSrc + (sy+1)*stepSrc + 3*sx + k) * cbufx[0] * cbufy[1] + *(dataSrc + sy*stepSrc + 3*(sx+1) + k) * cbufx[1] * cbufy[0] + *(dataSrc + (sy+1)*stepSrc + 3*(sx+1) + k) * cbufx[1] * cbufy[1]) >> 22;}}}cv::imwrite("linear_1.jpg", matDst1);cv::resize(matSrc, matDst2, matDst1.size(), 0, 0, 1);cv::imwrite("linear_2.jpg", matDst2);

参考:

  • OpenCV ——双线性插值(Bilinear interpolation)
  • https://blog.csdn.net/qq_37577735/article/details/80041586

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/453713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习之 OHEM (Online Hard Example Mining)

论文 《Training Region-based Object Detectors with Online Hard Example Mining》链接 https://arxiv.org/pdf/1604.03540.pdf Astract 摘要主要讲了四点&#xff1a; (1) 训练过程需要进行参数的空间搜索(2) 简单样本与难分辨样本之间的类别不平衡是亟需解决的问题(3) 自…

音视频 详解

avi文件格式详解 AVI是音频视频交错(Audio Video Interleaved)的英文缩写&#xff0c;它是Microsoft公司开发的一种符合RIFF文件规范的数字音频与视频文件格式&#xff0c;原先用于Microsoft Video for Windows (简称VFW)环境&#xff0c;现在已被Windows 95/98、OS/2等多数操…

c6011取消对null指针的引用_C++| 函数的指针参数如何传递内存?

函数的参数是一个一级指针&#xff0c;可以传递内存吗&#xff1f;如果函数的参数是一个一级指针&#xff0c;不要指望用该指针去申请动态内存。看下面的实例&#xff1a;#include using namespace std;void GetMemory(char *p, int num){p (char *)malloc(sizeof(char) * num…

深度学习目标检测之 YOLO v2

论文名&#xff1a;《YOLO9000: Better, Faster, Stronger》原文&#xff1a;https://arxiv.org/pdf/1612.08242v1.pdf代码&#xff1a;http://pjreddie.com/darknet/yolo/ YOLO v2 斩获了CVPR 2017 Best Paper Honorable Mention。在这篇文章中&#xff0c;作者首先在YOLOv1的…

深度学习目标检测之 YOLO v3

论文名&#xff1a;《YOLOv3: An Incremental Improvement》论文地址 https://pjreddie.com/media/files/papers/YOLOv3.pdfhttps://arxiv.org/abs/1804.02767v1 论文代码 https://github.com/yjh0410/yolov2-yolov3_PyTorchkeras&#xff1a;https://github.com/qqwweee/keras…

30本pdf完整版的经典Linux学习和开发教程和资料下载 android arm java 资料大全

史上最牛的Linux内核学习方法论 点击下载我的arm_linux移植笔记 点击下载S3C2440完全开发流程 点击下载Linux系统命令及其使用详解完整版 点击下载Linux主要shell命令详解 点击下载深入理解Linux内核(第三版 pdf英文版) 点击下载深入分析Linux内核源代码教程pdf完整版 点击下…

Fedex Ship Manager Software安装

本文出自Simmy的个人blog&#xff1a;西米在线 http://simmyonline.com/archives/552.html 这个软件的安装颇费了我一番周章&#xff0c;特地Log之。下载&#xff1a;http://www.fedex.com/apac_english/fsmsoftware/ 安装完后&#xff0c;接着输入用户信息&#xff0c;然后连…

【转】博客美化(3)为博客添加一个漂亮的分享按钮

阅读目录 1.社会化分享2.选择一个分享按钮3.添加到博客园博客博客园美化相关文章目录&#xff1a;博客园博客美化相关文章目录 在前2篇博客“博客美化(1)基本后台设置与样式设置”与"博客美化(2)自定义博客样式细节"中详细介绍了博客样式设置的相关问题&#xff0c;当…

深度学习目标检测之 YOLO v4

论文原文&#xff1a;https://arxiv.org/abs/2004.10934代码 原版c&#xff1a; https://github.com/AlexeyAB/darknetkeras:https&#xff1a;//github.com/Ma-Dan/keras-yolo4pytorch&#xff1a;https://github.com/Tianxiaomo/pytorch-YOLOv4 前言 2020年YOLO系列的作者…

[Android] 年年有鱼手机主题

自制的年年有鱼手机主题&#xff0c;希望大家喜欢&#xff01;~ 下载地址&#xff1a;https://yunpan.cn/cqauQbiM97idd &#xff08;提取码&#xff1a;d272&#xff09; 本文转自haiyang45751CTO博客&#xff0c;原文链接&#xff1a; http://blog.51cto.com/haiyang457/1…

mysql 小数做索引_10 分钟掌握 MySQL 的索引查询优化技巧

本文的内容是总结一些MySQL的常见使用技巧&#xff0c;以供没有DBA的团队参考。如无特殊说明&#xff0c;存储引擎以InnoDB为准。MySQL的特点了解MySQL的特点有助于更好的使用MySQL&#xff0c;MySQL和其它常见数据库最大的不同在于存在存储引擎这个概念&#xff0c;存储引擎负…

模块与包

一 模块介绍 1、什么是模块&#xff1f; #常见的场景&#xff1a;一个模块就是一个包含了一组功能的python文件,比如spam.py&#xff0c;模块名为spam&#xff0c;可以通过import spam使用。#在python中&#xff0c;模块的使用方式都是一样的&#xff0c;但其实细说的话&#x…

解决eclipse + pydev 编译过程中有中文的问题

最近在学习python编程&#xff0c;开发环境设置好了&#xff0c;是用eclipse pydev 来做开发的环境&#xff0c;配置好了之后&#xff0c;需要解决的一个关键问题就是老问题了&#xff1a;如何解决代码中的中文问题。。。 其实但我们在配置编程环境的时候&#xff0c;就需要设…

程序员的思考--终于确定了自己的技术发展方向

经过了将近5年的工作沉淀以后&#xff0c;终于确定了自己的职业发展方向。从现在开始终于可以有的放矢了&#xff0c;不再迷茫了。回想以往&#xff0c;找到这个方向&#xff0c;确实不是一件容易的事情&#xff0c;一路也是迷茫的走过来&#xff0c;随着知识和工作经验的积累&…

【原】iOS:手把手教你发布代码到CocoaPods(Trunk方式)

概述 关于CocoaPods的介绍不在本文的主题范围内&#xff0c;如果你是iOS开发者却不知道CocoaPods&#xff0c;那可能要面壁30秒了。直奔主题&#xff0c;这篇文章主要介绍如果把你的代码发布到CocoaPods代码库中&#xff0c;让别人可以使用“pod search yourOpenProject”命令查…

kafka tool 查看指定group下topic的堆积数量_ELK架构下利用Kafka Group实现Logstash的高可用...

系统运维的过程中&#xff0c;每一个细节都值得我们关注下图为我们的基本日志处理架构所有日志由Rsyslog或者Filebeat收集&#xff0c;然后传输给Kafka&#xff0c;Logstash作为Consumer消费Kafka里边的数据&#xff0c;分别写入Elasticsearch和Hadoop&#xff0c;最后使用Kiba…

jquery flot pie画饼图

具体效果如下&#xff1a; 1 <!DOCTYPE html> 2 <html> 3 <head> 4 <meta http-equiv"Content-Type" content"text/html; charsetUTF-8"> 5 <title>Insert title here</title> 6 <script language"javas…

mysql fetch rows_差异mysql_fetch_array()和mysql_fetch_rows()函数_mysql

区别mysql_fetch_array()和mysql_fetch_rows()函数form:http://www.uphtm.com/php/254.html如果我们不仔细看会发现象mysql_fetch_array()和mysql_fetch_rows()函数没有什么区别&#xff0c;但是细细的看你会发现它们区别还是蛮大了&#xff0c;如果各位对于此函数的区别不了解…

解读设计模式----简单工厂模式(SimpleFactory Pattern),你要什么我就给你什么

本文首发于博客园,地址:http://www.cnblogs.com/beniao/archive/2008/08/09/1263318.html 一、模式概述 从设计模式的类型上来说&#xff0c;简单工厂模式是属于创建型模式&#xff0c;又叫做静态工厂方法&#xff08;Static Factory Method&#xff09;模式&#xff0c;但不属…

Memcached常用操作

memcached是一个高性能的、分布式内存对象缓存系统&#xff0c;应用广泛。 通过缓存数据库查询结果&#xff0c;减少数据库访问次数&#xff0c;以提高动态Web应用的速度、 提高可扩展性。 它可以应对任意多个连接&#xff0c;使用非阻塞的网络IO。由于它的工作机制是在内存中开…