深度学习在机器视觉应用领域的最新研究综述(物联网技术应用大作业)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,无广告,忍不住分享一下给大家。(点击跳转人工智能学习资料)


摘要:机器视觉是人工智能正在快速发展的一个分支。简单说来,机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是通过机器视觉产品(即图像摄取装置,分CMOS和CCD两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,得到被摄目标的形态信息,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作[1]。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对图像等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据,其在语音和图像识别方面取得的效果,远远超过先前相关技术[1]。该综述主要内容即是关于深度学习在机器视觉应用领域的研究。

1引言
由文献[2]可知在深度学习算法出来之前,对于视觉算法来说,大致可以分为以下5个步骤:特征感知、图像预处理、特征提取、特征筛选、推理预测与识别。早期的机器学习中,占优势的统计机器学习群体中,对特征是不大关心的。计算机视觉可以说是机器学习在视觉领域的应用,所以计算机视觉在采用这些机器学习方法的时候,不得不自行设计前4个部分,而这是一个艰难的任务。传统的计算机识别方法把特征提取和分类器设计分开来做,然后在应用时再合在一起,比如如果输入是一个人脸图像的话,首先要有一个特征表达或者特征提取的过程,然后把表达出来的特征放到学习算法中进行分类的学习。因为手工设计特征需要大量的经验,需要设计者对该领域和数据特别了解,设计出的特征还需要大量的调试工作。而另一个难点在于,设计者不只需要手工设计特征,还需要在此基础上有一个比较合适的分类器算法,同时设计特征并且选择一个分类器,这两者合并达到最优的效果,几乎是不可能完成的任务。
如果不手动设计特征,不挑选分类器,有没有别的方案呢?能否同时学习特征和选择分类器呢?即输入某一个模型的时候,输入图片,输出其标签。比如输入一个员工的人脸,输出的标签就是一个1000维的向量(假设要在1000个人里识别),其中对应员工的向量是1,其他的位置是0。这种设定符合人类脑科学的研究成果。AlexNet由多伦多大学几个科学家开发,在ImageNet比赛上做到了非常好的效果。当时AlexNet识别效果超过了所有浅层的方法。此后,大家认识到深度学习的时代终于来了,并有人用它做其它的应用,同时也有些人开始开发新的网络结构。机器视觉中比较成功的深度学习的应用,包括复杂环境下的人员检测、视觉问答和物体检测等。

2基于深度学习的复杂环境人员检测方法研究
复杂环境指的是目标检测中图像分辨率不高、光照影响、检测区域复杂、干扰严重的环境。复杂的检测环境给目标检测带来了极大的干扰,国内外研究者提出多种方法应对复杂环境对目标检测的干扰,但是由于应用场景不同,解决复杂环境干扰问题的方法也各不相同。在工业复杂生产环境下,作业人员的安全问题至关重要。大多数工业企业采用人眼观察视频的方式对作业人员位置进行判断,这种方式长时间会使管理者出现疲劳问题,效率非常低下,遇到安全问题也不能进行及时的处理。因此采用图像处理以及深度学习技术使计算机代替人眼去检测和定位人员,不仅可以提高检测的准确率,同时也可以减轻监管人员的工作负担。
由文献[3]知在工业环境下进行图像的采集并进行人员多种姿态、状态的数量统计,同时将数据集中的人员进行标注,形成算法训练对应格式数据集;其次针对工业复杂环境下人员难以检测的问题,分别使用HOG+SVM人员检测算法、Faster_RCNN人员检测算法以及Centernet人员检测算法对本文人员数据集进行训练测试和分析,得出Centernet人员检测算法在检测精度和速度上均优于其他算法的结论;最后针对于Centernet人员检测算法在实际应用中对于大面积人员遮挡无法检测到的问题,提出基于背景差法的改进Centernet人员检测算法,利用背景减除法快速确定人员大致位置的特点,调整Centernet得分阈值的大小,使得分较少的大面积遮挡人员也可以正确被检出,提高Centernet人员检测算法在应用中检测的平均精度。
YOLO系列初代算法YOLOv1是由Joseph Redmon在2016年CVPR上首次发表,自此YOLO系列因其高效的性能而被广泛应用到各类实时检测任务中。在初代YOLO中,作者将图像分割为77的共计49个小单元格,图片经过YOLOv1网络处理之后将会输出一个7730的张量,其中77是指将图片分割成7*7的网格,30是指预测框的宽高,中心点坐标,置信度以及可预测的20个物体种类,通过这样的张量拼接方式使得YOLO可以同时完成对目标位置和种类的预测。此后的一系列YOLO算法基于这种思想不断在精度,速度和可识别物体种类方面进行了改进,YOLO9000[4]将可识别物体的种类从20种增加到了9000种。由文献[5]针知对于复杂环境对目标检测的干扰问题,通过区域划分解决检测区域复杂问题,通过改进暗通道优先图像处理策略,解决图像分辨率、光照等对目标检测的影响问题,结合SSDSN提出复杂环境下的人员检测方法,通过对比Faster R-CNN、SSD、YOLOV2、YOLOV3及SSDSN五种算法的检测结果,证明了SSDSN在复杂环境下的检测能力。

3基于深度学习的视觉问答系统研究
2015年,学术界提出的自由形式和开放式视觉问答VQA任务,逐步成为人工智能研究的热门方向。VQA系统将图像与自由形式和开放式的自然语言表述问题作为输入,产生的自然语言表述答案作为输出。图像处理的相关技术为视觉问答提供一定的支持和借鉴,比如图像标记与图像说明。和视觉问答相比,这些任务虽然需要视觉和语义知识,但是说明通常不具有针对性。相比之下,视觉问答中的问题往往需要详细的有针对性的图像信息,所以和一般的图像标记与图像说明不一样。视觉问答(VQA)是计算机视觉、自然语言处理和人工智能交叉的新兴交叉学科研究课题。给定一个开放式问题和一个参考图像,视觉问答(VQA)的任务是预测与图像一致的问题的答案。VQA需要对图像有很深的理解,但是评估起来要容易得多。它也更加关注人工智能,即产生视觉问题答案所需的推理过程[6]。
在视觉问答中,计算机视觉技术用来理解图像,NLP技术用来理解问题,两者必须结合起来才能有效地回答图像情境中的问题。这相当具有挑战性,因为传统上这两个领域是使用不同的方法和模型来解决各自任务的。给定一张图片,如果想要机器以自然语言来回答关于这张图片的某一个问题,那么,机器对图片的内容、问题的含义和意图以及相关的常识都需要有一定的理解。在实际应用中,针对信息中大量的图片,采用视觉问答系统就可以使用机器来采集相应有用的信息,减少了人的工作量。近年来,由于图形的强大表现力,用机器学习分析图形的研究越来越受到关注,图神经网络是基于深度学习的方法,在图域上运行卷积神经网络。由于其令人信服的性能和高可解释性,GNN最近已成为一种广泛应用的图形分析方法,其侧重于分类、链路预测和聚类。在视觉问答中,图像中的目标可视为图的节点,节点间基于问题的联系可视为边。综上,在联合嵌入模型的基础上结合图卷积神经网络,加强图像目标和问题间的联系,通过图网络强大的分类能力,以提高视觉问答的准确率[7]。

4基于深度学习的物体检测系统研究
人类的视觉系统能够迅速地、有选择地从视觉场景中检测出感兴趣的目标或者具有显著特征的物体,并根据更高层次的视觉任务目的对它们进行处理和理解,从而实现相应的行为或决策。将人类这种选择性视觉注意机制引入到计算机视觉的信息处理中,可以有效地减少视觉计算所需处理的数据量、加速整个处理过程,并进一步方便更高层次视觉任务的处理,因而该方面的研究受到学术界的广泛关注并应用到计算机视觉的各个领域。
人工神经网络被认为是一种以简化的方式模仿人类大脑并行计算机制的数学模型,人们同样试图建立一些计算模型来模仿人类视觉系统注意机制,以实现选择性地专注于一些与视觉任务目的相关的事物而忽略其他事物,从而可以利用有限的计算资源来快速完成视觉场景的处理和理解等过程[8]。
基于深度学习的显著性物体检测方法,需要对模型进行训练,因此需要大量的样本图片及其对应的标签。虽然在人工标注时耗费大量的时间,以及在网络训练和和参时也花费一定的时间,但是一旦将网络模型训练好,可以适用于较为复杂场景下的显著性物体检测,其性能明显优于传统的显著性物体检测方法。目前,大多数的基于深度学习的显著性物体检测方法都是采取全监督的方式,即需要大量的样本进行训练;按照其网络结构,一般可以将这些方法分为基于传统卷积神经网络的方法和基于完全卷积神经网络的方法。虽然基于完全卷积神经网络的显著性检测方法相比传统卷积神经网络的显著性检测方法能更好地保存空间信息,但经过卷积、下采样和上采样后,最终的特征图丧失了显著物体的一些细节,在一定程度上影响了检测的精度。因此,在此基础上,基于复杂的特征融合网络结构被提出,如将底层特征和高层特征征行连接,获得更加丰富的语义信息;在文献[9]中,作者加到了注意力机制,来进行更加精确的显著目标检测,从而克服之前的网络模型的缺点,提高模型的检测精度。

5总结与展望
对于人员检测,由于实际监控场景的复杂性,算法在人员检测的过程中不可避免地会存在一些误报,以后可以从主干网络入手,对于人员的特征进行更加精准的提取,从而进一步提升算法的检测性能。另一方面,由于存在数据较少、目标标注引入干扰背景的问题, DE-YOLO检测的精确度提升会遇到瓶颈,同时网络结构如何进一步的压缩和裁剪也是一个值得研究的方向, 后期的工作将针对这些问题进入深入的研究。
对于智能视觉问答系统,作为需要视觉理解与推理能力的、融合计算机视觉以及自然语言处理的视觉问答VQA,它的进步在计算机视觉的发展和自然语言处理的能力提高的基础上还有着更高的要求,即对图像的理解——在图像处理的基础能力,如识别、检测等的基础上还要学习知识与推理的能力。需要提高模型的精度,提高回答问题的粒度。然而,这条路还有很长的距离要走,一个能够真正理解图像、学习到知识和推理能力的VQA模型才是最终目标。
对于物体检测,由文献[8]知显著性物体检测仍然是一个非常具有挑战性的工作,具有十分重要的研究价值。目前,显著性物体检测的首选方法是基于深度学习的方法,具有较高的检测精度,可适应于复杂场景下的物体检测。未来,显著性物体检测将更加关注网络模型的大小、检测的精度以及实时性方面,作为视觉任务的前序的预处理,为各种实际的应用任务服务。
基于深度学习的机器视觉和物联网技术近年来受到研究人员和商业领域的广泛关注,这两项技术对我们的生活、城市和世界都产生了积极的影响。物联网技术和深度学习构成了一个数据生产者-消费者链,其中物联网技术生成由深度学习模型分析的原始数据,深度学习模型产生高层次的分析,反馈给物联网系统,以微调和改进服务。

参考文献:
[1]孙志军;薛磊;许阳明;王正;深度学习研究综述[J];计算机应用研究;2012年08期
[2]张驰;关于深度学习与计算机视觉;雷锋网;2016年5月
[3]滕悦;工业复杂环境下人员监测系统研究与设计;辽宁科技大学
[4]REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 6517-6525
[5]马金涛;基于深度学习的复杂环境目标检测方法研究;哈尔滨理工大学;2021年第09期
[6]葛梦颖;孙宝山;基于深度学习的视觉问答系统;天津工业大学;2096-4706(2019)11-0011-04
[7]龚安;丁磊;姚鑫杰;基于图卷积网络的视觉问答研究;中国石油大学(华东); 1672-9722.2022.01.026
[8]蒋峰岭;孔斌;钱晶;王灿;杨静;显著性物体检测研究综述;1000-8829(2021)01-0001-15
[9]CHENSH,WANGB,TANXL,etal.Embeddingattentionandresidualnetworkforaccuratesalientobjectdetection[J].IEEETransactionsonCybernetics,2020,50(5):2050-2062.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/347345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MATLAB库函数hilbert(希尔伯特变换)的C语言实现(FFT采用FFTW库)

目录希尔伯特变换原理公式MATLAB官方帮助文档中希尔伯特变换算法常量和结构体定义C语言实现(FFTW库的float版,double版类似)希尔伯特变换原理公式 MATLAB官方帮助文档中希尔伯特变换算法 hilbert uses a four-step algorithm: Calculate the FFT of the input sequ…

netbeans7.4_NetBeans 7.4 Beta提示警告无效的异常处理

netbeans7.4有许多例子说明Java异常处理可能比首次出现时要困难得多,Josh Bloch专门将一整章的《 Effective Java》 (两个版本)专门用于异常处理。 Java中的检查异常模型 仍然 “ 有争议” 。 我很高兴看到我最近下载的NetBeans 7.4 beta有一…

在厚度仅十几微米的电池隔膜找缺陷?人工智能说,能行(人工智能应用案例)

原文链接:https://www.paddlepaddle.org.cn/support/news?actiondetail&id2104 “我们的质检要做的是在厚度仅十几微米的电池隔膜上找出所有微小缺陷,如果没有检测出来,就很可能使新能源汽车的电池在使用过程中出现问题,甚至…

MATLAB库函数unwrap(相位解卷绕)的C语言实现

什么是相位解卷绕 Q = unwrap(P) Q = unwrap(P) corrects the radian phase angles in a vector P by adding multiples of 2π when absolute jumps between consecutive elements of P are greater than or equal to the default jump tolerance of π radians. If P is a …

准确率超90%、1秒发出报警,人工智能助国网山东实现无人巡检(人工智能应用案例)

原文链接:https://mp.weixin.qq.com/s/Jh2YLY-4um79ucdHIs5NTg 众所周知,深度学习框架是人工智能的基础技术“底座”,在各大传统产业上也有着巨大的潜力尚待挖掘。5月20日,由深度学习技术及应用国家工程实验室与百度联合主办的“…

混合多云每个人都应避免的3个陷阱(第2部分)

如果您已经完全控制了内部数据中心,但又不能停止利用和支付过多的资源,那么如何期望防止这些成本转嫁到您的云策略中呢? 每天都在肆意宣传云,但每个人都应避免三个陷阱。 从云,混合云到混合多云,您被告知这…

MATLAB库函数upfirdn(分数倍采样率变换)的C语言实现【姊妹篇1基于std::vector】

upfirdn原理 yout = upfirdn(xin,h,p,q) upfirdn的功能在MATLAB官方帮助文档中说得很清楚 通过插零实现 p p p倍上采样对上采样之后的信号用给定的 h h h(通常为低通滤波器)进行滤波对滤波结果进行

基于PaddlePaddle实现高尔夫球场的遥感检测(人工智能应用案例)

原文链接:https://www.paddlepaddle.org.cn/support/news?actiondetail&id2103 1 . 背景及意义 随着高尔夫球运动在我国的兴起,关于高尔夫球场大量占用土地资源、污染环境、耗水量大且公益性差的争议越来越多。国家从2004年开始制定一系列相关政策…

在Jersey测试中模拟SecurityContext

泽西极有可能编写与泽西一起编写的REST-API集成测试。 只需扩展类JerseyTest并继续就可以了。 我遇到一个问题,我不得不模拟SecurityContext ,以便SecurityContext包含一个特殊的UserPrincipal 。 挑战在于Jersey在测试中将SecurityContext包装在自己的…

第一类修正贝塞尔函数的C语言实现

第一类修正贝塞尔函数公式 Iν(z)(z2)ν∑(k0)∞(z24)kk!Γ(νk1)I_{\nu}(z)\left(\frac{z}{2}\right)^{\nu} \sum_{(k0)}^{\infty} \frac{\left(\frac{z^{2}}{4}\right)^{k}}{k ! \Gamma(\nuk1)}Iν​(z)(2z​)ν(k0)∑∞​k!Γ(νk1)(4z2​)k​ 其中,Γ(a)\Gamma…

MATLAB库函数firls(最小二乘线性相位FIR滤波器设计)的C语言实现

firls函数功能 FILS设计了一种线性相位FIR滤波器,它可以最小化理想分段线性函数与滤波器在一组期望频带上的幅值响应之间的加权积分平方误差。 b = firls(n,f,a) b = firls(n,f,a,w) b = firls(n,f,a,ftype) b = firls(n,f,a,w,ftype)f是在0和1之间的范围内指定的频率点对的…

数电实验一-初识Multisim和Basys3

特别说明:该系列内容均是本人实验记录,无盗取侵权之嫌,仅供参考,请多动手实践! 一、实验目的 详见报告 二、实验仪器设备 详见报告 三、实验设计过程 使用Multisim为Basys3板卡创建一个PLD设计并进行验证。 1.创建P…

自动化学科前沿讲座作业 基于深度学习的工厂人员监测系统设计

1 背景及应用场景 在工业复杂生产环境下,作业人员的安全问题至关重要。大多数工业企业采用人眼观察视频的方式对作业人员位置进行判断,这种方式长时间会使管理者出现疲劳问题,效率非常低下,遇到安全问题也不能进行及时的处理。采用…

MATLAB库函数resample(重采样函数)的C语言实现【姊妹篇1基于std::vector】

resample的原理 MATLAB中resample函数最简单的参数如下: y = resample(x,p,q) 以p/q乘以原始采样速率对输入序列x重新采样。resample在x上应用抗锯齿FIR低通滤波器,补偿滤波器带来的延迟。 根据以下2篇文章 MATLAB库函数upfirdn(分数倍采样率变换)的C语言实现(采用了STL::v…

多重继承java_Java中的多重继承与组合vs继承

多重继承java有时我写了几篇有关Java 继承 , 接口和组成的文章。 在这篇文章中,我们将研究多重继承,然后了解组成优于继承的好处。 Java中的多重继承 多重继承是创建具有多个超类的单个类的能力。 与其他一些流行的面向对象的编程语言&#…

数电实验二-点亮一个数码管(Multisim和Basys3 )

特别说明:该系列内容均是本人实验记录,无盗取侵权之嫌,仅供参考,请多动手实践。 一、实验目的 详见报告 二、实验环境 详见报告 三、实验内容 (1)基本要求:以Basys3四位拨码开关SW3~SW0为输入…

模拟调频信号FM解调的matlab和C语言实现【姊妹篇1基于std::vector】

本文所需的FM已调信号、原始音频、包络检波法解调后的音频、差分相位法解调后的音频,可通过以下链接进行下载。其中,FM已调信号文件较大共有两百多兆,故截取其部分上传,若有需要完整信号的请留言! FM调制解调音频文件.rar 已调信号:采样率为 F s = 5 m H z Fs=5mHz Fs=

倍福(Beckhoff)嵌入式控制器PLC

前些天发现了十分不错的人工智能学习网站,通俗易懂,风趣幽默,没有广告,分享给大家,大家可以自行看看。(点击跳转人工智能学习资料) 摘要:与家喻户晓的西门子相比,倍福&am…

fftw-3.3.8库在linux下的的编译和配置

关注公号【逆向通信猿】更精彩!!! 运行环境 Ubuntu 14.04版本以上,64位系统 FFTW库的下载 首先在官网上下载fftw-3.3.8.tar.gz压缩包,解压。本人下载好的压缩包地址:https://download.csdn.net/download/wlwdecs_dn/12904577 FFTW库的生成 首先,将压缩包进行解压,…

tms tck_两个用于Eclipse的TCK –开源到底有什么?

tms tck早在5月,Oracle就向Eclipse Foundation 授予了兼容性测试奖学金 。 在过去的几天里,这引起了媒体的关注,我只是想确保我对整个过程和详细动作有所了解。 看起来像是一见钟情的简单诚实的礼物实际上具有更多的方面。 但是让我们从头开始…