CV中的经典网络模型

目标检测

目标检测,不仅要识别目标是什么(分类),还要知道目标的具体位置(可以当作回归来做)。

RCNN

Selective Search 算法获得候选框,Alexnet提取特征,SVM对每个候选框区域打分。对于重叠的区域,通过计算IoU和非极大值抑制,剔除重叠的区域。imagenet到VOC的迁移学习,VOC只有21个类,其中一类是背景。

YOLO

 you only look once,属于one stage检测,因为不需要提前使用其他的算法获得候选区域。虽然不是显式地找候选框,隐式的也是少不了的。YOLO把图像均匀分成SxS的格子,每个格子预测B个候选框,一般取S=7,B=2,这样得到98个候选框。虽然有这么多BBox,但是有些是没有意义的,因为其对应的格子就不包含object。不包含object的cell肯定不予考虑,那么包含着object的呢,也要打分排序:与groundtruth的IoU越高,得分也越高,这个得分叫做置信度confidence。更进一步,即便有一些cell的置信度都很高,得分都一样,但是他们的重要程度可能还是不一样的:那些object的中心落在哪个cell中,哪个cell的重要性更高,可以为这个object负责。这个重要程度以条件概率的形式给出,即这个cell是属于某个object的前提下,属于class i的概率。

YOLO v1 的模型结构受 GoogLeNet 启发。但是,有少许不同。YOLO 采用了 1x1 和 3x3 的序列组合替代 Inception 模块。YOLO 模型的最后一层是一个 7x7x30 的 tensor,怎么理解呢?7x7自然对应的是空域中的均匀分割,每一个cell对应2个BBox,每个BBox对应两个内容,一个是空间位置(中心点坐标x,y,长宽w,h,通道数c),一个是对应各个类别的概率(20类,长度20),所以最终的输出就是7x7x((2+2+1)*2+20))

AlenNet

成功使用了Relu,成功使用了Dropout,成功使用了重叠的最大池化(最大池化相比于平均池化,避免了模糊效应;而重叠的是通过步长小于池化核,使得输出之前有重叠,提升了特征的丰富性)。注意这里都是“成功应用”,而不是提出,AlenNet提出的贡献是LRN。

local response normalization

这里的作用也是避免过拟合,提升泛化能力。思路是为局部神经元创建竞争机制,模拟生物学中的“侧抑制“,反馈大的被激活,反馈小的被抑制。

google 

vgg

inception

Inception是GoogleNet中的一个模块。这个词的本意是开端,同时也作为《盗梦空间》的英文名。模块起这个名字正是为了像盗梦空间一样进入更深的“梦境”。在更深之前,首先是更宽。既然卷积核的大小有限制,太大不行,太小也不行,那就用多个不同尺寸的卷积核,不同卷积核的输出不再是对应像素相加,而是级联起来,送入下一层。

那么,Inception具体选取了哪几个尺寸的卷积核呢。1x1,3x3和5x5,还有一个最大池化层,相当于Inception模块不仅要帮助你决定卷积核的尺寸,还要决定是否使用池化层。1x1卷积和其他卷积其实本质是一样的,都是跨通道的线性组合,只不过它没有改变特征图的分辨率,所以可以认为是在通道维度降低了维度(当然也可以升维,与滤波器个数有关)。既然1x1卷积可以降维,那么就可以在Inception中的卷积之前,池化之后加一步1x1卷积,降低计算量,这就是Inception V1。

网络更宽了,就可以更深吗?我们知道,更深的话容易遇到梯度消失的问题,其实在这里这个问题依然存在。为了解决这个问题,GoogleNet额外增加了两个辅助的softmax。具体做法是对其中的两个Inception模块,他们的输出一方面进入下一个Inception,一方面会在平均池化后使用1x1降维,再经过全连接,进入softmax激活层。

ResNet

既然梯度消失是层层累积造成的现象,那么我们可不可以让某些层跳过之前的几层,得到梯度消失之前的信息?ResNet就是这样做到,同时给这种短路机制的想法赋予了一个更高大上其实也更合理的解释:这种结构不再是让网络直接学习目标值,而是让接下来的网络学习之前学习的结果与目的的差值。在不断减小残差的同时,也得到了更加准确的预测。当残差为0时,这一模块即为恒等映射

事实上,ResNet作为2016年的最佳CVPR论文,在ImageNet分类竞赛中,将DNN的深度从VGG的16层提升到了152层。对于更深的DNN,每个Res模块的深度也可以从两层增加到三层:

ResNet的一个重要设计原则是:当feature map大小降低一半时,feature map的数量增加一倍,这保持了网络层的复杂度。对于短路连接,当输入和输出维度一致时,可以直接将输入加到输出上。但是当维度不一致时(对应的是维度增加一倍),这就不能直接相加。有两种策略:(1)采用zero-padding增加维度,此时一般要先做一个downsamp,可以采用strde=2的pooling,这样不会增加参数;(2)采用新的映射(projection shortcut),一般采用1x1的卷积,这样会增加参数,也会增加计算量。短路连接除了直接使用恒等映射,当然都可以采用projection shortcut。https://zhuanlan.zhihu.com/p/31852747

DenseNet

 

mobile net

https://blog.csdn.net/briblue/article/details/82012575

https://www.cnblogs.com/dengshunge/p/10808191.html

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/493553.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

技术阅读周刊第十一期

技术阅读周刊,每周更新。 历史更新 20231124:第七期20231201:第八期20231215:第十‍期 A Comprehensive guide to Spring Boot 3.2 with Java 21, Virtual Threads, Spring Security, PostgreSQL, Flyway, Caching, Micrometer, O…

数据智能是大数据的未来

来源:中国信息产业网 近日,两家大数据领域的代表性企业Cloudera和Hortonworks宣布了它们相对平等的合并,宣称新公司将创建世界领先的下一代数据平台并提供业界首个企业数据云,这令很多人感到意外,大数据的未来何去何从…

利用GAN原始框架生成手写数字

这一篇GAN文章只是让产生的结果尽量真实,还不能分类。 本次手写数字GAN的思想: 对于辨别器,利用真实的手写数字(真样本,对应的标签为真标签)和随机噪声经过生成器产生的样本(假样本&#xff0…

DL也懂纹理吗——图像的纹理特征

工作中遇到一个问题:对于同一场景,训练好的DL模型能把大部分样本分类准确,而对于少量负样本,DL会错分到另外一个对立的类中。错分的样本可以认为是难分的样本,但是我们还想知道这两种样本到底是哪里的差异导致DL做出了…

排序算法--(冒泡排序,插入排序,选择排序,归并排序,快速排序,桶排序,计数排序,基数排序)

一.时间复杂度分析 - **时间复杂度**:对排序数据的总的操作次数。反应当n变化时,操作次数呈现什么规律 - **空间复杂度**:算法在计算机内执行时所需要的存储空间的容量,它也是数据规模n的函数。 1.例题: 有一个字符串数组&…

肠里细菌“肚里蛔虫”:肠脑研究缘何越来越热

来源:科学网最懂你大脑的,可能不是“肚子里的蛔虫”,而是肠子里的细菌——肠道菌群对神经系统、心理和行为方面的影响正成为一个新兴热点领域。在日前举办的美国神经科学学会年会上,一张海报上的大脑切片显微镜图像显示&#xff0…

SVM原理与实战

先看线性可分问题。对于线性可分,其实感知机就可以解决。但是感知机只是找到一个超平面将数据分开,而这样的超平面可能是平行的无限多个,我们需要在这其中找到最优的一个。怎么衡量一个超平面是不是最优的呢,直观上讲,…

2014-01-01

一:HyperlinkButton点击后打开新窗口的方法 1,直接在界面中写这段代码就可以了: <HyperlinkButton NavigateUri"http://www.cnblogs.com/wsdj-ITtech/" Content"Click Me" TargetName"_blank" FontSize"28" Height"50"…

李飞飞高徒:斯坦福如何打造基于视觉的智能医院?

作者&#xff1a;Albert Haque、Michelle Guo来源&#xff1a;机器之心自 2009 年担任斯坦福人工智能实验室和视觉实验室的负责人&#xff0c;李飞飞在推动计算机视觉方面研究的同时&#xff0c;还密切关注 AI 医疗的发展。昨日&#xff0c;李飞飞离任斯坦福 AI 实验室负责人一…

tensorflow知识点

一.bazel编译tensorflow注意版本号: 在/tensorflow/tensorflow/configure.py 查看bazel版本号 https://github.com/tensorflow/tensorflow https://github.com/bazelbuild/bazel/releases?after0.26.1 https://tensorflow.google.cn/ 二&#xff0c;基础知识点 1.打印出…

eclipse中如何导入jar包

如图&#xff0c;首先右键点击项目&#xff0c;选择最下面的properties&#xff0c; 然后进去之后点击java build path&#xff0c;右边会出来4个选项卡&#xff0c;选择libraries&#xff0c; 这时候最右边会有多个选项&#xff0c;第一个add jars是添加项目文件中的jar包&…

线性-LR-softmax傻傻分不清楚

softmax 对于分类网络&#xff0c;最后一层往往是全连接层&#xff0c;如果是N分类&#xff0c;那么最终的全连接层有N个结点。很显然&#xff0c;每个节点对应一个类&#xff0c;该节点的权重越大&#xff0c;说明网络越倾向于认为输入样本属于该类。这其实就是Softmax的思想…

一图看懂国外智能网联汽车传感器产业发展!

来源&#xff1a;赛迪智库编辑&#xff1a;煜 佳未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能&#xff0c;互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括&#xff1a;建立AI智能系统智商评测体系&#xff0c;开展世界人工智能智商评测&#…

深度学习中的信息论——交叉熵

信息量 可以说就信息量是在将信息量化。首先信息的相对多少是有切实体会的&#xff0c;有的人一句话能包含很多信息&#xff0c;有的人说了等于没说。我们还可以直观地感觉到信息的多少和概率是有关的&#xff0c;概率大的信息也相对低一些。为了量化信息&#xff0c;一个做法…

传统手工特征--opencv

一&#xff0c;颜色特征&#xff1a; 简单点来说就是将一幅图上的各个像素点颜色统计出来&#xff0c;适用颜色空间&#xff1a;RGB&#xff0c;HSV等颜色空间&#xff0c; 具体操作&#xff1a;量化颜色空间&#xff0c;每个单元&#xff08;bin&#xff09;由单元中心代表&…

特写李飞飞:她激励了人工智能的发展,更要给人工智能赋予人的价值

文 | MrBear 编辑 | 杨晓凡来源&#xff1a;雷锋网摘要&#xff1a;李飞飞无疑是人工智能界最响亮的名字之一。她既对机器学习领域的发展做出了杰出的贡献&#xff0c;也是普通大众眼中温和的人工智能技术宣扬者&#xff0c;还是谷歌这一科技巨头的人工智能技术领导人之一。WI…

Chap-4 Section 4.2.4 指令修正方式

对于X86平台下的ELF文件的重定位入口所修正的指令寻址方式只有两种&#xff1a;绝对近址32寻址和相对近址32寻址。 这两种指令修正方式每个被修正的位置的长度都为32位&#xff0c;即4个字节&#xff0c;而且都是近址寻址&#xff0c;不用考虑Intel的段间远址寻址。r_info成员的…

没见过女人的小和尚——SVDD

是的&#xff0c;即便是出生在山上的小和尚&#xff0c;从来没有下过山&#xff0c;没有见过女人&#xff0c;但是一旦有女施主上山&#xff0c;小和尚依然可以轻松地区分出眼前的人是如此不同。 传统的SVM是寻找一个超平面&#xff0c;而SVDD寻找的超平面更进一步&#xff0c…

解读GAN及其 2016 年度进展

作者&#xff1a;程程 链接&#xff1a;https://zhuanlan.zhihu.com/p/25000523 来源&#xff1a;知乎 著作权归作者所有。商业转载请联系作者获得授权&#xff0c;非商业转载请注明出处。 GAN&#xff0c;全称为Generative Adversarial Nets&#xff0c;直译为生成式对抗网络…

全国首套中小学生人工智能教材在沪亮相

来源&#xff1a;网络大数据中小学 AI 教材正式亮相11 月 18 日&#xff0c;优必选与华东师范大学出版社共同发布了《AI 上未来智造者——中小学人工智能精品课程系列丛书》&#xff08;以下简称“AI 上未来智造者”丛书&#xff09;。据了解&#xff0c;该丛书根据教育部“义务…