国科大prml15-目标检测

改进
R-CNN缩放图片
SPPNet允许不同大小输入,SPP(pooling)归一化到相同尺寸
Fast RCNN1.SPP->Rol pooling;2.改进边框校准Smooth L1 loss;3.全连接加速Truncated SVD
Faster RCNNRPN直接生成候选框(共享CNN),anchor box
Mask R-CNN实例分割;RolPool->RolAlign
Cascade RCNN级联多个Detection Head;提高交并比
FPN物体尺度变化大(充分利用CNN 结构对浅层补偿
SNIP/SNIPER/AutoFocus多尺度输入+ 单尺度模型(不同的输入尺度上处理不同尺度的物体
YOLO单阶段检测;anchor box;fc->RCNN;图像网格划分
SSD单阶段,RPN权卷积,anchor box;多尺度
corner NetAnchor Box->Corner;corner pooling单方向的pooling

RCNN

  1. 生成少量候选框(selective search)
    • 图像分割
    • 层次化地区域合并
  2. 用CNN提取候选框内的特征
    • 缩放到相同大小
    • 送入AlexNet提取特征
    • 以最后的全链接层的输出作为特征表示
    • 有监督预训练+微调
  3. 候选框分类
    • SVM
      • 一对多的而分类
    • softmax
      • CNN+softmax-直接出结果
      • 多类分类
    • 边框校准
      • 让检测框贴着物体

在这里插入图片描述在这里插入图片描述在这里插入图片描述

SPPNet

  • R-CNN:要把候选框变换到相同的大小
    • 裁剪丢失信息,缩放变形
  • SPPNet:(对整个网络卷积,去除重复计算
    • CNN:允许任意大小的图片输入到网络
    • SPP:归一化到相同大小(spatial pyramid pooling
    • 全连接:要相同大小的输入
  • SPPNet和R-CNN都包含多个单独的步骤–慢
    • 微调
      • RCNN-对整个CNN
      • SPPNet-只对全连接层
    • SVM&边框
      • 时间长:需要cnn提取所有特征
      • 占用空间大

Fast RCNN

  • 保留SPPNet的优势SPP–简化为单尺度的Rol pooling
  • 引入多任务学习,将多个步骤整合到一起
  • 改进边框校准:Smooth L1 loss
  • 全连接层加速:Truncated SVD

在这里插入图片描述在这里插入图片描述

Faster RCNN

  • 专门的候选框模块是速度瓶颈–直接CNN生成候选框
    • 直接CNN生成候选框(且和第二阶段共享卷积层)–RPN
    • 输入图,输出候选框
    • 尺度搜索anchor box–定义一组不同大小的窗口
  • 交替训练法
    •  交替式4步法训练
      •  基于预训练模型训练RPN
      •  基于预训练模型,以及上一步得到的RPN,训练Fast R-CNN
      •  固定共享的卷积层,训练RPN
      •  固定共享的卷积层,基于上一步得到的RPN,训练Fast R-CNN
    •  端到端训练
      •  同时学习RPN和Fast R-CNN
      •  Fast R-CNN的梯度不向RPN回传

Mask R-CNN

  • 新任务:实例分割
  • Faster-RCNN中+分割模块
  • RolPool->RolAlign
    在这里插入图片描述

Cascade RCNN

  • 检测框的位置准确率:和标注狂交并比越高越好
  • 级联多个Detection Head:逐步调整检测框,提升IoU
  • 在这里插入图片描述

FPN

  • 物体的尺度变化范围大
  • CNN-特征金字塔
  • 利用CNN的结构,对浅层进行予以补偿在这里插入图片描述

SNIP/SNIPER/AutoFocus

多尺度输入+单尺度模型
在不同的输入尺度上处理不同尺度的物体
保证训练和测试时输入的尺度的一致性
在这里插入图片描述在这里插入图片描述

单阶段检测YOLO

  • 两阶段检测:找候选框->检测
    • 单阶段YOLO:直接两个结果一起出来
    • 将目标检测->回归问题
    • 对图像网格划分
    • RPN:全连接层-》CNN
    • 使用anchor box
  • YOLO v2/YOLO 9000
    • 层次化分类
    • 无框标注的类别(弱监督)在当前概率最大的位置学习分类(猜了一个伪标签——

单阶段检测SSD

  • 首次给出了“Single-Shot”的说法
  •  类似YOLO的出发点:不生成Region Proposal,直接输出检测结果
  •  借鉴RPN的设计:全卷积,Anchor Box Default Box
  •  引入新的设计:多尺度
    • 对于不同大小的物体(在不同尺度的特征图上预测,用不同的predictor
  •  训练策略:数据增广,难例挖掘

CornerNet

  • AnchorBox:
    • 数量多,导致正负样例不均衡
    • 需要人工定义,且引入了大量超参数,这些选择严重依赖于数据
  • Anchor Box->Corner:将框的预测转换为顶点的预测和匹配
    • 提取corner预测的特征:corner pooling
    • 局部 pooling->在一个方向上pooling
      在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481628.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大模型铺天盖地出现后,计算机科学终成「自然科学」

来源:选自Communications of the ACM作者:Subbarao Kambhampati(美国人工智能学会前主席)编译:机器之心编辑:rome rome当部分人工智能正偏离其工程本源,AI 研究的方向变化,超出了我们…

Transformers 如何模仿大脑的某些部分

来源:ScienceAI编译:白菜叶了解大脑如何组织和访问空间信息「我们在哪里」,「拐角处有什么」,「如何到达那里」,这仍然是一项艰巨的挑战。该过程涉及从数百亿个神经元中调用整个记忆网络和存储的空间数据,每…

国科大prml-往年习题

文章目录1 模式识别过拟合欠拟合概率图概率图-独立性HMM哲学理论adaboost贝叶斯贝叶斯判别贝叶斯判别-正态分布贝叶斯估计贝叶斯决策朴素贝叶斯半监督无监督聚类GMMEM极大似然估计判别函数线性判别和非线性判别线性判别函数的数量(M分类感知机势函数法9.势函数法&am…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

GMM

GMM 一个类一个正态分布N(μk,Σk)N(\mu_k,\Sigma_k)N(μk​,Σk​) 有监督无监督半监督目标函数Llogp(Xl,Yl∥θ)Σi1llogp(yi∥θ)p(xi∥yi,θ)Σi1llogαyiN(xi∥θyi)Llogp(X_l,Y_l\|\theta)\Sigma_{i1}^llogp(y_i\|\theta)p(x_i\|y_i,\theta)\\\Sigma_{i1}^llog \alpha_…

城市大脑已经几岁?城市大脑发展成熟度的年龄评估模型(修改版)

说明:该论文由科学院研究团队刘颖、刘锋于2022年7月发表在《科技导报》第14期,是对城市大脑发展成熟度的探索研究,为构建城市大脑发展成熟度评估规范提供参考。根据研究团队建立的评估模型,进行初步评估,提出目前城市大…

2022年 AI 技术成熟度曲线

来源:Gartner公司编辑:蒲蒲近日,Gartner发布了最新的《2022年人工智能技术成熟度曲线》报告,报告称尽早采用复合型人工智能(AI)、决策智能等AI技术将给企业机构带来明显的竞争优势,缓解AI模型脆…

国科大prml--SVM

拉格朗日的原始问题是minw,bmaxλLmin_{w,b} max_{\lambda} Lminw,b​maxλ​L对偶问题是maxλminw,bLmax_{\lambda} min_{w,b}Lmaxλ​minw,b​L 原问题拉格朗日对偶问题分界面最终参数hard marginminw12∥w∥2min_w \frac{1}{2}\|w\|^2minw​21​∥w∥2约束yi(wTxi)>1,对…

科学家们正在使用人工智能来构想革命性的新蛋白质

来源:ScienceAI编译:白菜叶6 月,韩国监管机构授权使用人类设计的新型蛋白质制成首个药物,即 COVID 疫苗。该疫苗基于研究人员近十年前通过劳动密集型试错过程创造的球形蛋白质「纳米颗粒」。现在,由于人工智能&#xf…

多模态认知计算

来源:图灵人工智能 日常生活中, 人类至少利用视觉, 听觉等多种感官理解周围环境, 通过整合多种感知模态, 形成对事件的整体认识. 为使机器更好地模仿人类的认知能力, 多模态认知计算模拟人类的“联 觉”(Synaesthesia), 探索图像, 视频, 文本, 语音等多模态输入的高…

知识表示与知识图谱--介绍

知识表示与知识图谱 知识支撑 人类理解需要机器也需要知识工程 手段:信息技术特点:高效率、大容量目标:获取并利用知识与信息的技术例子 第一个专家系统:费根鲍姆知识工程语言TUILI--1982--陆汝衿专家系统开发环‘天马’--1987--…

「图学习推荐系统」最新2022综述

来源:专知协同过滤是一种被广泛应用于推荐系统中的方法,其利用不同用户之间(或不同物品之间)的相似性关系来过滤和抽 取用户和物品的交互信息,从而进行用户推荐.近年来,图神经网络因其出色的表示学习性能和良好的可扩展性逐渐成为推荐 领域中的一种新兴的范式.文中从…

2知识图谱的生命周期

知识图谱的生命周期 知识图谱 知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求:可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射:用知识图谱--抽象建模--来…

nlp1-介绍

能做什么? 自然语言处理: 如何让计算机能够自动或半自动地理解自然语言文本,懂得人的意图和心声?如何让计算机实现海量语言文本的自动处理、挖掘和有效利用,满足不同用户的各种需求,实现个性化信息服务&…

经纬张颖:给科研技术背景创始人的十条建议

来源:动脉橙果局编辑: Light出品: 科技智谷"给科研技术背景创始人的十条建议近一年,随着经纬在科技类公司的投资比例更大、金额更多,我和这类创始人们也进行了更高频次的交流,更多地了解了他们的困惑和…

nlp2-数学基础(信息论,概率论、词义消歧)

文章目录概率论信息论计算熵计算信息熵、条件熵、联合熵波利尼亚语熵率噪声信道模型建立一个翻译词义消歧(WSD贝叶斯最大熵的消歧方法概率论 在自然语言处理中,以句子为处理单位时一般假设句子独立于它前面的其它语句,句子的概率分布近似地符…

格鲁夫12年前惊人的预言,解释了今天美国对中国芯片所做的一切

来源: 未尽研究从芯片到光伏和动力电池,英特尔前董事长和CEO格鲁夫惊人地预言了美国制造业与科技当下所遇到的麻烦。他是一位以严厉著称的CEO,在美国金融危机刚结束之际,在商业杂志的封面发表了一篇犀利的评论。尤其是在美国硅谷如…

真正的人工智能,需要理解本体论

来源:混沌巡洋舰人工智能的终极语境是什么?真正的人工智能,需要理解本体论现在的人工智能技术突破或许具有划时代意义,但即使是计算能力最强大、最先进的机器,也达不到人类智能的层级。人工智能具备测算能力&#xff0…

知识图谱-架构图

binlog-MySQL的日志 用于实时处理与离线增量导入架构 Kafka消息队列 老虎队队长(AV75056045)

知识图谱2-知识表示

知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义(RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…