Learning Open-World Object Proposals without Learning to Classify(论文解析)

Learning Open-World Object Proposals without Learning to Classify

    • 摘要
    • 1 介绍
    • 2 相关工作
    • 3 方法
      • 3.1 基线
      • 3.2 基于纯定位的对象性
      • 3.3. 对象定位网络 (OLN)
    • 4 实验
      • 4.1跨类泛化
      • 4.2.开放世界类不可知检测
      • 4.3更多的跨数据集泛化
        • 4.3.1 Objects365 泛化
        • 4.3.2 EpicKitchens 的泛化
      • 4.4.对长尾目标检测的影响
    • 5 结论

摘要

物体提议已经成为许多视觉流程的重要预处理步骤,包括目标检测、弱监督检测、目标发现、跟踪等。与无需学习的方法相比,基于学习的提议最近变得越来越受欢迎,这主要是因为对目标检测的兴趣日益增长。常见的范式是从带有一组对象区域及其对应类别的标记数据中学习对象提议。然而,这种方法通常难以处理在训练集中不存在的开放世界中的新对象。在本文中,我们发现问题在于现有提议方法中的二元分类器往往对训练类别过拟合。因此,我们提出了一种无需分类的对象定位网络(Object Localization Network,OLN),它纯粹通过区域的位置和形状与标记的真实对象(例如,中心度和IoU)的重叠程度来估计每个区域的对象性。这种简单的策略学习了通用的对象性,并在COCO的跨类别泛化以及RoboNet、Object365和EpicKitchens的跨数据集评估中胜过了现有的提议方法。最后,我们展示了OLN在大词汇数据集LVIS上长尾目标检测方面的优点,其中我们注意到在罕见和常见类别中明显改进。

1 介绍

物体提议是一组包含高概率包含对象的区域或边界框[33, 41, 42, 45, 59-61, 74]。它们已经成为许多计算机视觉系统的重要预处理步骤,包括目标检测[33, 41, 42, 45, 59, 74]、分割[3, 8, 13]、对象发现[12, 16, 47]、弱监督目标检测[5, 21, 53]、视觉跟踪[35, 63]、内容感知重定向[51]等。由于目标检测的成功,物体提议研究的最近趋势已经从对象发现转向了检测。虽然对象发现提议的目标是在图像中提议任何对象,但检测提议的目标是仅为下游分类器提议已标记的类别。由于其简单性和与下游检测的共享计算,基于学习的提议成为受欢迎的检测提议。然而,与其无需学习的对应物[42, 59, 74]不同,这些方法倾向于过度拟合已注释的类别,并难以处理新对象[33, 41, 64]。我们想要探讨的问题是,是否可能将两者的优点结合起来,“学习开放世界(新颖)的对象提议”?这可能会为一些有前途的应用程序提供学习提议,包括开放世界检测[30]/分割[66]、机器人抓取[15]、主观视角视频理解[14]和大词汇检测[24]。

在给定一组物体注释的情况下,我们希望学习一般物体的外观,并从看不见的类别和新数据源中提出高度不同的物体候选项。这与人类在新环境中检测新颖物体而不命名它们的类别的能力相匹配,例如,道路上的障碍物,货架上的新产品。我们的主要洞察力在于,现有对象提议器[33, 41, 60]中的分类器或类别无关的检测器[45, 56]阻碍了这种泛化,因为模型倾向于过度拟合标记的对象并将训练集中的未标记对象视为背景。我们提出了对象定位网络(Object Localization Network,OLN),它通过预测一个区域的定位质量来学习检测对象,而不是进行前景-背景分类。这个简单的想法使模型能够学习更强的对象性线索。据我们所知,我们是第一个证明纯定位为基础的对象性学习对于提出新颖对象的价值的人,尽管在标准的固定类别检测设置中已经有其他人提出了将定位质量估计纳入其中的想法[28, 29, 56, 69]。我们展示了一个不依赖分类器的对象提议器是实现最佳的跨类别和跨数据集泛化的关键,这是与现有提议器或类别无关的检测器的重要设计区别。

我们在COCO交叉类别设置中研究了OLN的有效性,遵循了现有的研究[33, 41, 64]。尽管简单,OLN在新颖类别上的性能优于最先进的方法,AUC提高了+3.3(AR@10提高了+5.0,AR@100提高了+5.1)。我们的消融研究证实前景与背景分类器的使用有害,而定位有助于提高性能。此外,我们研究了从COCO到RoboNet [15]、Objects365 [48]和EpicKitchens [14]的跨数据集泛化。我们选择了RoboNet,因为它包含了机器人抓取应用中常见的各种新颖物体,而垃圾箱环境允许更可靠的详尽注释以进行适当的评估。在RoboNet上,OLN执行详尽的、与类别无关的对象检测,并在AP上优于标准方法+13∼16,而在Objects365上,OLN在AR@10上提高了+4,在AR@100上提高了+8。在EpicKitchens上的定性可视化进一步显示,OLN在检测各种新颖物体方面优于标准方法。最后,我们将OLN作为RPN [45]在LVIS长尾检测 [24]上的替代,并观察到AP提高了+1.4,其中大部分归因于罕见类别的提高(+3.4 APr)和常见类别的提高(+1.8 APc)。这表明OLN能够捕捉大词汇检测中的长尾。

值得注意的是,评估定位质量在标准检测中并不新鲜,但它们总是与分类一起使用,并仅在已知类别上进行验证,例如FCOS [56]。据我们所知,我们是首批独立于分类使用定位线索进行对象提议的研究者。这一发现帮助我们在COCO数据集上取得显著的增益,并在许多不同的数据集上比现有方法更好地进行泛化。

我们的贡献总结如下:
• 据我们所知,我们是首批展示了基于纯定位的对象性学习对于新颖对象提议的价值,并提出了一种简单但有效的无分类器的Object Localization Network(OLN)。
• 我们的方法在COCO的跨类别设置上优于现有方法,并改进了在RoboNet和Object365的跨数据集设置、长尾检测(LVIS)和主观视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/116151.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode LCR 179. 查找总价格为目标值的两个商品

和为 s 的两个数字 题目链接 LCR 179. 查找总价格为目标值的两个商品 购物车内的商品价格按照升序记录于数组 price。请在购物车中找到两个商品的价格总和刚好是 target。若存在多种情况,返回任一结果即可。 示例 1: 输入:price [3, 9, 12, …

Hadoop3教程(三十六):(生产调优篇)企业开发场景中的参数调优案例概述

文章目录 (170)企业开发场景案例HDFS参数调优MapReduce参数调优YARN参数调优执行程序 参考文献 (170)企业开发场景案例 这章仅做兴趣了解即可。 需求:从1G数据中,统计每个单词出现次数。服务器3台&#x…

【通览一百个大模型】Baize(UCSD)

【通览一百个大模型】Baize(UCSD) 作者:王嘉宁,本文章内容为原创,仓库链接:https://github.com/wjn1996/LLMs-NLP-Algo 订阅专栏【大模型&NLP&算法】可获得博主多年积累的全部NLP、大模型和算法干货…

Delphi 编程实现拖动排序并输出到文档

介绍:实现拖动排序功能,并将排序后的内容输出到文档中。我们将使用 Delphi 的组件来创建一个界面,其中包括一个 Memo 控件用于输入内容,一个 ListBox 控件用于显示排序后的内容,并且提供按钮来触发排序和输出操作。 代…

常用Win32 API的简单介绍

目录 前言: 控制控制台程序窗口的指令: system函数: COORD函数: GetStdHandle函数: GetConsoleCursorInfo函数: CONSOLE_CURSOR_INFO函数: SetConsoleCursorInfo函数: SetC…

docker自动构建jar镜像,自动发布最新镜像的简单shell脚本

使用docker自动构建spring boot jar,自动发布最新镜像的简单shell脚本。一般在docker上部署流程问为: 构建docker镜像 -> 停止旧版本 -> 杀掉旧版本 -> 部署最新镜像。 1、maven/mvd/gradle 打包spring boot jar 2、编写Dockerfile&#xff0c…

读书笔记:Effective C++ 2.0 版,条款37(不要重新定义继承而来的非虚函数)、条款38(不重新定义继承而来的缺省参数值)

条款37: 决不要重新定义继承而来的非虚函数 非虚函数在编译期静态绑定,容易出错。 概念上也不合适。 任何条件下都要禁止重新定义继承而来的非虚函数。 条款38: 决不要重新定义继承而来的缺省参数值 继承一个有缺省参数值的虚函数。 虚函数是动态绑定而缺省参数值是…

Java面试题-Java核心基础-第十一天(注解)

目录 一、注解是什么? 二、注解的作用? 三、Java中的内置注解有哪些? 四、如何自定义一个注解? 五、JDK8中的新特性 一、注解是什么? 注解就是一种可以标注在类、属性、方法、方法参数等结构上面的一种特殊“注释…

解决“您点击的链接已过期”;The Link You Followed Has Expired的问题

今天WP碰到一个坑。无论发布文章还是更新插件、更换主题都是这么一种状态“您点击的链接已过期”;The Link You Followed Has Expired 百度出来的答案都是修改post_max_size 方法1. 通过functions.php文件修复 这种方法更容易,只需将以下代码添加到Wor…

Flutter和SwiftUI比较

0.语言 SwiftUI 毫无疑问是Swift语言编写, 在2019年正式推出,目前最新是Swift 5.9 (2023年9月),由Apple公司维护和发行; 该编程语言发明人已离职Apple。 语言官网:https://developer.apple.com/swift/ 最好用Xcode编…

maven仓库改国内源

今天准备复现漏洞环境,发现太慢,需要配置国内源 file -> settings 搜索maven 修改settings.xml,这里的需要修改两个文件 1.上图的settings.xml文件 2.idea的maven模块 settings.xml文件将原来的注释掉,然后把阿里的添加上&…

【前端设计模式】之调停者模式(中介者模式)

调停者模式是一种行为设计模式,它通过引入一个调停者对象来集中处理一组对象之间的交互。调停者模式的目标是减少对象之间的直接通信,从而降低耦合度,并且使代码更易于维护和扩展。 调停者模式特性 将对象之间的通信集中在一个调停者对象中…

Web前端—Flex布局:标准流、浮动、Flex布局、综合案例(短视频首页解决方案)

版本说明 当前版本号[20231024]。 20231024初版 目录 文章目录 版本说明目录Flex布局01-标准流02-浮动基本使用产品区域布局HTML标签CSS样式 清除浮动场景搭建额外标签法单伪元素法双伪元素法overfow法 03-Flex布局Flex组成主轴对齐方式侧轴对齐方式修改主轴方向弹性伸缩比弹…

【Spring Cloud】seata分布式事务官方入门案例(导读2)

文章目录 1. 准备seata环境1.1. 生产环境启动seata1.2. 采用代码启动seata 2. 开始测试3. 附录3.1. 如果第一次配置seata压缩包3.2. 常见问题参考 本文是针对官方seata入门文章https://sca.aliyun.com/zh-cn/docs/2022.0.0.0/user-guide/seata/quick-start的 补充说明&#xf…

第3章 指令级并行及其利用

3.1 指令级并行:概念和挑战 1985年之后几乎所有处理器都使用流水线来使指令能重叠执行。由于指令可以并行执行,所有指令之间的这种可能得重叠称为指令级并行ILP。 ILP大体有两种实现方法: 1. 依靠硬件来动态发现并实现并行&#xf…

基于C语言 --- 自己写一个通讯录

C语言程序设计笔记---039 C语言之实现通讯录1、介绍C/C程序的内存开辟2、C语言实现通讯录2.1、ContactMain.c程序大纲2.2、Contact2.h2.3、Contact2.c2.3.1 InitContact( )初始化通讯录函数2.3.2 AddContact( )添加联系人和CheckCapaticy( )检查容量函数2.3.3、ShowContact( )显…

项目架构落地之需求分析(一)

目标 尽可能全面准确、全面、深入理解业务(5W2H)识别重难点业务理清业务流程和功能点识别非功能需求和质量约束 一.需求调研 派什么人: 懂业务头脑灵活懂技术擅长沟通业务经验多情商高 调研之前: 做功课假想系统 调研中&am…

常用Web安全扫描工具汇整

漏洞扫描是一种安全检测行为,更是一类重要的网络安全技术,它能够有效提高网络的安全性,而且漏洞扫描属于主动的防范措施,可以很好地避免黑客攻击行为,做到防患于未然。 1、AWVS Acunetix Web Vulnerability Scanner&a…

数据库Redis(一):基础知识

NoSQL数据库简介 NoSQL,Not only SQL,泛指非关系型的数据库,不依赖业务逻辑方式存储,而以简单的 key-value 模式存储,极大地增加了数据库的扩展能力。 1)不遵循SQL标准; 2)不支持A…

图书推荐管理系统Python+Django网页界面+协同过滤推荐算法

一、介绍 图书管理与推荐系统。使用Python作为主要开发语言。前端采用HTML、CSS、BootStrap等技术搭建界面结构,后端采用Django作为逻辑处理,通过Ajax等技术实现数据交互通信。在图书推荐方面使用经典的协同过滤算法作为推荐算法模块。主要功能有&#…