2023年目标检测研究进展

综述

首先关于写这个笔记,我个人思考了很久关于以下几点。1:19年开始从做OCR用到图像和文本这种多模态联合处理的后,也就有意识的开始关注自然语言处理,这样的结果导致可能停留在前期图像上的学习和实践,停滞的研究如果在观点理解上有误希望大家给出可落地的建议,在此感谢。2:我是14年从数学建模应用实践开始入手在遥感,医学,自动驾驶,文字图像的底层原理研究及系统方向性探索。3:离散信息和连续信息处理目前这种编解码思路效果挺好,但是时效成本导致对普通人意义不大,只是谈资并非重大工程进展,科学对普通人影响需要很多年,工程就很直接了。4:我个人理解计算机视觉理论从成像原理,信号处理,数字图像处理,深度学习图像处理,通用人工智能图像处理,以后可能会在认知智能和具身智能上的突破需要的其实是一套软硬件联合发展系统认识方法论,工程化建模方法,生产力工具。所以该领域探索空间还是很大。5:近期看到未来科技大奖非常激动,这是对在人工智能领域探索的人一个高度肯定。只不过这在深度学习领域目前从全球来看,做出重大贡献的是华人“孙剑,何凯明,贾杨清,韩松,陈天奇”都算而不是一篇论文署名。有一个细节点很多外界资料忽视了,该奖那就是他们的成果都是在微软亚洲研究院工作和实习期间完成了并非大学,所以说大学就…。同时韩松老师其实非常强只是外行根本看不懂,他至今成功的将研究成果转为为公司卖掉两次了,同时目前在MIT。当然何凯明从去年听说要加入MIT,今年看已经落实了,纵观科学和产业界你可以不信大佬人品但永远不要怀疑大佬认知,MIT和Stanford及UCB还是现代科学巅峰殿堂。6:个人总结了下计算机视觉深度学习领域相关贡献内容是Alexnet(首次实现训练),VGGNet(首次实现并行),ResNet(首次实现了恒等映射),MoblieNet(首次实现了depthwise和pointwise研究),SENet(首次实现注意力),ViT(首次实现可训练编解码器)的backbone;FasterRCNN,YOLO,SSD,CornerNet,CenterNet,CascadeRCNN,RepPoints,DERT,QueryDet,DiffusionDet。7:未来探索应该还是图像和文本甚至语音之间方法互相借用从而在多模态上表达更好的实验效果和科学理论体系探索。8:芯片和操作系统在没有重大进步之前人工智能系统性理论性的革命工作暂时不会有更好的成就,这也应该是目前很多领域一流学者重回学术界的本质,其实曾经贝尔实验室的肖克利和他七个学生也是这样,才有了今天的英特尔,AMD,NVIDIA。

摘要

1:本文主要总结近两年的部分目标检测成果
2:本文通过这些研究给出学派发展方向参考
3:本文针对理论基础研究进行探索性的分析
4:个人目前相关工作内容的一些基本的介绍(命名实体识别,文献情报分析,摘要内容生成,亚像素图像处理,超分辨图像处理,编码器,解码器,生成器,判别器,基于加瓦罗定理与海涅定理的认知计算理论研究,基于多模态可编程异构的下一代芯片设计,互联式实时芯片操作系统)

Focus-DETR(ICCV2023)

论文地址:https://arxiv.org/abs/2307.12612
代码地址:https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR
在这里插入图片描述
1:阐明目前虽然取得很好效果但是存在的问题是编码器的计算负担太重
2:本文基于问题给出的解决方案和及参考的方法论文和工程化建模方法
3:基于方法本文相对稀疏编码取得更好效果的结论证明该方法有效性
在这里插入图片描述在这里插入图片描述
1:介绍了本文的核心贡献
2:实现细节的工程化方法
3:该方法的核心理论效果
4:证明了这种设计结果优势
在这里插入图片描述
在这里插入图片描述
1:对取得的结果进行定性分析和定理分析
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
前后景的可视化效果
在这里插入图片描述
总结:
1:该论文结果非常严密,说明作者学术功底不错,写作规范和用语标准说明语言表达能力卓越
2:dual attention能给出非常详尽的算法理论实现逻辑基础,说明该作者数理逻辑和论文建模水平很高
3:一篇论文一般从摘要,结论,方法,实验过程看系统性,完整性,有效性,这篇论文具体的代码工程我没复现过效果,但是有一点个人认为不足的就是文献引用部分,这部分看了下,如果从论文方法注意力部分,模型结构,这种结构特点看结合文献,文献引用较差。说明作者在该领域时间并不久,系统性构建研究方法论的水平还有提提升空间
4:以上内容是针对本文阅读理解初步认识,不代表任何论文本身价值,仅此致敬相关研究领域的研究人员。

RT-DERT

AlignDet

MonoDERT

Co-DERT

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/45589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微服务中间件--Ribbon负载均衡

Ribbon负载均衡 a.Ribbon负载均衡原理b.Ribbon负载均衡策略 (IRule)c.Ribbon的饥饿加载 a.Ribbon负载均衡原理 1.发起请求http://userservice/user/1,Ribbon拦截该请求 2.Ribbon通过EurekaServer拉取userservice 3.EurekaServer返回服务列表给Ribbon做负载均衡 …

bug记录:微信小程序 给button使用all: initial重置样式

场景:通过uniapp开发微信小程序 ,使用uview的u-popup弹窗,里面内嵌了一个原生button标签,因为微信小程序的button是有默认样式的,所以通过all: initial重置样式 。但是整个弹窗的点击事件都会被button上面的点击事件覆…

数据库结构差异对比工具

简介 前几年写了一个数据库对比工具,但是由于实现方式的原因,数据库支持有限,所以重新设计了一下,便于支持多种数据库,并且更新了UI。 新版地址:https://gitee.com/xgpxg/db-diff 旧版地址:h…

[K8s]问题描述:k8s拉起来的容器少了cuda的so文件

问题解决:需要设置Runtimes:nvidia的同时设置Default Runtimenvidia

NVIDIA Jetson 项目:机器人足球比赛

推荐:使用 NSDT场景编辑器 助你快速搭建可二次编辑器的3D应用场景 事实上,整个比赛都致力于这个想法。RoboCup小型联盟(SSL)视觉停电技术挑战赛鼓励团队“探索本地传感和处理,而不是非车载计算机和全球摄像机感知环境的…

go语言中channel类型

目录 一、什么是channel 二、为什么要有channel 三、channel操作使用 初始化 操作 单向channel 双向channel,可读可写 四、close下什么场景会出现panic 五、总结 一、什么是channel Channels are a typed conduit through which you can send and receive …

第6步---MySQL的控制流语句和窗口函数

第6步---MySQL的控制流语句和窗口函数 1.IF关键字 -- 控制流语句 SELECT IF(5>3,大于,小于);-- 会单独生成一列的 SELECT *,IF(score >90 , 优秀, 一般) 等级 FROM stu_score;-- IFNULL(expr1,expr2) SELECT id,name ,IFNULL(salary,0),dept_id FROM emp4;-- ISNULL() …

Java-类与对象(上)

什么是面向对象 Java是一门纯面向对象的语言(Object Oriented Program,简称OOP),在面向对象的世界里,一切皆为对象。 面向对象是解决问题的一种思想,主要依靠对象之间的交互完成一件事情。 以面向对象方式来进行处理,就…

CentOS 7重置root密码

CentOS 7 如何找回被您 遗忘得 root密码呢? 步骤如下: 步骤一:在开机出现如下界面的时候就按“e”键 步骤二:在步骤一按下”e”键之后,出现如下界面,按 ↓键一直到底部找到“LANGzh_CN.UTF-8”这句&…

【物联网无线通信技术】NFC从理论到实践(FM17XX)

NFC,全称是Near Field Communication,即“近场通信”,也叫“近距离无线通信”。NFC诞生于2004年,是基于RFID非接触式射频识别技术演变而来,由当时的龙头企业NXP(原飞利浦半导体)、诺基亚以及索尼联合发起。NFC采用13.5…

Excel VBA 复制除指定工作表外所有的工作表的内容到一张工作表中

当我们有一张表里面有很多sheet 具有相同的表结构,如果需要汇总到一张表中,那么我们可以借助VBA 去实现汇总自动化 Sub 复制所有工作表内容()Dim ws As WorksheetDim targetSheet As WorksheetDim lastRow As Long 设置目标表格,即要将所有…

XXL-JOB任务调度中心后台命令执行漏洞

漏洞描述 XXL-JOB任务调度中心后台存在命令执行漏洞,攻击者可在后台通过写入shell命令任务调度获取服务器控制权限 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守宪法法律,遵守公共秩序,尊重社会公德,不得利用网络从事危害国家安全、荣誉和利益,未经授权…

Linux Shell如果ping失败就重启网卡(详解)

直接上脚本 -------------------------------------------------------------------------- #vi /tmp/ping_check.sh #!/bin/bash IP="1.1.1.1" PacketLoss=`ping -c 4 -w 4 1.1.1.1 | grep packet loss | awk -F packet loss {print $1} | awk {print $NF}|se…

YOLOX算法调试记录

YOLOX是在YOLOv3基础上改进而来,具有与YOLOv5相媲美的性能,其模型结构如下: 由于博主只是要用YOLOX做对比试验,因此并不需要对模型的结构太过了解。 先前博主调试过YOLOv5,YOLOv7,YOLOv8,相比而言,YOLOX的环…

人工智能与云计算实训室建设方案

一、 人工智能与云计算系统概述 人工智能(Artificial Intelligence,简称AI)是一种模拟人类智能的科学和工程,通过使用计算机系统来模拟、扩展和增强人类的智能能力。人工智能涉及多个领域,包括机器学习、深度学习、自然…

css 文字排版-平铺

序: 1、表格的宽度要有!!!!! 2、容器不能是display:inline 3、扩展---》node全栈框架 代码 text-align-last: justify; width: 70px; display: inline-block; 主要是用于表单左侧文字排序!

H5: div与textarea输入框的交互(聚焦、失去焦点、键盘收起)

简介 本文是基于 VUE3TS 的代码说明。 记录自己遇到的 div 与 textarea 输入框交互的聚焦、失去焦点、键盘收起、表情插入不失去焦点的需求实现。 需求分析 1.固定在页面底部; 2.默认显示纯文字与发送图标按钮,文字超出的省略显示; 3.点击…

Verilog中的 条件语句\多路分支语句\循环语句

Verilog中的条件语句\多分支语句\循环语句 文章目录 Verilog中的条件语句\多分支语句\循环语句一、背景二、if-else2.1 标准结构2.2 例子 三、case-endcase3.1 标准结构3.2 例子3.2.1 三路选择器的case部分,如下:3.2.2 casez的四路选择器,如下…

OpenCV实例(九)基于深度学习的运动目标检测(二)YOLOv2概述

基于深度学习的运动目标检测(二)YOLOv2&YOLOv3概述 1.YOLOv2概述2.YOLOv3概述2.1 新的基础网络结构:2.2 采用多尺度预测机制。2.3 使用简单的逻辑回归进行分类 1.YOLOv2概述 对YOLO存在的不足,业界又推出了YOLOv2。YOLOv2主要…

宝藏级画图工具-drawio

今天推荐一款非常好用的免费开源画图工具drawio. Drawio即可以下载安装到本地,也可以在线编辑,在线编辑网址为 https://app.diagrams.net/。 本地版下载地址为https://github.com/jgraph/drawio-desktop/releases 1、支持各类图形 Drawio可以非常便捷…