MIT的研究人员最近开发了一种名为“FeatUp”的新算法,这一突破性技术为计算机视觉领域带来了高分辨率的洞察力

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

想象一下,你短暂地注视着繁忙的街道,然后试图根据记忆绘制你所看到的场景。大多数人能够大致绘制出车辆、人和斑马线等主要物体的位置,但几乎没有人能够以像素级完美的精度绘制出每一个细节。对于大多数现代计算机视觉算法来说,情况也是如此:它们擅长捕捉场景的高层次细节,但在处理信息时会丢失细粒度的细节。

现在,麻省理工学院(MIT)的研究人员创建了一个名为“FeatUp”的系统,允许算法同时捕获场景的高层次和低层次细节——几乎就像是计算机视觉的Lasik眼科手术。

当计算机通过查看图像和视频学会“看”时,它们通过所谓的“特征”构建对场景中物体的“理念”。为了创建这些特征,深度网络和视觉基础模型将图像分解成一个个小方格,并将这些方格作为一个组处理,以确定照片中正在发生的事情。每个小方格通常由16到32个像素组成,因此这些算法的分辨率远小于它们处理的图像。在试图总结和理解照片时,算法会丢失大量的像素清晰度。

FeatUp算法可以阻止这种信息损失,并提升任何深度网络的分辨率,而不会影响速度或质量。这使研究人员能够快速轻松地提高任何新的或现有算法的分辨率。例如,尝试解释肺癌检测算法的预测,目标是定位肿瘤。在使用类似类激活映射(CAM)的方法解释算法之前应用FeatUp,可以显著更详细地(16-32倍)查看模型可能定位的肿瘤位置。

FeatUp不仅帮助从业者理解他们的模型,而且还可以改善各种不同的任务,如物体检测、语义分割(为图像中的像素与对象标签赋予标签)和深度估计。通过提供更准确的高分辨率特征,它实现了这一点,这些特征对于构建从自动驾驶到医学成像的视觉应用至关重要。

“所有计算机视觉的本质都在于这些从深度学习架构的深处涌现出的深刻、智能的特征。现代算法的一大挑战是它们将大型图像缩小为非常小的‘智能’特征网格,获得智能洞察但失去更细微的细节,”麻省理工学院电气工程与计算机科学博士生、MIT计算机科学与人工智能实验室(CSAIL)附属成员,以及该项目论文共同首席作者之一的Mark Hamilton说。“FeatUp帮助实现了两全其美的情况:具有原始图像分辨率的高度智能表现。这些高分辨率特征显著提高了从增强物体检测到改善深度预测的一系列计算机视觉任务的性能,通过高分辨率分析提供了对网络决策过程的更深入理解。”

团队指出,PyTorch中可用的标准工具无法满足他们的需求,并在他们寻求快速有效解决方案的过程中引入了一种新类型的深度网络层。他们的自定义层,一种特殊的联合双边上采样操作,在PyTorch中的朴素实现中效率提高了100倍以上。团队还展示了这个新层可以改进包括语义分割和深度预测在内的多种不同算法。这一层提高了网络处理和理解高分辨率细节的能力,给任何使用它的算法带来了显著的性能提升。

“另一个应用是所谓的小物体检索,我们的算法允许精确定位物体。例如,在杂乱的道路场景中,通过FeatUp丰富的算法可以看到微小物体,如交通锥、反光器、灯和坑洞,而它们的低分辨率同类则失败了。这展示了它将粗糙特征增强为精细信号的能力,”加利福尼亚大学伯克利分校的博士生Stephanie Fu '22, MNG '23,也是新FeatUp论文的另一位共同首席作者说。“这对于时间敏感的任务尤为关键,如在杂乱的高速公路上定位交通标志。这不仅可以通过将广泛的猜测转化为精确的定位来提高这类任务的准确性,而且可能还会使这些系统更可靠、可解释和值得信赖。”

社区及其它领域内的潜在广泛应用,类似于数据增强实践。“目标是将这种方法作为深度学习中的基本工具,丰富模型以更细致的细节感知世界,而不会带来传统高分辨率处理的计算效率低下,”Fu说。

“FeatUp代表了向着使视觉表示真正有用迈出的美妙进步,通过以完整图像分辨率产生它们,”康奈尔大学计算机科学教授Noah Snavely说,他没有参与这项研究。“在过去几年中,学习到的视觉表示变得非常好,但它们几乎总是以非常低的分辨率产生——你可能会输入一个漂亮的全分辨率照片,然后得到一个微小的、邮票大小的特征网格。如果你想在产生全分辨率输出的应用中使用这些特征,这就是一个问题。FeatUp以一种创造性的方式解决了这个问题,将超分辨率中的经典想法与现代学习方法相结合,产生了美丽的、高分辨率的特征图。”

“我们希望这个简单的想法可以有广泛的应用。它提供了我们之前认为只能是低分辨率的图像分析的高分辨率版本,”麻省理工学院电气工程与计算机科学教授、CSAIL成员的高级作者William T. Freeman说。

首席作者Fu和Hamilton与麻省理工学院的博士生Laura Brandt SM '21、Axel Feldmann SM '21以及Zhoutong Zhang SM '21, PhD '22一起,他们都是MIT CSAIL的现任或前任成员。他们的研究部分得到了国家科学基金会研究生奖学金、国家科学基金会和国家情报总监办公室的支持,以及美国空军研究实验室和美国空军人工智能加速器的支持。该小组将在5月份的国际学习表示会议上展示他们的工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/761982.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IIS7/iis8/iis10安装II6兼容模块 以windows2022为例

因安全狗的提示 安全狗防护引|擎安装失败 可能原因是: IIS7及以上版本末安装1IS6兼容模块! .所以操作解决 如下. 在开始菜单中,找到服务器管理器.找到下图的IIS,右键添加角色和功能,找到web服务器的管理工具选项,iis6管理兼容性 打钩并安装. 如下图

【RPG Maker MV 仿新仙剑 战斗场景UI (六)】

RPG Maker MV 仿新仙剑 战斗场景UI 六 法术战斗窗口代码仿新仙剑效果 法术战斗窗口 这次来水点内容 由于之前已经做过了仿新仙剑的法术及物品窗口因此本次两篇内容,就来水点内容!!! 由于帮助窗口之前已经做过,因此直接…

知识蒸馏——深度学习的简化之道 !!

文章目录 前言 1、什么是知识蒸馏 2、知识蒸馏的原理 3、知识蒸馏的架构 4、应用 结论 前言 在深度学习的世界里,大型神经网络因其出色的性能和准确性而备受青睐。然而,这些网络通常包含数百万甚至数十亿个参数,使得它们在资源受限的环境下&…

【ubuntu20.04+tensorflow-gpu1.14配置】

ubuntu20.04tensorflow-gpu1.14配置 目录0. 版本注意事项说明1. 个人目录下载后配置系统环境变量2. anaconda配置所有环境(过程简便,但容易出现不兼容问题)3. 验证tensorflow-gpu4. 一些细节 目录 总结出两种方法 个人目录 下载cuda和cudnn…

评论家:大型语言模型可以通过工具交互式批评进行自我修正(ICLR2024)

1、写作动机: 大语言模型有时会显示不一致性和问题行为,例如产生幻觉事实、生成有缺陷的代码或创建令人反感和有毒的内容。与这些模型不同,人类通常利用外部工具来交叉检查和改进他们的初始内容,比如使用搜索引擎进行事实检查&am…

【评分标准】【网络系统管理】2019年全国职业技能大赛高职组计算机网络应用赛项H卷 无线网络勘测设计

第一部分:无线网络勘测设计评分标准 序号评分项评分细项评分点说明评分方式分值1点位设计图AP编号AP编号符合“AP型号位置编号”完全匹配5AP型号独立办公室、小型会议室选用WALL AP110完全匹配5员工寝室选用智分,其他用放装完全匹配5其它区域选用放装AP…

Eureka的介绍和作用,以及搭建

一、Eureka的介绍和作用 Eureka是Netflix开源的一种服务发现和注册工具,它为分布式系统中的服务提供了可靠的服务发现和故障转移能力。Eureka是Netflix的微服务架构的关键组件之一,它能够实时地监测和管理服务实例的状态和可用性。 在Eureka架构中&…

O2OA(翱途)开发平台前端安全配置建议(一)

O2OA开发平台是一个集成了多种功能的开发环境,前端安全在其中显得尤为重要。前端是用户与平台交互的直接界面,任何安全漏洞都可能被恶意用户利用,导致用户数据泄露、非法操作或系统被攻击。因此,前端安全是确保整个系统安全的第一…

关于汽车中网改装需要报备吗?(第二天)

车联网改造需要申报吗? 今天2022年10月20日,小编就给大家介绍一下车联网改装是否需要申报的相关知识。 让我们来看看。 汽车格栅改装无需申报。 这种年检可以直接通过。 您不必担心,因为汽车格栅对于实车的外观来说并不陌生,因此…

ElasticSearch使用(一)

文章目录 一、简介1. 数据类型2. 倒排索引3. Lucene4. ElasticSearch5. Solar VS ElasticSearch 二、ElasticSearch入门1. 简介2. 分词器3. 索引操作4. 文档操作5. ES文档批量操作 二、ElasticSearch的DSL1. 文档映射Mapping2. Index Template3. DSL 一、简介 1. 数据类型 结…

docker搭建kafka

1、docker直接拉取kafka和zookeeper的镜像 docker pull wurstmeister/kafka docker pull wurstmeister/zookeeper 2、首先需要启动zookeeper,如果不先启动,启动kafka没有地方注册消息 10.10.0.67内网ipdocker run -it --name zookeeper -p 9140:2181 -…

【保姆级教程】YOLOv8_Seg实例分割:训练自己的数据集

一、YOLOV8环境准备 1.1 下载安装最新的YOLOv8代码 仓库地址: https://github.com/ultralytics/ultralytics1.2 配置环境 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple二、数据准备 2.1 安装labelme标注软件 pip install label…

转置卷积(transposed-conv)

一、什么是转置卷积 1、转置卷积的背景 通常,对图像进行多次卷积运算后,特征图的尺寸会不断缩小。而对于某些特定任务 (如图像分割和图像生成等),需将图像恢复到原尺寸再操作。这个将图像由小分辨率映射到大分辨率的尺寸恢复操作&#xff0c…

Vue.js前端开发零基础教学(三)

目录 2.6 计算属性 2.7侦听器 2.8 样式绑定 2.8.1 绑定class属性 2.8.2 绑定style属性 2.9 阶段案例——学习计划表 2.6 计算属性 概念:Vue提供了计算属性来描述依赖响应式数据的复杂逻辑。 计算属性可以实时监听数据的变化,返回一个计算…

html5cssjs代码 033 SVG元素示例

html5&css&js代码 033 SVG元素示例 一、代码二、解释 一个SVG图形&#xff0c;该图形由一个椭圆、一个圆形和一个矩形组成。 一、代码 <!DOCTYPE html> <html lang"zh-cn"> <head><title>编程笔记 html5&css&js SVG元素示例…

阿里云2024最新优惠:WoSign SSL证书首购4折

阿里云SSL证书 2024 最新优惠来啦&#xff01;阿里云SSL证书新用户&#xff0c;wosign SSL证书低至4折&#xff0c;WoSign SSL提供全球信任RSA SSL证书和国密算法SM2 SSL证书&#xff01;阿里云官网官方优惠&#xff0c;需要开年采购SSL证书的用户抓紧申请这波优惠&#xff01;…

C语言 swab 函数学习

swab函数交换字符串中相邻两个字节&#xff1b; void _swab( char *src, char *dest, int n ); char *src&#xff1a; 要拷贝、转换的字符串&#xff0c; char *dest&#xff0c;转换后存储到dest所表示的字符串&#xff0c; int n要拷贝、转换的字节数&#xff1b; 所…

uni-app纵向步骤条

分享一下项目中自封装的步骤条&#xff0c;存个档~ 1. 话不多说&#xff0c;先看效果 2. 话还不多说&#xff0c;上代码 <template><!-- 获取一个数组&#xff0c;结构为[{nodeName:"流程发起"isAudit:falsetime:"2024-02-04 14:27:35"otherDat…

好用的GPTs:指定主题搜索、爬虫、数据清洗、数据分析自动化

好用的GPTs&#xff1a;指定主题搜索、爬虫、数据清洗、数据分析自动化 Scholar&#xff1a;搜索 YOLO小目标医学方面最新论文Scraper&#xff1a;爬虫自动化数据清洗数据分析 点击 Explore GPTs&#xff1a; Scholar&#xff1a;搜索 YOLO小目标医学方面最新论文 搜索 Scho…

BI让数据分析不在困难,分解企业数据分析流程

一、数据培养 数据分析最关键的是什么&#xff1f;其实从名字上就可以看出来&#xff0c;数据是一切的关键&#xff0c;没有数据的话数据分析从何谈起呢。但数据的积累不是一天两天就能成功的&#xff0c;企业的一定要有培养数据的意识&#xff0c;在业务活动中沉淀数据&#…