ICLR 2024 杰出论文出炉:“大模型”成最大赢家

昨天,国际表征学习大会(International Conference on Learning Representations,ICLR)公布了 ICLR 2024 杰出论文。

图片

其中,在 5 篇杰出论文中,有 4 篇论文涉及大模型。另外,也有 11 篇论文获得荣誉提名。祝贺各位获奖者!

ICLR 是机器学习领域的一个学术会议,每年一次,通常在每年四月底或五月初举行。会议包括特邀演讲以及经评审论文的口头和海报展示。

ICLR 由 Yann LeCun(杨立昆)和 Yoshua Bengio 两位图灵奖得主创立,被学术研究者们广泛认可,被认为是“深度学习的顶级会议“。自 2013 年举办首届起,该会议一直采用开放式同行评审。

目前,ICLR 2024 正在奥地利维也纳举行(5 月 7 日 - 11 日)。

**杰出论文奖
**

论文1:Generalization in diffusion models arises from geometry-adaptive harmonic representations

作者:Zahra Kadkhodaie, Florentin Guth, Eero P Simoncelli, Stéphane Mallat

所属机构:纽约大学、Simons Foundation

论文链接:https://openreview.net/forum?id=ANvmVS2Yr0

获奖理由:这篇论文对图像扩散模型的泛化和记忆方面进行了重要的深入分析。作者根据经验研究了图像生成模型何时从记忆输入转换到泛化机制,并通过几何自适应谐波表征与谐波分析的思想建立联系,进一步从建筑归纳偏差的角度解释了这一现象。论文涵盖了我们对视觉生成模型理解中的一个关键缺失部分,很可能会对该领域未来的重要理论研究有所启发。

图片

论文2:Learning Interactive Real-World Simulators

作者:Sherry Yang, Yilun Du, Seyed Kamyar Seyed Ghasemipour, Jonathan Tompson, Leslie Pack Kaelbling, Dale Schuurmans, Pieter Abbeel

所属机构:UC 伯克利、Google DeepMind、MIT

论文链接:https://openreview.net/forum?id=sFyTZEqmUY

获奖理由:汇集多个来源的数据来训练机器人基础模型是一个长期的宏伟目标。由于不同的机器人具有不同的感知-运动界面,这阻碍了大规模数据集的训练,因此带来了巨大的挑战。这项名为“UniSim”的工作是朝着这个方向迈出的重要一步,也是一项工程壮举,它使用基于视觉感知和控制文字描述的统一界面来聚合数据,并利用视觉和语言领域的最新发展,从数据中训练机器人模拟器。

图片

图片

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

论文3:Never Train from Scratch: Fair Comparison of Long-Sequence Models Requires Data-Driven Priors

作者:Ido Amos, Jonathan Berant, Ankit Gupta

所属机构:特拉维夫大学、IBM

论文链接:https://openreview.net/forum?id=PdaPky8MUn

获奖理由:这篇论文深入探讨了最近提出的状态空间模型和 transformer 架构对长期顺序依赖关系的建模能力。令人惊讶的是,作者发现从头开始训练 transformer 模型会导致对其性能的低估,并证明通过预训练和微调设置可以获得巨大的收益。这篇论文执行得非常出色,在注重简洁性和系统性见解方面堪称典范。

图片

论文4:Protein Discovery with Discrete Walk-Jump Sampling

作者:Nathan C. Frey, Dan Berenberg, Karina Zadorozhny, Joseph Kleinhenz, Julien Lafrance-Vanasse, Isidro Hotzel, Yan Wu, Stephen Ra, Richard Bonneau, Kyunghyun Cho, Andreas Loukas, Vladimir Gligorijevic, Saeed Saremi

所属机构:Genentech

论文链接:https://openreview.net/forum?id=zMPHKOmQNb

获奖理由:这篇论文探讨了基于序列的抗体设计问题,这是蛋白质序列生成模型的一项及时而重要的应用。为此,作者提出了一种创新而有效的新建模方法,专门用于处理离散蛋白质序列数据的问题。除了在计算机上验证该方法外,作者还进行了大量湿实验室实验,在体外测量抗体结合亲和力,证明了其生成方法的有效性。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

论文5:Vision Transformers Need Registers

作者:Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski

所属机构:Meta、格勒诺布尔大学

论文链接:https://openreview.net/forum?id=2dnO3LLiJ1

获奖理由:这篇论文识别了视觉 transformer 网络特征图中的伪影(异常现象或错误),其特点是在低信息量背景区域中出现高规范 token。作者对出现这种情况的原因提出了关键假设,并提供了一个简单而优雅的解决方案,利用额外的寄存器 token 来解决这些伪像问题,从而提高模型在各种任务中的性能。从这项工作中获得的启示也会对其他应用领域产生影响。这篇论文写得非常好,提供了一个开展研究的绝佳范例——发现问题,了解问题发生的原因,然后提供解决方案。

图片

图片

杰出论文奖荣誉提名

此外,也有 11 篇论文获得荣誉提名,如下:

论文1:Amortizing intractable inference in large language models

作者:Edward J Hu, Moksh Jain, Eric Elmoznino, Younesse Kaddar, Guillaume Lajoie, Yoshua Bengio, Nikolay Malkin

论文链接:https://openreview.net/forum?id=Ouj6p4ca60

入选理由:这篇论文从贝叶斯推理的角度出发,提出了一种替代大型语言模型(LLM)自回归解码的可行方法,可为后续研究提供启发。

论文2:Approximating Nash Equilibria in Normal-Form Games via Stochastic Optimization

作者:Ian Gemp, Luke Marris, Georgios Piliouras

论文链接:https://openreview.net/forum?id=cc8h3I3V4E

入选理由:这篇论文写得非常清楚,在开发高效、可扩展的纳什求解器这一重要问题上取得了进展。

论文3:Beyond Weisfeiler-Lehman: A Quantitative Framework for GNN Expressiveness

作者:Bohang Zhang, Jingchu Gai, Yiheng Du, Qiwei Ye, Di He, Liwei Wang

论文链接:https://openreview.net/forum?id=HSKaGOi7Ar

入选理由:GNN 的表达性是一个重要课题,目前的解决方案(如 Weisfeiler-Lehman 检验)仍有很大的局限性。作者提出了一种基于同态计数的新“表现力理论”。

论文4:Flow Matching on General Geometries

作者:Ricky T. Q. Chen, Yaron Lipman

论文链接:https://openreview.net/forum?id=g7ohDlTITL

入选理由:这篇论文探讨了在一般几何流形上建立生成模型这一具有挑战性的重要问题,并为此提出了一种实用高效的算法。这篇论文的表述非常出色,并在广泛的任务中进行了全面的实验验证。

论文5:Is ImageNet worth 1 video? Learning strong image encoders from 1 long unlabelled video

作者:Shashanka Venkataramanan, Mamshad Nayeem Rizve, Joao Carreira, Yuki M Asano, Yannis Avrithis

论文链接:https://openreview.net/forum?id=Yen1lGns2o

入选理由:这篇论文通过从连续视频中学习,提出了一条自监督图像预训练的新途径。这篇论文既提供了新型数据,也提供了从新型数据中学习的方法。

论文6:Meta Continual Learning Revisited: Implicitly Enhancing Online Hessian Approximation via Variance Reduction

作者:Yichen Wu, Long-Kai Huang, Renzhen Wang, Deyu Meng, Ying Wei

论文链接:https://openreview.net/forum?id=TpD2aG1h0D

入选理由:作者针对元持续学习提出了一种新的方差缩小方法。该方法表述清晰,不仅具有实际影响,而且有遗憾分析作为支持。

论文7:Model Tells You What to Discard: Adaptive KV Cache Compression for LLMs

作者:Suyu Ge, Yunan Zhang, Liyuan Liu, Minjia Zhang, Jiawei Han, Jianfeng Gao

论文链接:https://openreview.net/forum?id=uNrFpDPMyo

入选理由:这篇论文针对对基于 transformer 的 LLM 有重大影响的关键 KV 高速缓存压缩问题,采用一种无需资源密集型微调或重新训练即可部署的简单方法来减少内存。这种方法非常简单,但却证明相当有效。

论文8:Proving Test Set Contamination in Black-Box Language Models

作者:Yonatan Oren, Nicole Meister, Niladri S. Chatterji, Faisal Ladhak, Tatsunori Hashimoto

论文链接:https://openreview.net/forum?id=KS8mIvetg2

入选理由:一种简单而优雅的方法,用于测试 LLM 训练中是否包含了监督学习数据集。

论文9:Robust agents learn causal world models

作者:Jonathan Richens, Tom Everitt

论文链接:https://openreview.net/forum?id=pOoKI3ouv1

入选理由:这篇论文在为理解因果推理在智能体向新领域推广能力中的作用奠定理论基础方面取得了进展,并对一系列相关领域产生了潜在影响。

论文10:The mechanistic basis of data dependence and abrupt learning in an in-context classification task

作者:Gautam Reddy

论文链接:https://openreview.net/forum?id=aN4Jf6Cx69

入选理由:在我们刚刚开始了解“上下文学习”与“权重学习”时,这篇论文及时地、非常系统地研究了这些现象背后的机理。

论文11:Towards a statistical theory of data selection under weak supervision

作者:Germain Kolossov, Andrea Montanari, Pulkit Tandon

论文链接:https://openreview.net/forum?id=HhfcNgQn6p

入选理由:这篇论文为数据子集选择奠定了统计基础,并指出了流行数据选择方法的不足之处。

参考链接:

https://blog.iclr.cc/2024/05/06/iclr-2024-outstanding-paper-awards/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/8169.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux学习之高级IO

之前的内容我们基本掌握了基础IO,如套接字,文件描述符,重定向,缓冲区等知识都是文的基本认识,而高级IO则是指更加高效的IO。 对于应用层,在读写的时候,本质就是把数据写给OS,若一方…

从互联网医院源码到搭建:开发视频问诊小程序的技术解析

如今,视频问诊小程序作为医疗服务的一种新形式,正逐渐受到人们的关注和青睐。今天,小编将为您详解视频问诊小程序的开发流程。 一、背景介绍 互联网医院源码是视频问诊小程序开发的基础,它提供了一套完整的医疗服务系统框架&…

zlib编译后静态库调用时遇到的无法解析的外部符号问题

编译zlib的静态库后引用到项目中使用,发现报下面的链接错误: error LNK2019: 无法解析的外部符号 _zlibVersion error LNK2019: 无法解析的外部符号 _deflateEnd error LNK2019: 无法解析的外部符号 _deflate error LNK2019: 无法解析的外部符号 _deflat…

【Linux 性能详解】CPU性能篇

目录 平均负载(Load Average) CPU上下文切换 进程上下文切换 线程上下文切换 中断上下文切换 中断 硬中断 软中断 CPU使用率 性能分析工具 平均负载(Load Average) 平均负载?这个词对很多人来说&#xff0c…

构建第一个ArkTS应用之@AppStorage:应用全局的UI状态存储

AppStorage是应用全局的UI状态存储,是和应用的进程绑定的,由UI框架在应用程序启动时创建,为应用程序UI状态属性提供中央存储。 和AppStorage不同的是,LocalStorage是页面级的,通常应用于页面内的数据共享。而AppStora…

中国护照照片尺寸分辨率要求及居家自拍制作教程

经常出国的小伙伴都知道,护照照片作为出国旅行的重要身份证明文件,其规格和质量要求非常严格。本文将详细介绍中国护照照片的具体要求,并提供一些实用的居家自拍技巧,帮助您轻松拍出符合规定的护照照片(手机和相机居家…

革新品质检测,质构科技重塑肉类行业新篇章

革新品质检测,质构科技重塑肉类行业新篇章 在现代社会,消费者对食品安全和品质的要求日益提升,特别是在肉类行业。为了满足这一市场需求,质构科技凭借其精准、高效的优势,正逐渐成为肉类品质检测的新星。今天&#xf…

QT-TCP通信

网上的资料太过于书面化,所以看起来有的让人云里雾里,看不懂C-tcpsockt和S-tcpsocket的关系 所以我稍微画了一下草图帮助大家理解两个套接字之间的关系。字迹有的飘逸勉强看看 下面是代码 服务端: MainWindow::MainWindow(QWidget *parent) …

windows10打印机共享完美解决方案

提到文件共享大家并不陌生,相关的还有打印机共享,这个多见于单位、复印部,在一个区域网里多台电脑共用一台打印机,打印资料非常方便,就包括在家里,我们现在一般都会有多台电脑或设备,通过家庭网络联接,如果共享一台打印机的话也是件便捷的事。 但是随着操作系统的更新…

web前端框架设计第八课-表单控件绑定

web前端框架设计第八课-表单控件绑定 一.预习笔记 1.v-model实现表单数据双向绑定 2.搜索数据的实现 3.全选案例实现1—JQ方法 4.单选案例实现 二.课堂笔记 三.课后回顾 –行动是治愈恐惧的良药,犹豫拖延将不断滋养恐惧

如何阅读:一个已被证实的低投入高回报的学习方法的笔记

系列文章目录 如何有效阅读一本书笔记 如何阅读:一个已被证实的低投入高回报的学习方法 麦肯锡精英高效阅读法笔记 读懂一本书笔记 文章目录 系列文章目录第一章 扫清阅读障碍破解读不快、读不进去的谜题一切为了阅读小学教师让你做,但中学老师阻止你做的…

快速搭建webase-front并且部署合约

PS: 因为我开发时候要用到fisco和webase-front,避免官方文档粘贴, 因此直接整理下面的笔记。开发的时候,好粘贴。1.搭建4节点联盟链 前提 curl 一种命令行工具 apt install -y openssl curl创建操作目录, 下载安装脚本 cd ~ && mkdir -p fisco && cd fisco…

【京东电商API接口】 | 京东某商品销量数据分析可视化

Python当打之年 当打之年,专注于各领域Python技术,量的积累,质的飞跃。后台回复:【可视化项目源码】可获取可视化系列文章源码和数据 本期将利用Python分析「京东商品数据接口」,希望对大家有所帮助,如有疑…

Quartz怎么简单创建一个定时执行的任务

1.安装Quartz包 2.编写Job任务 继承 IJob编辑自定义任务 3.调用job,以指定时间策略执行 定时600s执行一次 StdSchedulerFactory factory new StdSchedulerFactory(); IScheduler scheduler await factory.GetScheduler(); await scheduler.Start();// 定义…

带你快速掌握Spring Task

Spring Task ⭐Spring Task 是Spirng框架提供的任务调度工具,可以按照约定的时间自动执行某个代码逻辑 📌一款定时任务框架 应用场景 信用卡信息银行贷款信息火车票信息 只要是需要定时处理的场景都可以使用Spring Task 只要有定时,就会有…

用js代码实现贪吃蛇小游戏

js已经学了大部分了,现在就利用我所学的js知识试试做贪吃蛇小游戏吧 以下部分相关图片以及思路笔记均出自渡一陈老师的视频 首先制作简单的静态页面,添加贪吃蛇移动的背景和相关图片,比如开始游戏等等 将各个功能均封装在函数中&#xff0…

react【实用教程】 搭建开发环境(2024版)Vite+React (官方推荐)

以项目名 reactDemo为例 1. 下载脚手架 在目标文件夹中打开命令行 npm create vite2. 安装项目依赖 cd reactDemo npm i若安装失败,则修改下载源重试 npm config set registry https://registry.npmmirror.com3. 启动项目 npm run dev4. 预览项目 浏览器访问 http…

iPhone 数据恢复软件 – 恢复丢失的 iPhone 数据

恢复丢失的 iPhone 数据,奇客数据恢复iPhone版。如今的 iPhone 用户在他们的设备上存储了大量数据,从照片和与亲人的文本对话到商业和医疗信息。其中一些是保密的;其中大部分内容都是非常个人化的;而且大多数一旦丢失就无法替代。…

vmware虚拟机内删除文件后宿主机空间不释放

问题描述 linux下,vmware内虚拟机删除文件,宿主机空间不释放,D盘快满了 解决方法 通过vmware-toolbox进行空间回收 安装 在虚拟机内操作 yum install -y open-vm-tools 清理 在虚拟机内操作 #查看磁盘的挂载点 sudo /usr/bin/vmware…

Agent AI智能体:塑造未来社会的智慧力量

🔥 个人主页:空白诗 文章目录 🤖 Agent AI智能体:塑造未来社会的智慧力量🎯 引言🌱 智能体的未来角色预览💼 行业革新者🌟 创意合作者🛡️ 公共安全与环保🚀 …