今日arXiv最热NLP大模型论文:韩国团队提出ResearchAgent系统,模仿人类产出论文idea

你是否还在苦于想发论文却没有idea?

在浩瀚无边的文献中苦苦寻找却又无从下手?

那些看似与你研究相关的文章,要么已经被人研究得透彻无比,要么与你的方向南辕北辙,让你倍感挫败。

图片

不要慌,让AI来助你一臂之力,从文献调研到发现问题,从制定研究方法到设计实验,AI都能为你提供全程的支持与指导。

(别划走,真不是广告)

这是韩国科学院最近的一篇工作,利用LLM构建了一个ResearchAgent系统,模仿人类产出论文idea的步骤,一步一步引导LLMs生成包括问题识别、方法开发和实验设计等在内的完整研究思路,同时,引入与人类偏好一致的Reviewing Agents,对生成的研究思路进行迭代优化。该方法生成的Idea在清晰性,相关性,原创性,可行性,重要性五大评估标准上都有不错的表现。

  GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):

https://hiclaude3.com

论文标题:
ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models

论文链接
https://arxiv.org/pdf/2404.07738.pdf

方法

1. 由LLM驱动的idea生成

一篇科学论文的idea产生包括三个系统步骤:发现问题、制定方法和设计实验,这构成了一个质疑、创新和验证的循环。因此本文的目标包括了这三个完整的步骤。

本文主要使用现有的文献作为主要来源,提供问题来源。设为文献,为由问题、方法和实验设计组成的idea,如下所示:,然后,idea生成模型可以表示为:,进一步分解为三个子模块步骤:用于问题发现,用于方法开发,用于实验设计

LLMs形式化:LLMs接受一系列tokens 作为输入,并生成一系列tokens作为输出,表示如下: ,其中是模型参数,是提示模板。

2. 知识增强的LLMs生成研究idea

本文通过将LLMs与任务特定模板相结合,将研究idea生成函数 实例化为LLM。形式上, 表示问题识别步骤,接着是  用于方法开发,以及  用于实验设计,这构成了完整的想法:。

2.1 文献综述

那么如何利用LLMs基于大量文献生成Idea呢? 由于其输入长度的限制和推理能力,不可能将所有现有文献  都纳入LLM输入中。因此,作者模仿人类研究人员的过程,通过查阅引用或被引用的其他论文来扩展对一篇论文的了解。

通过提供来自  的核心论文  来启动LLM的文献综述过程,然后有选择地纳入后续论文 。核心论文的选择及其相关引文的原则设计如下:

  1. 基于其引文计数(例如,在3个月内超过100次)选择核心论文,通常表示高影响力;

  2. 其相关论文(可能数量众多)根据其摘要与核心论文的相似性进一步缩小范围,确保更集中和相关的相关工作集。

尽管这种Idea生成方法简单直观,但它存在一个主要限制:它完全依赖于一组特定的论文(包括核心论文及其引文)。然而,科学知识并非仅局限于特定研究,而是在不同领域的众多文献中累积。一个Idea应当能够充分利用这种广泛、相互关联且相关的科学知识。

因此作者引入了实体增强知识之间的联系。

2.2 实体中心知识增强

为有效提取、存储和利用科学文献中的知识,本文将实体作为基本单元。通过实体链接方法,轻松地从论文中提取如“数据库”等术语,并统计其在知识存储库中的出现频率。例如,在分析不同学科时,发现“数据库”在医学中较常见,但在血液学中较少见。此时,知识存储机制便能发挥作用,基于共享实体捕捉领域间的相关性,并为血液学研究提供“数据库”等新颖跨学科见解。

知识库存储

作者将知识存储设计为一个二维矩阵 ,其中  表示所有唯一实体的总数, 以稀疏格式实现,以节省空间并提高计算效率。该知识库是通过提取文献中所有可用的科学文章的实体来构建的,它不仅计算单个论文中实体对之间的共现次数,而且还量化每个实体的出现次数。

为了进行实体提取,作者使用了一个现有的实体链接器EL来标记和规范化特定论文  的实体,形式化如下:,其中  表示出现在  中的实体的多重集(允许重复)。

在提取实体  后,将它们存储到知识存储  中,考虑所有可能的  对,表示如下:,其中 ,然后记录到  中。

实体增强idea生成

在给定知识存储 的基础上,下一步是利用一组相互关联的论文来增强基础研究idea的生成。表示如下:。

为了实现这一目标,将从知识存储中引入相关实体来丰富LLM的输入,从而扩展其可处理的上下文知识。这些实体虽然在当前论文组中未直接出现,但与其紧密相关,可通过分析中的实体共现信息来识别。

从相互关联的论文组中提取的实体如下:

然后,检索前  个相关外部实体的概率形式可以表示如下:

其中 ,且 。另外,为简单起见,通过应用贝叶斯规则并假设实体是独立的,检索操作(方程式 1)可以近似表示如下:

图片

其中 和  可以由二维矩阵中的值得到,并适当地归一化。

接下来,以实体为中心的相关知识增强的生成实例表示为:

下表展示了使用知识增强实例化LLM的模板(截取部分)。首先是基于论文信息与实体提炼出问题:

图片

然后基于研究问题理由定制方法:

图片

最后基于问题、方法设计实验:

图片

3 利用人类偏好对齐的LLM Agent 迭代Idea

一次性完成论文的撰写在现实中是不可能的,这也与人类逐步改进的写作习惯相悖。人们通常会在多次审稿和反馈中不断优化初稿。为此,作者提出了一种迭代增强策略,利用LLM驱动的Reviewing Agents按照特定标准提供审稿和反馈,从而验证并改进生成的idea。

具体来说,类似于上面使用LLM和模板(T)实例化Research  Agent的方法,这里也采用类似的方式来实例化Reviewing Agents,只不过这次使用的是不同的模板,如下表所示:

图片

随后,这些Reviewing Agents会根据它们各自设定的五个特定标准:Clarity、Relevance、Originality、Feasibility、Significance,对生成的idea(包括问题、方法和实验设计)分别进行独立评估,如下图所示。基于Reviewing Agents提供的审查和反馈,Research Agent将进一步更新和完善已生成的idea,以实现更高质量的研究输出。

图片

为了获取与人类一致的评估标准,作者收集了10对研究思路及其得分,每个标准均基于至少3篇人类研究人员的论文标注。随后,这些标注被用作样本,提示LLM归纳出反映人类偏好的详细描述作为评估标准。最终,这些标准将被应用于Reviewing Agents,并嵌入评估提示模板中,以提升评估过程与人类判断的契合度。

实验

1.数据来源

科学文献,通过Semantic Scholar Academic Graph API获取,优先选择那些引用次数超过20次的高影响力论文作为核心文献。从中随机抽取了300篇论文作为核心样本。这意味着将为每个模型生成并评估300个idea。统计数据显示,每篇核心论文平均引用87篇参考文献,而每篇论文的摘要中平均包含2.17个实体。下图展示了这些论文的学科分布,显示了跨学科的广泛覆盖范围。

图片

2. 基线模型

在这项工作中,鉴于Idea生成是一项新任务,并未发现现成的基线模型可供直接比较。因此,作者设计了几个消融变体,并将其与完整的ResearchAgent模型进行对比。以下是这些变体的简要描述:

  • Naive ResearchAgent:这个变体仅使用核心论文作为输入来生成Idea。它忽略了其他可能的信息来源,如相关参考文献或实体。

  • ResearchAgent w/o Entity Retrieval:此变体考虑了核心论文及其相关参考文献,但没有包含从论文中提取的实体信息。这意味着LLM在生成Idea时不会利用这些实体作为上下文或指导。

  • ResearchAgent(完整模型):结合了核心论文、相关参考文献以及从论文中提取的实体信息。

3. 评估设置

研究idea生成是一个新任务,没有 ground-truth来衡量生成的质量。此外,构建新的核心论文和idea对也不是最佳选择,因为每篇核心论文可能存在大量有效的Idea,而这个过程需要人类研究者投入大量时间、精力和专业知识。因此,作者采取基于模型的自动评估以及人类评估结合的方法,要求评估模型根据五大标准评价生成的idea,或者在不同模型生成的两个idea之间进行成对比较。

实验结果分析

主要结果

下图提供了关于人类和基于模型的评估得分的主要结果。这些结果表明,完整Research Agent在所有指标上都大幅优于所有基线。

图片

带有实体增强的Research Agent在创造力相关指标上实现了显著增长,(例如问题的独创性和方法的创新性)。这是因为实体可能引入新颖概念和观点,而这些在仅依赖论文组(核心论文及其参考文献)生成想法时可能难以察觉。

此外,作者报告了任何两个模型之间的成对比较结果报告,如下图所示,完整的ResearchAgent在其基线上显示出最高的胜率

图片

消融实验

标注者一致性的分析

为了确保人类标注的质量和可靠性,评估标注者的一致性,作者随机抽取了20%生成的idea,并由两名人类评估者进行评分。采用了两种评估方法:一是将每位标注者的分数进行排名,并计算两个标注者排名分数之间的Spearman相关系数,以衡量评分的一致性;二是作成对比较,计算了Cohen's kappa系数以评估他们在判断上的相似度。

如下表所示,测量结果显示标注者之间的一致性非常高,这验证了我们对生成的研究想法质量评估的可靠性。

另外,作者测量了基于人类和基于模型的评估之间的一致性,以确保基于模型的评估的可靠性。同样显示在下表中,进一步确认人类和模型之间的一致性很高,表明基于模型的评估是判断研究想法生成的一个合理替代方法。

图片

ReviewingAgents中迭代步骤是否有用?

作者报告了idea迭代步骤对效果的影响。如下图所示,随着步骤的增加,生成的idea的质量有所改善。然而,在三次迭代后,性能变得饱和。

图片

知识来源消融

本文提出的完整ResearchAgent增强了两种不同的知识来源,即相关参考文献和实体。为了查看每个知识来源的个体贡献,作者通过排除其中一个知识来源或将其替换为随机元素来进行消融研究。

图片

如上表所示,每个知识来源都有助于性能改进。此外,没有相关参考文献时性能显著下降,这证实了它们在生成高质量研究想法中的重要性。

分析评估中的人类对齐

为了将基于模型的评估结果与实际人类偏好对齐,作者使用GPT-4基于人类评估结果生成了评估标准,并将其用作基于模型的评估的标准。

图片

上图对比了人类评估与基于模型的评估(有无人类对齐)的分数分布。在没有进行人类对齐时,基于模型的评估分数分布呈现出倾斜现象,与人类判断的分数分布存在显著差异。然而,当评分标准对齐后,校准后的分数分布明显更接近人类的分布,显示出更高的准确性和一致性。这一结果证明了人类对齐在提升模型评估质量方面的重要性。

引文数量的相关性

作者深入探讨了高影响力论文作为核心论文时,是否有助于生成高质量的Idea。为验证这一点,依据引文数量将论文划分为三组,并基于模型评估在下图中展示了各组的平均分数。

图片

结果显示,高影响力论文通常能产生更高质量的思路

另外本文基于模型评估标准主要聚焦于计算机科学论文。为检验这些标准在不同领域的适用性,还比较了计算机科学论文与整体论文的得分相关性。结论是:无论哪个领域,得分均随引文数量增加而上升,这可能表明人类偏好驱动的评估标准具有泛化潜力

使用不同的LLMs

除了利用最强大的GPT-4模型,作者将ResearchAgent实例化为GPT-3.5。

图片

通过上表的基于模型评估结果,可以观察到,当使用性能稍逊的GPT-3.5时,ResearchAgent的性能出现了显著下降。

同时,值得注意的是,在没有知识增强的情况下,普通的ResearchAgent与完整ResearchAgent之间的性能差异变得微乎其微。

这些结果表明,GPT-3.5可能难以捕捉跨不同科学论文的复杂概念及其关系。这也是作者选择GPT-4作为ResearchAgent的原因。

结论

本文提出的ResearchAgent系统,模仿人类产出论文idea的步骤,一步一步增强LLMs生成包括问题识别、方法开发和实验设计等在内的完整研究思路,同时,引入多个与人类偏好一致的LLM驱动的ReviewingAgents,迭代优化生成的研究思路。

我们期待ResearchAgent能成为科研人员的得力助手,共同发掘激动人心的研究idea,加速科学研究过程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/4556.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

日期类的实现,const成员

目录 一&#xff1a;日期类实现 二&#xff1a;const成员 三&#xff1a;取地址及const取地址操作符重载 一&#xff1a;日期类实现 //头文件#include <iostream> using namespace std;class Date {friend ostream& operator<<(ostream& out, const Dat…

C语言中的三大循环

C语言中为我们提供了三种循环语句&#xff0c;今天我就来与诸君细谈其中之奥妙。循环这一板块总结的内容较多&#xff0c;而且&#xff0c;很重要&#xff01;&#xff08;敲黑板&#xff01;&#xff01;&#xff01;)&#xff0c;所以诸君一定要对此上心&#xff0c;耐住性子…

系统服务(22年国赛)—— nmcli命令部署VXLAN

前言&#xff1a;原文在我的博客网站中&#xff0c;持续更新数通、系统方面的知识&#xff0c;欢迎来访&#xff01; 系统服务&#xff08;22年国赛&#xff09;—— VXLAN服务部署https://myweb.myskillstree.cn/118.html 目录 题目&#xff1a; AppSrv 关闭防火墙和SEli…

Linux 双击sh脚本运行无反应或一闪而退【已解决】

这里写目录标题 一、问题描述二、解决思路1. 开启终端&#xff0c;使用命令行运行.sh脚本文件2. 终端中运行可以&#xff0c;但双击之后运行闪退 (遇到了个这个奇奇怪怪的问题) 三、分析记录3.1 .bashrc设置变量的作用域3.2 环境变量冲突覆盖问题. 四、相关知识点4.1 环境变量配…

CSS详解(一)

1、css工作中使用场景 美化网页&#xff08;文字样式、背景样式、边框样式、盒子模型、定位、动画、&#xff09;&#xff0c;布局页面&#xff08;flex布局、响应式布局、媒体查询&#xff09; 2、CSS 规则 通常由两个主要部分组成选择器和样式声明 2.1选择器 选择器指定了…

C语言-用二分法在一个有序数组中查找某个数字

1.题目描述 有15个数按由大到小顺序放在一个数组中&#xff0c;输入一个数&#xff0c;要求用折半查找法找出该数是数组中第几个元素的值。如果该数不在数组中&#xff0c;则输出“无此数” 二.思路分析 记录数组中左边第一个元素的下标为left&#xff0c;记录数组右边第一个…

Spring AI聊天功能开发

一、引入依赖 继承父版本的springboot依赖&#xff0c;最好是比较新的依赖。 <parent><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-parent</artifactId><version>3.2.4</version><relativePat…

【JavaScript】转化为布尔值boolean的几种情况

1 转化为布尔值boolean时为false的6种情况 下面6种值转化为布尔值时为false&#xff0c;其他转化都为true&#xff1a; 1、undefined2、null&#xff08;代表空值&#xff09;3、0&#xff08;数字0布尔值为false&#xff0c;字符串"0"布尔值为true) (数字0转布尔类…

C++笔试强训day10

目录 1.最长回文字符串 2.买卖股票的最好时机(一) 3.过河卒 1.最长回文字符串 链接 一开始没认真看题目&#xff0c;直到提交了好几遍没过还是没去检查题目&#xff0c;一直检查代码逻辑&#xff0c;哎呦&#xff0c;难受了。 我以为是收尾字母相同就行了。 错误代码&…

为什么二维数组初始化第一维数组长度可以为空,第二维不可以为空呢?

注意&#xff0c;数组第二维的长度声明永远不能省略。这是因为C语言中的二维数组元素在c编译程序为其分配的连续存储空间中是按行存放的&#xff0c;即存在完整第一行后存第二行&#xff0c;然后再第三行&#xff0c;以此类推。存放时系统必须知道每一行有多少个元素才能正确计…

一文讲解Android车载系统camera架构 - EVS

Android的camera开发中&#xff0c;使用最多的是camera2 以及现在Google主推的cameraX 架构&#xff0c;而这两个架构主要针对的是手机移动端上camera的流程。 而今天介绍的EVS(Exterior View System)架构是不同于camera2上的手机架构&#xff0c;针对Automotive的版本&#x…

软文伪原创工具有哪些,推荐3款强大的软文伪原创工具

软文作为一种重要的营销和传播手段&#xff0c;受到了越来越多的关注。而随着科技的不断发展&#xff0c;各种软文生产的工具相续出现&#xff0c;如&#xff1a;软文伪原创工具&#xff0c;它能为人们提供便捷、高效的文章生产方式&#xff0c;也及可以节省文章写作的时间与精…

车载系统的 加减串器应用示意

overview 车载系统上使用加减串器来实现camera&#xff0c; led液晶显示屏等 图像数据的远距离传输&#xff0c;将原先在短距离传输视频信号的mipi csi&#xff0c;dsi 等的TX&#xff0c;RX中间&#xff0c;插入加减串器&#xff0c;实现长距离的可靠传输。 示意图如下 往往…

Vue从入门到精通-01-Vue的介绍和vue-cli

MVVM模式 Model&#xff1a;负责数据存储 View&#xff1a;负责页面展示 View Model&#xff1a;负责业务逻辑处理&#xff08;比如Ajax请求等&#xff09;&#xff0c;对数据进行加工后交给视图展示 关于框架 为什么要学习流行框架 1、企业为了提高开发效率&#xff1a;…

图像处理:乘法滤波器(Multiplying Filter)和逆FFT位移

一、乘法滤波器&#xff08;Multiplying Filter&#xff09; 乘法滤波器是一种以像素值为权重的滤波器&#xff0c;它通过将滤波器的权重与图像的像素值相乘&#xff0c;来获得滤波后的像素值。具体地&#xff0c;假设乘法滤波器的权重为h(i,j)&#xff0c;图像的像素值为f(m,…

Cranck-Nicolson隐式方法解线性双曲型方程

Cranck-Nicolson隐式方法解线性双曲型方程 Cranck-Nicolson方法在抛物型方程里面比较常用&#xff0c;双曲型方程例子不多&#xff0c;该方法是二阶精度&#xff0c;无条件稳定&#xff0c;然而&#xff0c;数值震荡比较明显&#xff0c;特别是时间演化比较大以及courant数比较…

网工内推 | 云计算运维,厂商云相关认证优先,股票期权,全勤奖

01 国科科技 招聘岗位&#xff1a;云计算运维 职责描述&#xff1a; 1、负责私有云平台的运维管理工作,包括云平台日常运维、故障处理、扩容、版本升级、优化和维护等。 2、根据业务需求,从技术角度支持及配合各业务系统上云工作。 3、为云上业务系统提供云产品、云服务方面的…

python ERA5 画水汽通量散度图地图:风速风向矢量图、叠加等高线、色彩分级、添加shp文件、添加位置点及备注

动机 有个同事吧&#xff0c;写论文&#xff0c;让我帮忙出个图&#xff0c;就写了个代码&#xff0c;然后我的博客好久没更新了&#xff0c;就顺便贴上来了&#xff01; 很多人感兴趣风速的箭头怎样画&#xff0c;可能这种图使用 NCL 非常容易&#xff0c;很多没用过代码的小…

【idea】idea 中 git 分支多个提交合并一个提交到新的分支

一、方法原理讲解 我们在 dev 分支对不同的代码文件做了多次提交。现在我们想要把这些提交都合并到 test 分支。首先我们要明白四个 git 操作&#xff0c; commit&#xff1a;命令用于将你的代码变更保存到本地代码仓库中&#xff0c;它创建了一个新的提交&#xff08;commit…

idea的插件,反编译整个jar包

idea的插件&#xff0c;反编译整个jar包 1.安装插件1.1找到插件1.2 搜索插件 2.反编译整个jar包2.1 复制jar包到工件目录下&#xff1a;2.2 选中jar包&#xff0c;点出右键 3.不用插件&#xff0c;手动查看某一个java类3.1 选中jar包&#xff0c;点出右键 1.安装插件 1.1找到插…