Nat. Mach. Intell. | 预测人工智能的未来:在指数级增长的知识网络中使用基于机器学习的链接预测

今天为大家介绍的是来自Mario Krenn团队的一篇论文。一个能够通过从科学文献中获取洞见来建议新的个性化研究方向和想法的工具,可以加速科学的进步。一个可能受益于这种工具的领域是人工智能(AI)研究,近年来科学出版物的数量呈指数级增长,这使得人类研究者难以跟上进展。在这里,作者使用AI技术来预测AI自身的未来研究方向。

1d632b39e5b492f99275751b79a2d7bc.png

科学文献的语料库以越来越快的速度增长。特别是在人工智能(AI)和机器学习(ML)领域,每个月的论文数量都在以大约23个月翻一番的速度指数级增长(见图1)。同时,AI社区正在吸纳来自数学、统计学和物理学等多个学科的多样化思想,这使得组织不同的想法和发现新的科学联系变得更具挑战性。作者设想一个计算机程序可以自动阅读、理解并对AI文献采取行动。它可以预测并提出超越个人知识和跨领域界限的有意义研究想法。如果成功,它可以极大地提高AI研究人员的生产力,开辟新的研究途径,并帮助推动该领域的进步。在这项工作中,作者着手实现通过数据驱动方法预测未来研究方向。由于新的研究想法往往来自于看似不相关概念的连接,作者将AI文献的演化模拟为一个时间网络。

1c34602c533a6828612a0975c054d21c.png
图 1

语义网络

语义网络的目标是从科学文献中提取知识,随后可以由计算机算法处理。乍看之下,这个流程的第一步可能是使用大型语言模型对每篇文章进行处理,自动提取概念及其关系。然而,这些方法在推理能力上仍然存在困难;因此,目前还不清楚这些模型如何用于识别和建议新的想法和概念组合。研究人员开创了一种替代方法,在生物化学中从科学论文中共现的概念创建语义网络。在那里,节点代表科学概念,特别是生物分子,并且当论文在其标题或摘要中提及两者时就会被链接。这个不断演化的网络捕捉了该领域的历史,并使用超级计算机模拟,提供了对科学家集体行为的洞察,并建议了更有效的研究策略。尽管从概念共现中创建语义网络只从每篇论文中提取了少量知识,但当应用于大型数据集时,它捕捉到了有意义且可操作的内容。PaperRobot通过从大型医学知识图中预测新链接,并以人类语言形式制定新想法作为论文草案,扩展了这一方法。这种方法被应用并扩展到量子物理学,通过构建一个包含6,000多个概念的语义网络。研究人员将新研究趋势和联系的预测形式化为一个ML任务,目标是识别文献中尚未共同讨论但可能在未来被调查的概念对。这个预测任务是为个性化建议新研究想法的一个组成部分。

作者将未来研究主题的预测形式化为人工智能领域中一个指数级增长的语义网络中的链接预测任务。目标是预测未来哪些尚未连接的节点,代表尚未共同研究的科学概念,将会被连接起来。链接预测在计算机科学中是一个常见问题,通过经典的度量和特征以及机器学习技术来解决。在语义网络中对研究方向进行预测的目标是向研究者提供新的想法。在某种程度上,作者希望建立一个在科学上有创造力的人工缪斯。除此之外,还可以偏向或约束模型,以提供与个别科学家的研究兴趣相关的主题建议,或者为两位科学家的跨学科合作提供合作主题。

数据的来源

f1979ffcf6a4ea8c563c8b3e517d5d78.png
图 2 

b1148850f2f5cc3dc7b13e195be096cd.png
图 3

5dbab8aa5c21b785f407b528e8f7d1e1.png
图 4

9a0e65c77f8805be39570b980d8e20ca.png
图 5

作者使用1992年到2020年在arXiv上发布的论文,在类别cs.AI、cs.LG、cs.NE和stat.ML中,创建了一个动态的语义网络。64,719个节点代表从143,000篇论文标题和摘要中提取的AI概念,这些概念是通过快速自动关键词提取(RAKE)获取的,并通过自然语言处理(NLP)技术和自定义方法进行了规范化。作者的目标是构建一个可扩展的方法,适用于任何科学领域。概念形成语义网络的节点,当概念在论文标题或摘要中共现时就会画出相互连接的边。边有基于论文发表日期的时间戳属性,常见的是概念之间有多个时间戳的边。网络是加权的,边的权重代表连接两个概念的论文数量。总的来说,这创建了一个随时间演化的语义网络,如图2所示。发布的语义网络有64,719个节点和17,892,352个独特的无向边,平均节点度为553。许多中心节点的度远远超过这个平均值,如图3所示。观察到随时间网络连通性的变化。尽管度分布仍然是重尾的,但由于流行趋势的影响,尾部内的节点顺序发生了变化。最具连接性的节点以及它们成为这样的年份包括决策树(1994年)、机器学习(1996年)、逻辑程序(2000年)、神经网络(2005年)、实验结果(2011年)、机器学习(2013年,第二次)和神经网络(2015年)。图4中的连通分量分析显示,网络随着时间的推移变得更加连通,最大的研究群体扩大了,而网络整体的连通分量的数量减少了。语义网络揭示了随时间的增加中心化,百分比更小的节点(概念)贡献了更大的边缘(概念组合)部分,如图5显示。这可能是由于AI社区对少数主导方法越来越关注,或者对术语使用的更一致。

实验部分

fc337fc6b2197798a6dc8788010427b9.png
图 6

作者展示了预测语义网络中新链接(基于2020年前的数据训练,预测2021年的研究)的各种方法,范围从纯统计学方法到带有手工制作特征(NF)的神经网络,再到不含NF的机器学习(ML)模型。结果显示在图6中,使用NF作为ML模型输入的方法获得了最高的AUC分数。没有ML的纯网络特征也具有竞争力,而纯ML方法尚未胜过那些带有NF的方法。预测至少产生三次的网络链接可以达到AUC > 0.995。

结论

作者的方法代表着向开发一个可以帮助科学家发现新的探索途径的工具迈出的关键一步。作者相信,文章中概述的想法和扩展为实现实用、个性化、跨学科的基于AI的新发现建议铺平了道路。并且坚信,这样的工具具有成为影响深远的催化剂的潜力,它将改变科学家们在各自领域内提出研究问题和协作的方式。

参考资料

Krenn, M., Buffoni, L., Coutinho, B. et al. Forecasting the future of artificial intelligence with machine learning-based link prediction in an exponentially growing knowledge network. Nat Mach Intell (2023). 

https://doi.org/10.1038/s42256-023-00735-0

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/192030.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构—两个有序单链表的合并排序算法

viod merge(LNode *A,LNode *B){ LNode *C;//新节点 LNode *p C;//辅助指针 while(A->next !null && B->next !null){ if(A->next->data > B->next->data){//A节点大 p->nextA->next;//A元素插入C AA>next; pp->next; }else{ p->…

如何选择适合的光电传感器与 STM32 微控制器进行接口设计

本文介绍了如何选择适合的光电传感器与 STM32 微控制器进行接口设计的方法。首先我们将介绍一些选择光电传感器的关键因素,包括测量范围、响应时间、分辨率和输出类型。然后我们将介绍如何根据所选传感器的特性进行硬件连接和接口设计。最后,我们将提供示…

机器学习在缺陷检测中的实际效果与应用案例

机器学习在缺陷检测中的实际效果与应用案例 机器学习在缺陷检测中的应用已经变得非常广泛,并且在许多行业中都得到了实践验证。通过使用机器学习算法,我们能够训练模型来自动检测产品或过程中的缺陷,从而提高生产效率,降低人工检…

项目开发维护技术文档(总结梳理)

目录 一、项目背景 二、架构设计 1.技术栈 2.架构图 3.代码结构 三、模块划分 1.用户模块 2.商品模块 四、开发规范 1.命名规范 2.代码格式 3.版本控制 五、部署流程 1.环境要求 2.部署流程 六、问题解决 1.数据库连接异常 2.Redis缓存失效 七、参考资料 项…

同旺科技 USB TO SPI / I2C --- 调试W5500

所需设备: 内附链接 1、USB转SPI_I2C适配器(专业版); 首先,连接W5500模块与同旺科技USB TO SPI / I2C适配器,如下图: 读取重试时间值寄存器,默认值0x07D0 输出结果与默认值一致,芯片基本功能已经调通&am…

go自定义端口监听停用-------解决端口被占用的问题

代码 package mainimport ("fmt""log""net""os/exec""strconv""strings" )func getSelect(beign int, end int) int {var num intfor {_, err : fmt.Scan(&num)if err ! nil {fmt.Println("输入错误&am…

2、RocketMQ源码分析(二)

RocketMQ的底层通信模块remoting remoting是RocketMQ的底层通信模块,RocketMQ底层通讯是使用Netty来实现的。本文通过对remoting源码进行分析,来说明remoting如何实现高性能通信的。 二、Remoting 通信模块结构 remoting 的网络通信是基于 Netty 实现&…

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《市场环境下运行的光热电站子系统容量优化配比研究》

这个标题涉及到对市场环境下运行的光热电站子系统进行容量优化配比的研究。让我们逐步解读: 市场环境下运行的光热电站: 这指的是光热电站在实际市场环境中的运行,可能包括了市场相关的经济、政策、竞争等因素。 子系统: 光热电站…

十六进制数列求和

高精度数组的集大成 做的时候在和高中同学叙叙旧&#xff0c;差点寄掉 代码如下&#xff1a; #include<stdio.h> void expand(int len); const char hexadecimal[17] "0123456789ABCDEF"; int result[20], mid[20], l_result[100];int main(void) {char tm…

你好!二分查找【JAVA】

1.初次相识 二分查找又称折半查找&#xff0c;是一种在有序数组中查找特定元素的算法。二分查找的基本思想是&#xff1a;通过不断地二分数组的中间元素&#xff0c;缩小查找区间&#xff0c;直到找到目标元素或者确定目标元素不存在为止。 二分查找的时间复杂度为O(logn)&…

docker配置redis主从、哨兵集群

搭建redis主从 准备工作 在/usr/local/software/redis/文件夹下建立如下的文件夹、文件 rootlocalhost redis]# mkdir -p 6379/conf 6379/data 6379/log [rootlocalhost redis]# mkdir -p 6380/conf 6380/data 6380/log [rootlocalhost redis]# mkdir -p 6381/conf 6381/…

Kubernetes集群部署—部署Worker节点(四)

文章目录 1、创建工作目录并拷贝二进制文件2 部署kubelet &#xff08;master节点操作&#xff09;2.1 创建配置文件2.2 配置参数文件2.3 生成bootstrap.kubeconfig文件2.4 systemd管理kubelet2.5 启动并设置开机启动 3 批准kubelet证书申请并加入集群4 部署kube-proxy &#x…

如何创建一个vue工程

1.打开vue安装网址&#xff1a;安装 | Vue CLI (vuejs.org) 2.创建一个项目文件夹 3.复制地址 4.打开cmd&#xff0c;进入这个地址 5.复制粘贴vue网页的安装命令 npm install -g vue/cli 6.创建vue工程 vue create vue这里可以通过上下键来进行选择。选最后一个选项按回车。 …

根文件系统构建-编译busybox

一. 简介 本文对 busybox进行编译。 本文继上一篇busybox配置&#xff0c;地址如下&#xff1a; 根文件系统构建-对busybox进行配置-CSDN博客 二. 根文件系统构建-编译busybox源码 1. 修改 Makefile&#xff0c;添加编译器 同 Uboot 和 Linux 移植一样&#xff0c;打开…

制作一个RISC-V的操作系统-环境搭建

文章目录 前言环境搭配 前言 由于之前的操作系统反馈难度太大&#xff0c;所以准备从这个RISC-V操作系统出发&#xff0c;以后知识层面更加深入再去完善。 环境搭配 按照依赖项 $ sudo apt update $ sudo apt install build-essential gcc make perl dkms git gcc-riscv64-…

装箱 Box 数据类型

装箱是最简单直接的一种智能指针&#xff0c;它的类型是Box<T>。装箱使我们可以把数据存储到堆上&#xff0c;并在栈上保留一个指向堆数据的指针。装箱操作常常被用于下面的场景&#xff1a; 当你拥有一个无法在编译时确定大小的类型&#xff0c;但又想使用这个类型的值…

决策 Diffie-Hellman DDH 和 CDH

密码学中的 Diffie-Hellman 问题有几种变体&#xff1a;计算问题 (CDH) 和决策问题 (DDH)。这篇文章将解释两者&#xff0c;并举例说明前者如何困难而后者如何简单。 迪菲-赫尔曼问题 Diffie-Hellman 问题是针对阿贝尔群制定的。我们想到的主要群是非零整数以大素数 p为模的乘…

WordPress(安装比子主题文件)zibll-7.5.1

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、新建网站二、配置ssl三.配置伪静态四.上传文件五.添加本地访问前言 提示:这里可以添加本文要记录的大概内容: 首先,我们要先理解什么是授权原理。 原理就是我们大家运营网站,点击授权…

三轴加速度计LIS2DW12开发(2)----基于中断信号获取加速度数据

三轴加速度计LIS2DW12开发.2--轮基于中断信号获取加速度数据 概述视频教学样品申请生成STM32CUBEMX串口配置IIC配置CS和SA0设置INT1设置串口重定向参考程序初始换管脚获取ID复位操作BDU设置开启INT1中断设置传感器的量程配置过滤器链配置电源模式设置输出数据速率中断判断加速…

Android framework定制1-->用户无操作一段时间,自动播放客户提供的视频,用户操作后退出播放

在PowerManagerService.java中监听用户操作&#xff0c;10秒无操作则打开预置的apk播放视频&#xff0c;直接上代码&#xff1a; --- a/frameworks/base/services/core/java/com/android/server/power/PowerManagerService.javab/frameworks/base/services/core/java/com/andr…