NASA和IBM推出INDUS:高级科学研究的综合大模型

在最近的一项研究中,来自美国宇航局和IBM的一组研究人员合作开发了一种模型,该模型可应用于地球科学,天文学,物理学,天体物理学,太阳物理学,行星科学和生物学以及其他多学科学科。当前的模型,如 SCIBERT、BIOBERT和SCHOLARBERT仅部分覆盖了其中的一些领域。现有的模型没有充分考虑所有这些相关领域。

为了弥合这一差距,该团队推出了INDUS,这是一套基于LLMs编码器的专门针对这些特定领域的设备。由于INDUS 是根据从各种来源精心挑选的语料库进行培训的,因此可以保证涵盖这些领域的知识体系。INDUS 套件包括多种类型的模型,以满足不同的需求。

在这项研究中,Indus特别关注与地球、天体、太阳和太阳系内的行星相关的跨学科领域,如物理学、地球科学、天体物理学、太阳物理学、行星科学和生物学。虽然现有的特定领域模型(如 scibert、biobert和scholarbert)的训练语料库部分涵盖了其中一些领域,但目前还没有一个特定的模型可以共同涵盖所有感兴趣的领域。Indus,这是一个基于llm Encoder的合集,专注于这些感兴趣的领域,使用来自不同来源的精心策划的语料库进行训练。

具体而言,Indus做到了:

1. 利用字节对编码算法IndusBPE,从精选的科学语料库中定制的分词器。

2. 利用精心策划的科学语料库和IndusBPE标记器预训练了多个encoder-only的大模型(Indus-base)。通过微调这个编码器模型,使用对比学习目标来学习“通用”句子嵌入(粉色的部分),进而创建了sentence-embedding模型。最后还使用知识蒸馏技术训练了这些模型的更小,更高效的版本(Indus-small)。

3. 本次还创建三个新的科学基准数据集,即气候变化ner(实体识别任务)、nasa-qa(抽取式问答任务)和 nasa-ir(检索任务),以进一步加速这一多学科领域的研究。

4. 通过实验结果表明模型在这些基准任务以及现有的特定领域基准上具有很强的性能,与原始模型相比,在大多数基准任务中,知识提炼的小模型在延迟方面实现了显着提高,同时保持了强大的经验性能。

至于训练数据方面,下图左侧是本次的训练语料库的组成部分,右侧对比RoBERTa和IndusBPE Tokenizer的效率,标记越少,计算成本越低。下文为两者切词的对比。

  • SAO/NASA ADS:涵盖了天文学和天体物理学、物理学和普通科学领域的出版物,包括所有arXiv。

  • PubMed Central (pmc)是由美国国家医学图书馆和美国国立卫生研究院维护的生物医学和生命科学期刊文献的全文档案。本次使用了pmc中具有商业友好许可证的部分,以及pmc中所有文章的PubMed摘要。

  • 美国气象学会 (ams): 使用了涵盖地球系统、地球相互作用、应用气象学和气候学、物理海洋学、大气科学、气候、水文气象学、天气和预报以及社会影响等主题的全文期刊文件。

  • 美国地球物理联盟 (agu):数据集包括大气、生物地球科学、地球表面、机器学习和计算、海洋、行星、固体地球和空间物理学等主题的期刊文档。

  • NASA通用元数据存储库 (CMR):是一个高性能、高质量的元数据系统,对NASA地球科学数据和信息系统 (ESDIS)的所有数据和服务元数据记录进行编目。

模型的整体架构如上,没有太复杂的地方。唯一值得关注的是利用了知识蒸馏和对比学习,训练出更小的模型,和检索器。

实验结果表明,这些模型在最近创建的基准任务和当前使用的领域特定基准上都表现良好。它们的性能优于特定领域的编码器(如 SCIBERT)和通用模型(如 RoBERTa),关键是整体的体积很小!欢迎大家下载品尝(PC压力不大!!):

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/41951.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DP:二维费用背包问题

文章目录 🎵二维费用背包问题🎶引言🎶问题定义🎶动态规划思想🎶状态定义和状态转移方程🎶初始条件和边界情况 🎵例题🎶1.一和零🎶2.盈利计划 🎵总结 &#x1…

机器人具身智能Embodied AI

强调智能体(如机器人)通过物理身体在物理世界中的实时感知、交互和学习来执行任务。 通过物理交互来完成任务的智能系统。它由“本体”(即物理身体)和“智能体”(即智能核心)耦合而成,能够在复…

taoCMS v3.0.2 任意文件读取漏洞(CVE-2022-23316)

前言 CVE-2022-23316 是一个影响 taoCMS v3.0.2 的漏洞。这个漏洞允许攻击者通过 admin.php?actionfile&ctrldownload&path../../1.txt 的路径读取任意文件。攻击者可以利用该漏洞读取服务器上的任何文件,只要他们知道文件的路径​ (OpenCVE)​​ (Tenabl…

在postgres数据库中的几个简单用法

1、例如表中coord_str的字段数据是121.12334 31.3435这样的字符串,如何将对应的数据转换成geometry数据,实现如下 UPDATE coordinates SET geom ST_GeomFromText(POINT( || split_part(coord_str, , 1) || || split_part(coord_str, , 2) || ), 43…

亚马逊跟卖ERP的自动调价功能,能够简易地批量设置价格规则。

跟卖的智能调价 跟卖智能调价简单说是可以上调,下调就是怎么说?上调就是它根靠根据市场最低的价格情况进行去上调。 然后添加指定条件,到工具栏找到指定条件,点击添加指定条件。 然后选择店铺,比如选择店铺&#xf…

微信⼩程序的电影推荐系统-计算机毕业设计源码76756

摘 要 随着互联网的普及和移动互联网的发展,人们对于获取信息的便捷性和高效性要求越来越高。电影作为一种受众广泛喜爱的娱乐方式,电影推荐系统的出现为用户提供了更加个性化和精准的电影推荐服务。微信小程序作为一种轻量级应用形式,在用户…

算法题-回文子串和最长回文子序列

算法题-回文子串和最长回文子序列 一、647. 回文子串二、516. 最长回文子序列 一、647. 回文子串 中等 给你一个字符串 s ,请你统计并返回这个字符串中 回文子串 的数目。 回文字符串 是正着读和倒过来读一样的字符串。 子字符串 是字符串中的由连续字符组成的一个…

qt 如果把像素点数据变成一个图片

1.概要 图像的本质是什么&#xff0c;就是一个个的像素点&#xff0c;对与显示器来说就是一个二维数组。无论多复杂的图片&#xff0c;对于显示器来说就是一个二维数组。 2.代码 #include "widget.h"#include <QApplication> #include <QImage> #incl…

深入解析Memcached:解锁1MB存储极限的秘诀

标题&#xff1a;深入解析Memcached&#xff1a;解锁1MB存储极限的秘诀 摘要 在现代的Web应用架构中&#xff0c;缓存层扮演着至关重要的角色&#xff0c;而Memcached作为其中一种高效的内存缓存解决方案&#xff0c;被广泛用于提升应用性能。然而&#xff0c;Memcached对单个…

Java对象通用比对工具

目录 背景 思路 实现 背景 前段时间的任务中&#xff0c;遇到了需要识别两个对象不同属性的场景&#xff0c;如果使用传统的一个个属性比对equals方法&#xff0c;会存在大量的重复工作&#xff0c;而且为对象新增了属性后&#xff0c;比对方法也需要同步修改&#xff0c;不方…

node的下载、安装、配置和使用(node.js下载安装和配置、npm命令汇总、cnpm的使用)

天行健,君子以自强不息;地势坤,君子以厚德载物。 每个人都有惰性,但不断学习是好好生活的根本,共勉! 文章均为学习整理笔记,分享记录为主,如有错误请指正,共同学习进步。 愿将腰下剑,直为斩楼兰。 ——《塞下曲》 文章目录 一、node.js的下载、安装和配置1. node.js下…

集智书童 | 英伟达和斯坦福基于 Transformer 的异常检测最新研究!

本文来源公众号“集智书童”&#xff0c;仅用于学术分享&#xff0c;侵权删&#xff0c;干货满满。 原文链接&#xff1a;英伟达和斯坦福基于 Transformer 的异常检测最新研究&#xff01; 在作者推动各种视觉任务性能边界的同时&#xff0c;模型的大小也在相应增长。为了跟上…

011 多线程问题

文章目录 死锁死锁的产生更复杂的死锁数据库的死锁死锁的避免加锁顺序加锁时限死锁检测 饥饿和公平Java中导致饥饿的原因高优先级线程吞噬所有的低优先级线程的CPU时间线程被永久堵塞在一个等待进入同步块的状态线程在等待一个本身(在其上调用wait())也处于永久等待完成的对象 …

【算法 之归并排序 原理及案例】

归并排序&#xff08;Merge Sort&#xff09; 归并排序&#xff08;Merge Sort&#xff09;是一种分治&#xff08;Divide and Conquer&#xff09;策略的排序算法。它将一个大问题分解成两个或更多个相同或相似的小问题&#xff0c;递归地解决这些小问题&#xff0c;然后将这…

druid 连接池RSA加密解密,实现yml配置文件中数据库连接信息如用户名,密码等信息加密解密

1 pom依赖 <dependency><groupId>com.alibaba</groupId><artifactId>druid-spring-boot-starter</artifactId> </dependency> 2 写个工具类&#xff0c;用于生成公钥私钥&#xff0c;对数据进行加密解密等 import com.alibaba.druid.fi…

电商视角如何理解动态IP与静态IP

在电子商务的蓬勃发展中&#xff0c;网络基础设施的稳定性和安全性是至关重要的。其中&#xff0c;IP地址作为网络设备间通信的基础&#xff0c;扮演着举足轻重的角色。从电商的视角出发&#xff0c;我们可以将动态IP和静态IP比作电商平台上不同类型的店铺安排&#xff0c;以此…

华为ENSP防火墙+路由器+交换机的常规配置

(防火墙区域DHCP基于接口DHCP中继服务器区域有线区域无线区域&#xff09;配置 一、适用场景&#xff1a; 1、普通企业级网络无冗余网络环境&#xff0c;防火墙作为边界安全设备&#xff0c;分trust&#xff08;内部网络信任区域&#xff09;、untrust&#xff08;外部网络非信…

vulnhub靶场之Jarbas

1 信息收集 1.1 主机发现 arp-scan -l 发现主机IP地址为&#xff1a;192.168.1.16 1.2 端口发现 nmap -sS -sV -A -T5 -p- 192.168.1.16 存在端口22&#xff0c;80&#xff0c;3306&#xff0c;8080 1.3 目录扫描 dirsearch -u 192.168.1.16 2 端口访问 2.1 80端口 2.2…

LRU缓存算法设计

LRU 缓存算法的核⼼数据结构就是哈希链表&#xff0c;双向链表和哈希表的结合体。这个数据结构⻓这样&#xff1a; 创建的需要有两个方法&#xff0c;一个是get方法&#xff0c;一个是put方法。 一些问题&#xff1a;为什么需要使用双向链表呢&#xff1f;因为删除链表的本身&…

[单master节点k8s部署]20.监控系统构建(五)Alertmanager

prometheus将监控到的异常事件发送给Alertmanager&#xff0c;然后Alertmanager将报警信息发送到邮箱等设备。可以从下图看出&#xff0c;push alerts是由Prometheus发起的。 安装Alertmanager config文件 [rootmaster prometheus]# cat alertmanager-cm.yaml kind: ConfigMa…