大模型日报|今日必读的6篇大模型论文

在这里插入图片描述

1.天津大学提出SheetAgent:通过大模型进行电子表格推理和操作

电子表格操作能显著提高工作效率,已经被广泛用于大多数日常工作中。大型语言模型(LLM)已被尝试用于电子表格的自动操作,但尚未在存在推理挑战的复杂现实任务(如具有多步骤推理和模糊要求的长视距操作)中进行研究。

为了缩小与现实世界需求的差距,天津大学团队提出了一个具有长视距和多类别任务的基准——SheetRM,其推理操作依赖于现实生活中的挑战。为了减轻上述挑战,研究团队进一步提出了一个利用 LLM 功能的新型自主智能体——SheetAgent。SheetAgent 由 Planner、Informer 和 Retriever 三个协作模块组成,通过迭代任务推理和反思,SheetAgent 既能实现高级推理,又能准确操作电子表格,而无需人工交互。

实验证明,与基线相比,SheetAgent 在多个基准测试中的通过率提高了 20%-30%,在电子表格操作中实现了更高的精度,并展示了卓越的表格推理能力。

论文链接:
https://arxiv.org/abs/2403.03636
项目网站:
https://sheetagent.github.io/

2.哈佛大学新研究:为医学建立安全、统一的大型语言模型

大型语言模型(LLMs)的功能正以令人惊叹的速度不断进步,其开发人员都在努力挖掘其潜力和风险。尽管已经采取了初步措施来评估通用知识 LLMs 的安全性和一致性,并暴露出了一些弱点,尽管医疗 LLMs 对个人健康和安全、公共健康和安全以及人权都存在风险,但其安全性和一致性尚未得到评估。

为此,来自哈佛大学和剑桥大学的研究团队首次对医用 LLMs 进行了安全评估。具体来说,研究团队提出了医疗人工智能系统的医疗安全性和一致性的定义,开发了一个有害医疗问题数据集来评估 LLMs 的医疗安全性和一致性,评估了医疗 LLMs 的通用性、医疗安全性和一致性,证明了微调是一种有效的缓解策略,并讨论了机器学习社区用于开发安全和对齐的 LLMs 的更广泛、更大规模的方法。

研究团队希望这项研究能够阐明医学 LLMs 的安全性和一致性,并激励未来的工作对其进行研究和开发更多缓解策略,从而最大限度地降低 LLMs 在医学中的危害风险。

论文链接:
https://arxiv.org/abs/2403.03744

3.轻量级多语种医学大模型Apollo:向60亿人普及医学人工智能

当地语言对于提供量身定制的医疗保健服务至关重要,尤其是在医疗资源有限的地区,但是目前大部分的全球医学知识库以英语为主。为了将医学人工智能的进步推广到更广泛的人群中,来自深圳市大数据研究院和香港中文大学的研究团队致力于开发能够涵盖全球 61 亿人口的六种使用最广泛的语言的医学 LLMs。

研究团队创建了 ApolloCorpora 多语种医疗数据集和 XMedBench 基准。在多语言医疗基准测试中,已发布的不同相对较小尺寸的 Apollo 模型(0.5B、1.8B、2B、6B 和 7B)在同等规模的模型中取得了最佳性能。特别是 Apollo-7B,它是最大可达 70B 的最先进的多语言医学 LLM。此外,这些精简模型还可用于提高大型模型的多语言医疗能力,无需以 proxy-tuning 的方式进行微调。

论文链接:
https://arxiv.org/abs/2403.03640
项目网站:
https://apollo.llmzoo.com/#/

4.在神经科学领域,大模型超越了人类专家

科学发现往往依赖于对数十年研究成果的综合,这一任务有可能超出人类的信息处理能力。大型语言模型(LLMs)提供了一种解决方案。经过大量科学文献训练的 LLMs 有可能整合嘈杂但相互关联的研究成果,从而比人类专家更好地预测新结果。

为了评估这种可能性,来自伦敦大学学院的研究团队及其合作者创建了一个预测神经科学结果的前瞻性基准——BrainBench。研究发现,LLMs 在预测实验结果方面超过了专家。BrainGPT 是根据神经科学文献调整的 LLM,它的表现更好。与人类专家一样,当 LLMs 对自己的预测充满信心时,他们更有可能预测正确。该项研究并不局限于神经科学,也可以应用于其他知识密集型领域。

论文链接:
https://arxiv.org/abs/2403.03230

5.GaLore:通过梯度低函数投影实现记忆高效的LLM训练

由于权重和优化器状态的大小不断增加,大型语言模型(LLM)的训练面临着巨大的内存挑战。常见的内存缩减方法,如低秩适应(LoRA),是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法在预训练和微调阶段的表现通常不如使用全秩权重(full-rank weights)进行的训练,因为它们将参数搜索限制在低秩子空间(low-rank subspace),改变了训练动态,而且可能需要全秩预热启动(full-rank warm start)。

来自加州理工学院、Meta AI、得克萨斯大学奥斯汀分校和卡内基梅隆大学的研究团队提出了一种允许全参数学习的训练策略Gradient Low-Rank Projection(GaLore),它比 LoRA 等常见的低阶适应方法更节省内存。GaLore 在 LLaMA 1B 和 7B 架构上使用多达 19.7B tokens 的 C4 数据集进行预训练。在 GLUE 任务上对 RoBERTa 进行微调时,在保持效率和性能的同时可将优化器状态下的内存使用率降低多达 65.5%。与 BF16 基线相比,8 位 GaLore 进一步减少了高达 82.5% 的优化器内存和 63.3% 的总训练内存。

值得注意的是,研究团队首次证明了在不采用模型并行、检查点或卸载策略的情况下,在拥有 24GB 内存的消费级 GPU(如NVIDIA RTX 4090)上预训练 7B 模型的可行性。

论文链接:
https://arxiv.org/abs/2403.03507

6.MIT新研究:学习使用多种语言模型协作解码

麻省理工团队提出了一种通过在 token 层交错生成多个大型语言模型(LLM)让它们学会协作的方法。他们将由哪个 LLM 生成下一个 token 的决定建模为一个潜在变量。通过在潜变量模型下优化训练集的边际可能性,基础 LLM 会自动学习何时自行生成、何时调用其中一个 “助手”语言模型生成,所有这一切都无需直接监督。解码过程中的 token 级协作可以根据手头的具体任务融合每个模型的专长。

这一协作解码尤其适用于跨领域环境,在这种环境中,通用基础 LLM 会学习调用领域专家模型。该项研究在指令遵循、特定领域 QA 和推理任务中,证明了联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析,研究团队发现用其方法训练出来的模型表现出几种有趣的协作模式,比如模板填充。

论文链接:
https://arxiv.org/abs/2403.03870
项目地址:
https://github.com/clinicalml/co-llm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/727619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++:设计包含min 函数的栈

目录 题目 代码实现 输出 题目 定义栈的数据结构&#xff0c;要求添加一个min 函数&#xff0c;能够得到栈的最小元素。 要求函数min、push 以及pop 的时间复杂度都是O(1)。 代码实现 #include <iostream>template<typename T>class stack { public:stack() {…

k倍区间c++

题目 输入样例&#xff1a; 5 2 1 2 3 4 5输出样例&#xff1a; 6 思路 本题默认所有读者已经理解了如何求前缀和。 可以利用双层循环分别枚举左端点和右端点即可枚举完所有区间&#xff0c;而对于每个区间&#xff0c;利用一维前缀和判断它是否是一个k倍区间&#xff0c;是…

GraphQL

从表中查询10条数据 {user_info(_limit: 100) {idname} }根据id查询数据 {user_info(_where: {id: 1727515006802587648}_order_by: {create_time: _desc}_limit: 10) {idname} }外键联表查询(特别注意写法:update_by.id): {speaker_info(update_by.id: {_eq: 1729043650301…

外包干了8天,技术退步明显。。。。。

先说一下自己的情况&#xff0c;本科生&#xff0c;19年通过校招进入杭州某软件公司&#xff0c;干了接近3年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:PanGesture)

拖动手势事件&#xff0c;当滑动的最小距离超过设定的最小值时触发拖动手势事件。 说明&#xff1a; 从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 接口 PanGesture(value?: { fingers?: number; direction?: PanDir…

sudo command not found

文章目录 一句话Intro其他操作 一句话 sudo 某命令 改成 sudo -i 某命令 试试。 -i 会把当前用户的环境变量带过去&#xff0c;这样在sudo的时候&#xff0c;有更高的权限&#xff0c;有本用户的环境变量(下的程序命令)。 -i, --login run login shell as the target user; a …

腾讯云学生服务器申请入口、续费优惠价格和常见问题解答

2024年腾讯云学生服务器优惠活动「云校园」&#xff0c;学生服务器优惠价格&#xff1a;轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年&#xff0c;轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&#xff0c;CVM云服务器2核4G配置842.4元一年&…

Gemini 初体验

1 使用体验 同样需要科学上网。速度很快&#xff0c;而且还不要钱&#xff0c;据说使用太多可能被限流。对于小语种翻译效果比 GPT-4 好&#xff0c;其它还没测试。可通过 ChatBox 界面调用&#xff0c;也可使用 Python 调用。 2 使用 ChatBox 方式调用 在 build with gemin…

应用层协议--HTTP

目录 一.HTTP是什么&#xff1f; 二.HTTP的请求和响应 a.请求&#xff1a; b.响应&#xff1a; 三.URL 四.Header 1.Host 2. Content-Length 3. Content-Type a. 请求 b. 响应 4. Referer 5. User-Agent 6. Cookie 一.HTTP是什么&#xff1f; HTTP是一种应用层协议&#xff0c…

springboot实现多线程开发(使用@Async注解,简单易上手)

根据springboot的核心思想便捷开发&#xff0c;使用多线程也变得简单起来&#xff0c;通过一下几个步骤即可实现。 核心注解 EnableAsync将此注解加在启动类上&#xff0c;使项目支持多线程。 Async 使用我们的Async注解在所需要进行多线程的类上即可实现。 配置线程池 …

算法刷题Day1 | 704.二分查找、27.移除元素

目录 0 引言1 二分查找1.1 我的解题1.2 修改后1.3 总结 2 移除元素2.1 暴力求解2.2 双指针法&#xff08;快慢指针&#xff09; &#x1f64b;‍♂️ 作者&#xff1a;海码007&#x1f4dc; 专栏&#xff1a;算法专栏&#x1f4a5; 标题&#xff1a;代码随想录算法训练营第一天…

什么是攻防演练,能给企业带来什么

随着互联网技术的发展和企业信息化程度的提高&#xff0c;企业面临的网络安全威胁越来越多。为了保护企业的信息安全&#xff0c;攻防演练已经成为企业安全运营中不可或缺的一部分。攻击者通常会利用各种方法来破坏企业的安全系统和数据&#xff0c;因此企业需要像攻击者一样思…

HBuilder X删除之前登录的账号

打开目录 C:\Users\Administrator\AppData\Roaming\HBuilder X 用 HBuilder X 打开文件 prefs 将账号删除 保存文件 重启HBuilder X即可

7.3 支付模块 - 创建订单、查询订单、通知

支付模块 - 创建订单、查询订单、通知 文章目录 支付模块 - 创建订单、查询订单、通知一、生成支付二维码1.1 数据模型1.1.1 订单表1.1.2 订单明细表1.1.3 支付交易记录表 1.2 执行流程1.3 Dto1.3.1 AddOrderDto 商品订单1.3.2 PayRecordDto支付交易记录扩展字段1.3.3 雪花算法…

机器学习——感知机模型

机器学习系列文章 入门必读&#xff1a;机器学习介绍 文章目录 机器学习系列文章前言1. 感知机1.1 感知机定义1.2 感知机学习策略 2. 代码实现2.1 构建数据2.2 编写函数2.3 迭代 3. 总结 前言 大家好&#xff0c;大家好✨&#xff0c;这里是bio&#x1f996;。这次为大家带来…

基于springboot+vue的在线远程考试系统

博主主页&#xff1a;猫头鹰源码 博主简介&#xff1a;Java领域优质创作者、CSDN博客专家、阿里云专家博主、公司架构师、全网粉丝5万、专注Java技术领域和毕业设计项目实战&#xff0c;欢迎高校老师\讲师\同行交流合作 ​主要内容&#xff1a;毕业设计(Javaweb项目|小程序|Pyt…

亚马逊使用什么国外代理IP?跨境电商代理IP推荐

代理IP作为网络活动的有力工具&#xff0c;同时也是跨境电商的必备神器。亚马逊作为跨境电商的头部平台&#xff0c;吸引了大量的跨境电商玩家入驻&#xff0c;想要做好亚马逊&#xff0c;养号、测评都需要代理IP的帮助。那么应该使用什么代理IP呢&#xff1f;如何使用&#xf…

钡铼技术R40工业路由器稳定可靠支持环境检测应用

在现代工业化进程中&#xff0c;环境监测已经成为确保生产安全、提升环保效能的关键环节。而在这个领域中&#xff0c;钡铼技术的R40工业路由器以其卓越的稳定性和可靠性&#xff0c;在环境检测应用中发挥着至关重要的作用。 首先&#xff0c;钡铼技术R40工业路由器采用了先进…

水下蓝牙耳机有哪些?绝对物有所值的4大游泳耳机分享!

随着科技的不断进步&#xff0c;运动爱好者们对于耳机的需求也在不断提升。在众多运动场景中&#xff0c;游泳无疑是最为特别的一个。水下蓝牙耳机的出现&#xff0c;不仅解决了传统耳机无法防水的问题&#xff0c;更让游泳者可以在享受音乐的同时进行锻炼。然而&#xff0c;在…

【Spring底层原理高级进阶】Spring Batch清洗和转换数据,一键处理繁杂数据!Spring Batch是如何实现IO流优化的?本文详解!

&#x1f389;&#x1f389;欢迎光临&#xff0c;终于等到你啦&#x1f389;&#x1f389; &#x1f3c5;我是苏泽&#xff0c;一位对技术充满热情的探索者和分享者。&#x1f680;&#x1f680; &#x1f31f;持续更新的专栏《Spring 狂野之旅&#xff1a;从入门到入魔》 &a…