大模型日报|今日必读的6篇大模型论文

在这里插入图片描述

1.天津大学提出SheetAgent:通过大模型进行电子表格推理和操作

电子表格操作能显著提高工作效率,已经被广泛用于大多数日常工作中。大型语言模型(LLM)已被尝试用于电子表格的自动操作,但尚未在存在推理挑战的复杂现实任务(如具有多步骤推理和模糊要求的长视距操作)中进行研究。

为了缩小与现实世界需求的差距,天津大学团队提出了一个具有长视距和多类别任务的基准——SheetRM,其推理操作依赖于现实生活中的挑战。为了减轻上述挑战,研究团队进一步提出了一个利用 LLM 功能的新型自主智能体——SheetAgent。SheetAgent 由 Planner、Informer 和 Retriever 三个协作模块组成,通过迭代任务推理和反思,SheetAgent 既能实现高级推理,又能准确操作电子表格,而无需人工交互。

实验证明,与基线相比,SheetAgent 在多个基准测试中的通过率提高了 20%-30%,在电子表格操作中实现了更高的精度,并展示了卓越的表格推理能力。

论文链接:
https://arxiv.org/abs/2403.03636
项目网站:
https://sheetagent.github.io/

2.哈佛大学新研究:为医学建立安全、统一的大型语言模型

大型语言模型(LLMs)的功能正以令人惊叹的速度不断进步,其开发人员都在努力挖掘其潜力和风险。尽管已经采取了初步措施来评估通用知识 LLMs 的安全性和一致性,并暴露出了一些弱点,尽管医疗 LLMs 对个人健康和安全、公共健康和安全以及人权都存在风险,但其安全性和一致性尚未得到评估。

为此,来自哈佛大学和剑桥大学的研究团队首次对医用 LLMs 进行了安全评估。具体来说,研究团队提出了医疗人工智能系统的医疗安全性和一致性的定义,开发了一个有害医疗问题数据集来评估 LLMs 的医疗安全性和一致性,评估了医疗 LLMs 的通用性、医疗安全性和一致性,证明了微调是一种有效的缓解策略,并讨论了机器学习社区用于开发安全和对齐的 LLMs 的更广泛、更大规模的方法。

研究团队希望这项研究能够阐明医学 LLMs 的安全性和一致性,并激励未来的工作对其进行研究和开发更多缓解策略,从而最大限度地降低 LLMs 在医学中的危害风险。

论文链接:
https://arxiv.org/abs/2403.03744

3.轻量级多语种医学大模型Apollo:向60亿人普及医学人工智能

当地语言对于提供量身定制的医疗保健服务至关重要,尤其是在医疗资源有限的地区,但是目前大部分的全球医学知识库以英语为主。为了将医学人工智能的进步推广到更广泛的人群中,来自深圳市大数据研究院和香港中文大学的研究团队致力于开发能够涵盖全球 61 亿人口的六种使用最广泛的语言的医学 LLMs。

研究团队创建了 ApolloCorpora 多语种医疗数据集和 XMedBench 基准。在多语言医疗基准测试中,已发布的不同相对较小尺寸的 Apollo 模型(0.5B、1.8B、2B、6B 和 7B)在同等规模的模型中取得了最佳性能。特别是 Apollo-7B,它是最大可达 70B 的最先进的多语言医学 LLM。此外,这些精简模型还可用于提高大型模型的多语言医疗能力,无需以 proxy-tuning 的方式进行微调。

论文链接:
https://arxiv.org/abs/2403.03640
项目网站:
https://apollo.llmzoo.com/#/

4.在神经科学领域,大模型超越了人类专家

科学发现往往依赖于对数十年研究成果的综合,这一任务有可能超出人类的信息处理能力。大型语言模型(LLMs)提供了一种解决方案。经过大量科学文献训练的 LLMs 有可能整合嘈杂但相互关联的研究成果,从而比人类专家更好地预测新结果。

为了评估这种可能性,来自伦敦大学学院的研究团队及其合作者创建了一个预测神经科学结果的前瞻性基准——BrainBench。研究发现,LLMs 在预测实验结果方面超过了专家。BrainGPT 是根据神经科学文献调整的 LLM,它的表现更好。与人类专家一样,当 LLMs 对自己的预测充满信心时,他们更有可能预测正确。该项研究并不局限于神经科学,也可以应用于其他知识密集型领域。

论文链接:
https://arxiv.org/abs/2403.03230

5.GaLore:通过梯度低函数投影实现记忆高效的LLM训练

由于权重和优化器状态的大小不断增加,大型语言模型(LLM)的训练面临着巨大的内存挑战。常见的内存缩减方法,如低秩适应(LoRA),是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法在预训练和微调阶段的表现通常不如使用全秩权重(full-rank weights)进行的训练,因为它们将参数搜索限制在低秩子空间(low-rank subspace),改变了训练动态,而且可能需要全秩预热启动(full-rank warm start)。

来自加州理工学院、Meta AI、得克萨斯大学奥斯汀分校和卡内基梅隆大学的研究团队提出了一种允许全参数学习的训练策略Gradient Low-Rank Projection(GaLore),它比 LoRA 等常见的低阶适应方法更节省内存。GaLore 在 LLaMA 1B 和 7B 架构上使用多达 19.7B tokens 的 C4 数据集进行预训练。在 GLUE 任务上对 RoBERTa 进行微调时,在保持效率和性能的同时可将优化器状态下的内存使用率降低多达 65.5%。与 BF16 基线相比,8 位 GaLore 进一步减少了高达 82.5% 的优化器内存和 63.3% 的总训练内存。

值得注意的是,研究团队首次证明了在不采用模型并行、检查点或卸载策略的情况下,在拥有 24GB 内存的消费级 GPU(如NVIDIA RTX 4090)上预训练 7B 模型的可行性。

论文链接:
https://arxiv.org/abs/2403.03507

6.MIT新研究:学习使用多种语言模型协作解码

麻省理工团队提出了一种通过在 token 层交错生成多个大型语言模型(LLM)让它们学会协作的方法。他们将由哪个 LLM 生成下一个 token 的决定建模为一个潜在变量。通过在潜变量模型下优化训练集的边际可能性,基础 LLM 会自动学习何时自行生成、何时调用其中一个 “助手”语言模型生成,所有这一切都无需直接监督。解码过程中的 token 级协作可以根据手头的具体任务融合每个模型的专长。

这一协作解码尤其适用于跨领域环境,在这种环境中,通用基础 LLM 会学习调用领域专家模型。该项研究在指令遵循、特定领域 QA 和推理任务中,证明了联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析,研究团队发现用其方法训练出来的模型表现出几种有趣的协作模式,比如模板填充。

论文链接:
https://arxiv.org/abs/2403.03870
项目地址:
https://github.com/clinicalml/co-llm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/727619.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于MediaEval数据集的Dataset构建(Text部分-使用PLM BERT)

import random import numpy as np import pandas as pd import torch from transformers import BertModel,BertTokenizer from tqdm.auto import tqdm from torch.utils.data import Dataset import re """参考Game-On论文""" ""&qu…

C++:设计包含min 函数的栈

目录 题目 代码实现 输出 题目 定义栈的数据结构&#xff0c;要求添加一个min 函数&#xff0c;能够得到栈的最小元素。 要求函数min、push 以及pop 的时间复杂度都是O(1)。 代码实现 #include <iostream>template<typename T>class stack { public:stack() {…

k倍区间c++

题目 输入样例&#xff1a; 5 2 1 2 3 4 5输出样例&#xff1a; 6 思路 本题默认所有读者已经理解了如何求前缀和。 可以利用双层循环分别枚举左端点和右端点即可枚举完所有区间&#xff0c;而对于每个区间&#xff0c;利用一维前缀和判断它是否是一个k倍区间&#xff0c;是…

GraphQL

从表中查询10条数据 {user_info(_limit: 100) {idname} }根据id查询数据 {user_info(_where: {id: 1727515006802587648}_order_by: {create_time: _desc}_limit: 10) {idname} }外键联表查询(特别注意写法:update_by.id): {speaker_info(update_by.id: {_eq: 1729043650301…

外包干了8天,技术退步明显。。。。。

先说一下自己的情况&#xff0c;本科生&#xff0c;19年通过校招进入杭州某软件公司&#xff0c;干了接近3年的功能测试&#xff0c;今年年初&#xff0c;感觉自己不能够在这样下去了&#xff0c;长时间呆在一个舒适的环境会让一个人堕落!而我已经在一个企业干了四年的功能测试…

鸿蒙Harmony应用开发—ArkTS声明式开发(基础手势:PanGesture)

拖动手势事件&#xff0c;当滑动的最小距离超过设定的最小值时触发拖动手势事件。 说明&#xff1a; 从API Version 7开始支持。后续版本如有新增内容&#xff0c;则采用上角标单独标记该内容的起始版本。 接口 PanGesture(value?: { fingers?: number; direction?: PanDir…

sudo command not found

文章目录 一句话Intro其他操作 一句话 sudo 某命令 改成 sudo -i 某命令 试试。 -i 会把当前用户的环境变量带过去&#xff0c;这样在sudo的时候&#xff0c;有更高的权限&#xff0c;有本用户的环境变量(下的程序命令)。 -i, --login run login shell as the target user; a …

腾讯云学生服务器申请入口、续费优惠价格和常见问题解答

2024年腾讯云学生服务器优惠活动「云校园」&#xff0c;学生服务器优惠价格&#xff1a;轻量应用服务器2核2G学生价30元3个月、58元6个月、112元一年&#xff0c;轻量应用服务器4核8G配置191.1元3个月、352.8元6个月、646.8元一年&#xff0c;CVM云服务器2核4G配置842.4元一年&…

Gemini 初体验

1 使用体验 同样需要科学上网。速度很快&#xff0c;而且还不要钱&#xff0c;据说使用太多可能被限流。对于小语种翻译效果比 GPT-4 好&#xff0c;其它还没测试。可通过 ChatBox 界面调用&#xff0c;也可使用 Python 调用。 2 使用 ChatBox 方式调用 在 build with gemin…

【目标分类检测测试指标】

目标分类指标 目标分类指标是指在机器学习和深度学习中&#xff0c;用于衡量模型对目标类别预测准确度的一系列评价标准。以下是一些常见的目标分类指标及其详细说明&#xff0c;并附上Python代码示例&#xff08;以PyTorch为例&#xff09;&#xff1a; 准确率&#xff08;Ac…

应用层协议--HTTP

目录 一.HTTP是什么&#xff1f; 二.HTTP的请求和响应 a.请求&#xff1a; b.响应&#xff1a; 三.URL 四.Header 1.Host 2. Content-Length 3. Content-Type a. 请求 b. 响应 4. Referer 5. User-Agent 6. Cookie 一.HTTP是什么&#xff1f; HTTP是一种应用层协议&#xff0c…

springboot实现多线程开发(使用@Async注解,简单易上手)

根据springboot的核心思想便捷开发&#xff0c;使用多线程也变得简单起来&#xff0c;通过一下几个步骤即可实现。 核心注解 EnableAsync将此注解加在启动类上&#xff0c;使项目支持多线程。 Async 使用我们的Async注解在所需要进行多线程的类上即可实现。 配置线程池 …

算法刷题Day1 | 704.二分查找、27.移除元素

目录 0 引言1 二分查找1.1 我的解题1.2 修改后1.3 总结 2 移除元素2.1 暴力求解2.2 双指针法&#xff08;快慢指针&#xff09; &#x1f64b;‍♂️ 作者&#xff1a;海码007&#x1f4dc; 专栏&#xff1a;算法专栏&#x1f4a5; 标题&#xff1a;代码随想录算法训练营第一天…

【MySQL】子查询优化、排序优化和覆盖索引

一、子查询优化 子查询可以通过一个SQL语句实现比较复杂的查询。但是子查询的效率不高。原因在于 执行子查询时&#xff0c;MySQL为内层查询语句的结果建立一个临时表&#xff0c;在查询结束后&#xff0c;会撤销这些临时表。这就导致消耗过多的CPU和IO资源&#xff0c;产生大…

AI 训练中 不收敛、欠拟合、过拟合、泛化能力是什么意思?

问题描述&#xff1a; AI 训练中 不收敛、欠拟合、过拟合、泛化能力是什么意思&#xff1f; 解答&#xff1a; 在人工智能&#xff08;AI&#xff09;训练过程中&#xff0c;你可能会遇到几个常见的问题&#xff0c;如不收敛、欠拟合、过拟合以及泛化能力的问题。这些问题通…

什么是攻防演练,能给企业带来什么

随着互联网技术的发展和企业信息化程度的提高&#xff0c;企业面临的网络安全威胁越来越多。为了保护企业的信息安全&#xff0c;攻防演练已经成为企业安全运营中不可或缺的一部分。攻击者通常会利用各种方法来破坏企业的安全系统和数据&#xff0c;因此企业需要像攻击者一样思…

C++ primer plus 学习 4.8 newdelete与存储空间

程序4.22 #include<iostream> #include<cstring> using namespace std;// 按照输入的字符串的长度来分配内存空间 char* getname(void){// 最大长度79char tmp[80]; // tmp自动存储&#xff0c;在栈中cout << "输入字符串: ";cin >> tmp;…

数据库自连接

力扣题目链接https://leetcode.cn/problems/employees-earning-more-than-their-managers https://leetcode.cn/problems/duplicate-emails/ 去重 select distinct… 数据库自连接通常在以下情况下需要使用&#xff1a; 层次关系查询&#xff1a;当表中的数据具有层次结构&…

Linux操作系统-05-文件查找与归档压缩

熟练使用find命令进行文件查找 熟练使用gerep命令对文件内容进行查找 熟练使用tar等命令进行文件归档与解压缩 一、文件查找 1、find命令 基本格式 &#xff1a;find 起始目录 查找类型 查找条件 #命令实例 find -name "hello.txt" #查找当前目…

灵活沟通,解决复杂功能需求与费用分歧

在软件开发领域&#xff0c;客户对于复杂功能的需求是司空见惯的事情。然而&#xff0c;当客户表达对此功能的渴望&#xff0c;却不愿支付相应费用时&#xff0c;良好的沟通就显得尤为关键。以下是一些建议&#xff0c;帮助你在这种情况下巧妙处理&#xff0c;达成双方满意的解…