1.天津大学提出SheetAgent:通过大模型进行电子表格推理和操作
电子表格操作能显著提高工作效率,已经被广泛用于大多数日常工作中。大型语言模型(LLM)已被尝试用于电子表格的自动操作,但尚未在存在推理挑战的复杂现实任务(如具有多步骤推理和模糊要求的长视距操作)中进行研究。
为了缩小与现实世界需求的差距,天津大学团队提出了一个具有长视距和多类别任务的基准——SheetRM,其推理操作依赖于现实生活中的挑战。为了减轻上述挑战,研究团队进一步提出了一个利用 LLM 功能的新型自主智能体——SheetAgent。SheetAgent 由 Planner、Informer 和 Retriever 三个协作模块组成,通过迭代任务推理和反思,SheetAgent 既能实现高级推理,又能准确操作电子表格,而无需人工交互。
实验证明,与基线相比,SheetAgent 在多个基准测试中的通过率提高了 20%-30%,在电子表格操作中实现了更高的精度,并展示了卓越的表格推理能力。
论文链接:
https://arxiv.org/abs/2403.03636
项目网站:
https://sheetagent.github.io/
2.哈佛大学新研究:为医学建立安全、统一的大型语言模型
大型语言模型(LLMs)的功能正以令人惊叹的速度不断进步,其开发人员都在努力挖掘其潜力和风险。尽管已经采取了初步措施来评估通用知识 LLMs 的安全性和一致性,并暴露出了一些弱点,尽管医疗 LLMs 对个人健康和安全、公共健康和安全以及人权都存在风险,但其安全性和一致性尚未得到评估。
为此,来自哈佛大学和剑桥大学的研究团队首次对医用 LLMs 进行了安全评估。具体来说,研究团队提出了医疗人工智能系统的医疗安全性和一致性的定义,开发了一个有害医疗问题数据集来评估 LLMs 的医疗安全性和一致性,评估了医疗 LLMs 的通用性、医疗安全性和一致性,证明了微调是一种有效的缓解策略,并讨论了机器学习社区用于开发安全和对齐的 LLMs 的更广泛、更大规模的方法。
研究团队希望这项研究能够阐明医学 LLMs 的安全性和一致性,并激励未来的工作对其进行研究和开发更多缓解策略,从而最大限度地降低 LLMs 在医学中的危害风险。
论文链接:
https://arxiv.org/abs/2403.03744
3.轻量级多语种医学大模型Apollo:向60亿人普及医学人工智能
当地语言对于提供量身定制的医疗保健服务至关重要,尤其是在医疗资源有限的地区,但是目前大部分的全球医学知识库以英语为主。为了将医学人工智能的进步推广到更广泛的人群中,来自深圳市大数据研究院和香港中文大学的研究团队致力于开发能够涵盖全球 61 亿人口的六种使用最广泛的语言的医学 LLMs。
研究团队创建了 ApolloCorpora 多语种医疗数据集和 XMedBench 基准。在多语言医疗基准测试中,已发布的不同相对较小尺寸的 Apollo 模型(0.5B、1.8B、2B、6B 和 7B)在同等规模的模型中取得了最佳性能。特别是 Apollo-7B,它是最大可达 70B 的最先进的多语言医学 LLM。此外,这些精简模型还可用于提高大型模型的多语言医疗能力,无需以 proxy-tuning 的方式进行微调。
论文链接:
https://arxiv.org/abs/2403.03640
项目网站:
https://apollo.llmzoo.com/#/
4.在神经科学领域,大模型超越了人类专家
科学发现往往依赖于对数十年研究成果的综合,这一任务有可能超出人类的信息处理能力。大型语言模型(LLMs)提供了一种解决方案。经过大量科学文献训练的 LLMs 有可能整合嘈杂但相互关联的研究成果,从而比人类专家更好地预测新结果。
为了评估这种可能性,来自伦敦大学学院的研究团队及其合作者创建了一个预测神经科学结果的前瞻性基准——BrainBench。研究发现,LLMs 在预测实验结果方面超过了专家。BrainGPT 是根据神经科学文献调整的 LLM,它的表现更好。与人类专家一样,当 LLMs 对自己的预测充满信心时,他们更有可能预测正确。该项研究并不局限于神经科学,也可以应用于其他知识密集型领域。
论文链接:
https://arxiv.org/abs/2403.03230
5.GaLore:通过梯度低函数投影实现记忆高效的LLM训练
由于权重和优化器状态的大小不断增加,大型语言模型(LLM)的训练面临着巨大的内存挑战。常见的内存缩减方法,如低秩适应(LoRA),是在每一层冻结的预训练权重中添加一个可训练的低秩矩阵,从而减少可训练参数和优化器状态。然而,这些方法在预训练和微调阶段的表现通常不如使用全秩权重(full-rank weights)进行的训练,因为它们将参数搜索限制在低秩子空间(low-rank subspace),改变了训练动态,而且可能需要全秩预热启动(full-rank warm start)。
来自加州理工学院、Meta AI、得克萨斯大学奥斯汀分校和卡内基梅隆大学的研究团队提出了一种允许全参数学习的训练策略Gradient Low-Rank Projection(GaLore),它比 LoRA 等常见的低阶适应方法更节省内存。GaLore 在 LLaMA 1B 和 7B 架构上使用多达 19.7B tokens 的 C4 数据集进行预训练。在 GLUE 任务上对 RoBERTa 进行微调时,在保持效率和性能的同时可将优化器状态下的内存使用率降低多达 65.5%。与 BF16 基线相比,8 位 GaLore 进一步减少了高达 82.5% 的优化器内存和 63.3% 的总训练内存。
值得注意的是,研究团队首次证明了在不采用模型并行、检查点或卸载策略的情况下,在拥有 24GB 内存的消费级 GPU(如NVIDIA RTX 4090)上预训练 7B 模型的可行性。
论文链接:
https://arxiv.org/abs/2403.03507
6.MIT新研究:学习使用多种语言模型协作解码
麻省理工团队提出了一种通过在 token 层交错生成多个大型语言模型(LLM)让它们学会协作的方法。他们将由哪个 LLM 生成下一个 token 的决定建模为一个潜在变量。通过在潜变量模型下优化训练集的边际可能性,基础 LLM 会自动学习何时自行生成、何时调用其中一个 “助手”语言模型生成,所有这一切都无需直接监督。解码过程中的 token 级协作可以根据手头的具体任务融合每个模型的专长。
这一协作解码尤其适用于跨领域环境,在这种环境中,通用基础 LLM 会学习调用领域专家模型。该项研究在指令遵循、特定领域 QA 和推理任务中,证明了联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析,研究团队发现用其方法训练出来的模型表现出几种有趣的协作模式,比如模板填充。
论文链接:
https://arxiv.org/abs/2403.03870
项目地址:
https://github.com/clinicalml/co-llm