大模型日报|8 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.M2Lingual:在大语言模型中加强多语言、多轮次的指令对齐

指令微调对于大语言模型(LLM)按照指令进行对齐至关重要。最近提出了许多有效的 IFT 数据集,但大多数数据集都集中在英语等高资源语言上。为此,来自 ServiceNow 和伊利诺伊大学芝加哥分校的研究团队提出了一个完全合成的、以新分类法(Evol)为指导的多语言、多轮次指令微调数据集 M2Lingual,从而更好地调整不同语言和任务集上的 LLM。

M2Lingual 包含共 182K 对 IFT,建立在不同的种子之上,涵盖 70 种语言、17 种 NLP 任务和一般指令响应对。使用 M2Lingual 对 LLM 进行微调后,其性能大大优于大多数现有的多语言 IFT 数据集。重要的是,与现有的多语言 IFT 数据集相比,使用 M2Lingual 训练的 LLM 在各种评估基准中始终取得具有竞争力的结果。具体来说,使用 M2Lingual 进行微调的 LLM 在他们翻译的多语言、多轮次评估基准以及各种多语言任务中都取得了优异的成绩。

论文链接:
https://arxiv.org/abs/2406.16783

2.负责任的基础模型开发手册:工具与资源综述

目前,基础模型开发吸引了越来越多的贡献者、科学家和应用程序。为了帮助形成负责任的开发实践,来自麻省理工学院(MIT)和 EleutherAI 的研究团队提出了基础模型开发工作手册 —— 一个不断扩大的涵盖文本、视觉和语音模式的 250 多种工具和资源的集合。

他们借鉴了大量先前的工作成果,调查了各种资源(如软件、文档、框架、指南和实用工具),这些资源可支持明智的数据选择、处理和理解,精确且具有限制意识的人工制品文档,高效的模型训练,提前意识到训练对环境的影响,对能力、风险和主张进行仔细的模型评估,以及进行负责任的模型发布、许可和部署实践。他们希望这份资源汇编能帮助指导更负责任的开发。在整理这份清单的过程中,他们回顾了人工智能开发生态系统,发现了在现有实践中的工具严重缺失、被滥用或过度使用的情况。

他们发现:(1)数据来源、模型评估和监测工具严重满足不了道德和现实世界的需要(2)模型安全性、能力和环境影响的评估都缺乏可重复性和透明度(3)文本分析,特别是以英语为中心的分析,仍然占主导地位,而不是多语言和多模式分析(4)需要对系统而不仅仅是模型进行评估,以便根据具体情况评估能力和影响。

论文链接:
https://arxiv.org/abs/2406.16746

3.FastMem:快速记忆提示提高大语言模型的上下文感知能力

大语言模型(LLMs)在生成连贯文本方面表现出色,但它们在上下文意识方面往往很吃力,导致在要求忠实于所提供信息的任务中出现不准确的情况。

来自鲁汶大学、中国科学技术大学和上海高级算法研究院及其合作者提出了一种旨在通过快速记忆提示信息来增强指令微调 LLM 的上下文意识的方法 FastMem。FastMem 只对最后一个前馈网络(FFN)模块进行微调,从而在推理之前最大化提示的可能性。这种有针对性的方法确保了在不过度拟合的情况下进行高效优化,从而显著提高了模型理解和准确跟读上下文的能力。

实验证明,在阅读理解、文本摘要和遵循输出结构方面,他们的模型都取得了显著的进步。例如,FastMem 将 Llama 3-8B-Inst 在 NQ-SWAP 数据集上的准确率从 59.1% 提高到 71.6%,并将 Qwen 1.5-4B-Chat 的输出结构失效率从 34.9% 降低到 25.5%。广泛的实验结果凸显了 FastMem 的潜力,它可以提供鲁棒性的解决方案,在各种应用中提高 LLM 的可靠性和准确性。

论文链接:
https://arxiv.org/abs/2406.16069
GitHub 地址:
https://github.com/IAAR-Shanghai/FastMem

4.BigCodeBench:使用多种函数调用和复杂指令生成代码的基准测试

编程大语言模型(LLM)的最新进展极大地增强了自动化软件工程的能力。虽然目前的基准测试表明,LLMs 可以像人类开发人员一样执行各种软件工程任务,但对它们的评估大多局限于简短和独立的算法任务。

要解决具有挑战性和实用性的编程任务,就必须具备利用各种函数调用工具的能力,从而高效地实现数据分析和网络开发等功能。此外,使用多种工具解决任务还需要通过准确理解复杂指令来进行组合推理。要同时满足这两个特点,对 LLM 来说是一个巨大的挑战。

为了评估 LLM 能否很好地解决具有挑战性的实际编程任务,来自莫纳什大学、澳大利亚联邦科学与工业研究组织和新加坡管理大学的研究团队及其合作者提出了 Bench 基准,该基准挑战 LLM 调用来自 139 个库和 7 个领域的多个函数作为工具,完成 1140 个细粒度编程任务。

为了严格评估 LLM,每个编程任务包含 5.6 个测试用例,平均分支覆盖率为 99%。此外,他们还提出了一种面向自然语言的 Bench 变种 Benchi,它能自动将原始文档转化为仅包含基本信息的简短指令。他们对 60 个 LLM 进行的广泛评估表明,LLM 尚不能准确地按照复杂指令使用函数调用,得分率最高为 60%,明显低于人类 97% 的表现。

论文链接:
https://arxiv.org/abs/2406.15877
GitHub 地址:
https://bigcode-bench.github.io/

5.Video-Infinity:分布式长视频生成方法

目前,扩散模型在视频生成方面取得了令人瞩目的成果。

然而,尽管取得了令人鼓舞的成绩,但生成的视频通常仅限于少量帧,导致视频片段只能持续几秒钟。生成较长视频的主要挑战包括对内存的大量需求以及在单个 GPU 上所需的较长的处理时间。一个直接的解决方案是在多个 GPU 上分担工作量,但这会导致两个问题:(1)确保所有 GPU 有效通信,从而共享定时和上下文信息(2)修改现有的视频扩散模型(这些模型通常是在短序列上训练的),以便在不进行额外训练的情况下制作较长的视频。

为此,来自新加坡国立大学的研究团队提出了一种分布式推理管道 Video-Infinity,可在多个 GPU 上进行并行处理,从而生成长视频。具体来说,他们提出了两种连贯机制 —— 剪辑并行和双范围关注。剪辑并行机制优化了 GPU 之间上下文信息的收集和共享,从而最大限度地减少了通信开销;而双范围注意力则调节了时间自注意力,从而在各设备之间有效地平衡本地和全局上下文。这两种机制共同作用,分散了工作负荷,实现了长视频的快速生成。在 8 倍速英伟达的 6000 Ada GPU(48G)设置下,他们的方法可在约 5 分钟内生成多达 2300 帧的视频,使长视频生成速度比之前的方法快 100 倍。

论文链接:
https://arxiv.org/abs/2406.16260

6.VideoHallucer:评估 LVLM 中的内在和外在幻觉

多模态大语言模型(MLLMs)的最新进展已将其功能扩展到视频理解方面。

然而,这些模型经常受到“幻觉”的困扰,即生成的内容与实际视频上下文不相关或无意义。来自北京通用人工智能研究院、国家重点通用人工智能实验室和加州大学圣克鲁斯分校的研究团队提出了第一个大型视频语言模型(LVLM)幻觉检测综合基准 VideoHallucer。

VideoHallucer 将幻觉分为两大类:内在幻觉和外在幻觉,并进一步细分为对象相关幻觉、时间幻觉、语义细节幻觉、外在事实幻觉和外在非事实幻觉,以便进行详细分析。他们采用对抗性二元视频质量保证方法进行综合评估,其中基本问题和幻觉问题成对进行策略性设计。通过在 VideoHallucer 上对 11 种 LVLM 进行评估,他们发现:(1)当前大多数模型在幻觉方面都存在严重问题(2)虽然扩展数据集和参数可以提高模型检测基本视觉线索和反事实的能力,但对检测外在事实幻觉的益处有限(3)与识别幻觉相比,现有模型更擅长检测事实。作为副产品,这些分析进一步指导了他们的自我 PEP 框架的发展,在所有模型架构中,它们平均提高了5.38%的抗幻觉能力。

论文链接:
https://arxiv.org/abs/2406.16338
GitHub 地址:
https://videohallucer.github.io/

7.从语言到视觉的长上下文转移

视频序列提供了宝贵的时间信息,但现有的大型多模态模型(LMM)无法理解超长视频。许多作品通过使用视觉重采样器减少视觉 token 的数量来解决这一问题。

来自 LMMs-Lab 团队、新加坡南洋理工大学和新加坡科技设计大学的研究团队则从语言模型的角度来解决这一问题。通过简单地推理语言骨干的上下文长度,使 LMM 无需任何视频训练就能理解数量级更多的视觉 token。他们称这种现象为“长上下文转移”(long context transfer),并仔细剔除其特性。

为了有效衡量 LMM 在视觉模式下的长上下文泛化能力,他们开发了一种纯合成的长视觉基准 Visual Needle-In-A-Haystack(V-NIAH),其灵感来自语言模型的 NIAH 测试。他们提出的长视频助手(LongVA)可以处理 2000 帧或超过 200K 个视觉 token,而无需额外的复杂性。凭借其扩展的上下文长度,LongVA 通过对更多输入帧进行密集采样,在 7B 级模型的 Video-MME 中展示了较强的性能。

论文链接:
https://arxiv.org/abs/2406.16852
GitHub 地址:
https://github.com/EvolvingLMMs-Lab/LongVA

8.通过缩小稳定性差距实现高效持续的预训练

持续预训练已逐渐成为大语言模型(LLM)适应新领域的主要方法。这一过程包括用新领域的语料库更新预训练的 LLM,从而导致训练分布的转变。

为了研究 LLM 在这一转变过程中的行为,来自北京大学、香港科技大学和麻省理工学院的研究团队测量了模型在整个持续预训练过程中的性能。他们观察到,在开始阶段会出现暂时的性能下降,随后是恢复阶段,这种现象被称为“稳定性差距”,以前在视觉模型对新类别进行分类时曾注意到这一现象。为此,在固定预算内提高 LLM 性能,他们提出了三种有效策略:(1)持续在具有适当规模的子集上对 LLM 进行多个历时的预训练,这样比在单个历时内对大型语料库进行预训练能更快地恢复性能(2)只在高质量的子语料库上对 LLM 进行预训练,这样能迅速提升领域性能(3)使用与预训练数据类似的数据混合物来减少分布差距。

他们在 Llama-family 模型上进行了各种实验,以验证他们的策略在医学持续预训练和指令调整方面的有效性。例如,他们的策略只用了原来训练预算的 40%,就将 OpenLlama-3B 模型的平均医疗任务性能从 36.2% 提高到了 40.7%,并且在不引起遗忘的情况下提高了平均一般任务性能。

论文链接:
https://arxiv.org/abs/2406.14833
项目地址:
https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/33914.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

七天速通javaSE:第一天 入门:Hello,Word与程序运行机制

文章目录 前言一、Hello,Word!1.新建一个文件夹存放代码2.新建一个.java文件3.编写代码 二、编译与运行1.在控制台编译java文件2.运行class文件 三、java程序运行机制1.高级语言的分类1.1 编译型语言1.2 解释型语言 2.程序运行机制 四、IDEA五、代码规范…

lambdastreammaven

1.Lambda &#xff08;1&#xff09;Java 8 Lambda 表达式 在 Java 8 以前&#xff0c;若我们想要把某些功能传递给某个方法&#xff0c;总要去写内部类 或匿名内部类类。代码示例&#xff1a; list.sort(new Comparator<User>() { Override public int compare(User …

Linux显示服务器Wayland切换到X11

1、临时切换 &#xff1a; 注销当前用户账户&#xff0c;返回到登录屏幕。 在登录屏幕上&#xff0c;选择您要登录的用户账户。 在输入密码之前&#xff0c;在登录屏幕的右下角可能有一个齿轮图标&#xff0c;点击它以展开更多选项。 在选项中选择“Ubuntu on Xorg”或“Ubu…

2732. 找到矩阵中的好子集

题目 给你一个下标从 0 开始大小为 m x n 的二进制矩阵 grid。 从原矩阵中选出若干行构成一个行的非空子集&#xff0c;如果子集中任何一列的和至多为子集大小的一半&#xff0c;那么我们称这个子集是好子集。 更正式的&#xff0c;如果选出来的行子集大小&#xff08;即行的…

CNN-O-ELMNet: 优化的轻量化通用模型,用于肺部疾病分类和严重性评估| 文献速递-先进深度学习疾病诊断

Title 题目 CNN-O-ELMNet: Optimized Lightweight andGeneralized Model for Lung DiseaseClassification and Severity Assessment CNN-O-ELMNet: 优化的轻量化通用模型&#xff0c;用于肺部疾病分类和严重性评估 01 文献速递介绍 肺部疾病是全球主要的致残和死亡原因。根…

nextjs-创建layouts共用UI和独立pages页面

原文链接&#xff1a;https://nextjs.org/learn/dashboard-app/creating-layouts-and-pages 01-nextjs起步02-css样式03-处理字体和图片05-页面之间的导航跳转更多 到目前为止&#xff0c;您的应用程序只有一个主页。让我们学习如何使用布局和页面创建更多路由。 本章目标 …

【学习】科大睿智解读ITSS认证中咨询机构的作用

企业拥有ITSS认证这不仅将为企业开拓商机&#xff0c;提升竞争力&#xff0c;还能促使企业改进内部运维流程&#xff0c;提高服务质量&#xff0c;为客户提供更优质的IT运维支持。在ITSS认证中&#xff0c;咨询机构扮演着重要的角色&#xff0c;其主要作用包括以下几个方面&…

金融科技在智能投研领域的应用与前景

随着科技的飞速发展&#xff0c;金融科技&#xff08;FinTech&#xff09;正逐步渗透到金融行业的各个细分领域&#xff0c;其中智能投研领域作为金融科技的重要应用之一&#xff0c;正展现出巨大的潜力和广阔的前景。智能投研利用大数据、人工智能&#xff08;AI&#xff09;等…

Java高级重点知识点-14-Set接口、HashSet底层原理讲解

文章目录 Set接口 (HashSet 、LinkedHashSet)HashSet底层原理(重点理解) Set接口 (HashSet 、LinkedHashSet) 无序不重复 HashSet集合 HashSet 是根据对象的哈希值来确定元素在集合中的存储位置&#xff0c;因此具有良好的存取和查找性能。 public class HashSetDemo {publ…

新型防勒索病毒方案分享无需依靠病毒库

MCK具备可信系统&#xff0c;数据库保护&#xff0c;场景白名单&#xff0c;文件保护四大功能。如何运用在防勒索病毒中 在防勒索病毒的问题上&#xff0c;MCK主机的加固功能显得尤为重要。MCK的四大功能——可信系统、数据库保护、场景白名单以及文件保护&#xff0c;为我们在…

Excel 快速查询工具 2023.7.1 更新

Excel 快速查询工具作者表示这个软件是因为有时候需要在 Excel 和网站之间进行切换非常的麻烦&#xff0c;这款软件可以以半透明的方框位于桌面上。 特点 软件窗口半透明并至于顶部&#xff0c;无需来回切换界面。 实时查询&#xff0c;不用点击查询或者按回车之类的&#x…

IDEA 学习之 启动“卡死”

目录 1. 断点问题2. IDEA 版本问题 1. 断点问题 部分断点涉及应用启动&#xff0c;会导致启动“卡死” 2. IDEA 版本问题 部分 IDEA 版本存在启动问题&#xff0c;本人之前遇到过&#xff08;别人启动三分钟&#xff0c;我启动半个小时&#xff09;。更换别的版本&#xff…

docker技术的说明

根据学习网站整理&#xff1a;Docker 10分钟快速入门_哔哩哔哩_bilibili 小白也能看懂的容器科普说明_哔哩哔哩_bilibili 1.虚拟机&#xff0c;需要模拟硬件系统、运行整个操作系统&#xff0c;但体积臃肿&#xff0c;内存占用较高&#xff0c;程序的性能也会受到影响。 2.…

2024年全国VUE考试中心大全!

大家好&#xff0c;华为HCIA、HCIP、HCIE的笔试部分&#xff0c;都需要在VUE考试中心进行预约。但是很多同学都不知道当地VUE考试中心在哪里&#xff01; 为了解决大家的问题&#xff0c;这边整理了全国各大城市的VUE考试中心名称和详细地址。需要的小伙伴们可以来看看&#x…

JavaWeb系列十一: Web 开发会话技术(Cookie, Session)

韩sir Cookie技术Cookie简单示意图Cookie常用方法Cookie创建Cookie读取JSESSIONID读取指定Cookie Cookie修改Cookie生命周期Cookie的有效路径Cookie作业布置Cookie注意事项Cookie中文乱码问题 Session技术Session原理示意图Session常用方法Session底层机制Session生命周期Sessi…

FuTalk设计周刊-Vol.062

#AI漫谈 热点捕手 1.阿里云推出首个AI程序员&#xff1a;分钟级完成应用开发 在阿里云上海 AI 峰会上&#xff0c;阿里云推出了首个「AI 程序员」&#xff0c;其具备架构师、开发工程师、测试工程师等岗位技能&#xff0c;能完成任务分解、代码编写、测试、问题修复、代码提交…

react学习——14react生命周期图(旧)

1、生命周期图 2、单个组件 class Demo extends React.Component{//构造器constructor(props){console.log("count--constructor")super(props)this.state{count: 1}}//组件将要挂载componentWillMount(){console.log("count--componentWillMount")}//组件…

【AI大模型】ChatTTS——颠覆传统,赋能未来的文本到语音技术

文章目录 一、项目介绍二、代码解释三、从技术角度进行分析四、技术细节与实现五、优缺点分析六、应用场景分析七、未来展望八、结论 一、项目介绍 随着人工智能技术的不断进步&#xff0c;语音合成&#xff08;TTS&#xff09;技术得到了飞速发展。ChatTTS项目作为一个开源的…

用VScode打开keil下的文件中文编码乱码的问题,以及利用VScode转换字符编码的方法

目录 问题描述 解决方法 利用VScode转换字符编码的方法 问题描述 keil中默认的编码是ANIS如下图所示。 而VScode中默认的编码为UTF-8 &#xff0c;打开后如下。 解决方法 建议另存后&#xff0c;再打开目标文件&#xff0c;防止误操作&#xff01; 在VScode的最下方可以找…

MCP2515汽车CAN总线支持SPI接口的控制器芯片替代型号DPC15

器件概述 DPC15是一款独立CAN控制器&#xff0c;可简化需要与CAN总线连接的应用。可以完全替代兼容MCP2515 图 1-1 简要显示了 DPC15 的结构框图。该器件主要由三个部分组成&#xff1a; 1. CAN 模块&#xff0c;包括 CAN 协议引擎、验收滤波寄存 器、验收屏蔽寄存器、发送和接…