大模型日报|4 篇必读的大模型论文

在这里插入图片描述

大家好,今日必读的大模型论文来啦!

1.ChatGLM 技术报告:从 GLM-130B 到 GLM-4 AII Tools

GLM 技术团队介绍了 ChatGLM,这是一个不断发展的大语言模型系列。本报告主要关注 GLM-4 语言系列,包括 GLM-4、GLM-4-Air 和 GLM-4-9B。它们代表了 GLM 技术团队推出的前沿模型,这些模型是在吸取了前三代 ChatGLM 的所有经验和教训的基础上训练出来的。迄今为止,GLM-4 模型已在 10 万亿个 token(主要是中文和英文)以及 24 种语言的小型语料库上进行了预训练,并主要针对中文和英文的用法进行了对齐。高质量的对齐是通过多阶段的后训练过程实现的,其中包括监督微调和从人类反馈中学习。

评估结果表明,GLM-4 在 MMLU、GSM8K、MATH、BBH、GPQA 和 HumanEval 等通用指标方面与 GPT-4 非常接近,甚至优于 GPT-4;在指令跟随方面接近 GPT-4-Turbo(以 IFEval 衡量);在长上下文任务方面比肩 GPT-4 Turbo (128K) 和 Claude 3;在中文对齐方面优于 GPT-4(以 AlignBench 衡量)。

GLM-4 All Tools 模型经过进一步对齐,能够理解用户意图,并自主决定何时以及使用哪种工具(包括网络浏览器、Python 解释器、文本到图像模型以及用户自定义函数)来有效完成复杂任务。在实际应用中,GLM-4 All Tools 在通过网页浏览访问在线信息和使用 Python 解释器解决数学问题等任务中的表现超过了 GPT-4 All Tools。

GLM 技术团队开源了一系列模型,包括 ChatGLM-6B(1、2、3 代)、GLM-4-9B(128K、1M)、GLM-4V-9B、WebGLM 和 CodeGeeX,仅在 2023 年就在 Hugging Face 上吸引了超过 1000 万次下载。

论文链接:
https://arxiv.org/abs/2406.12793
GitHub 地址:
https://github.com/THUDM
Hugging Face 地址:
https://huggingface.co/THUDM

2.BPO:与行为 LLM 相近的在线偏好优化

根据偏好直接对齐(DAP)已经成为一种很有前途的范式,它可以根据预先收集的离线偏好数据集,将大语言模型(LLM)与人类的需求对齐。

最近的研究表明,现有的离线 DAP 方法可以直接受益于在线训练样本。然而,来自加州大学圣塔巴巴拉分校和卡内基梅隆大学的研究团队强调有必要开发特定的在线 DAP 算法,从而充分利用在线训练的优势。

具体来说,他们认为学习到的 LLM 应与收集训练样本的行为 LLM 保持一致。为此,他们提出了与行为 LLM 相近的在线偏好优化(BPO),强调了为 LLM 对齐构建适当信任区域的重要性。

他们进行了广泛的实验,通过将他们的方法与各种 DAP 方法整合,验证了它的有效性和适用性,结果发现,在使用相同数量的偏好数据进行训练时,他们的方法在各种任务中都取得了显著的性能提升。即使只引入了一个额外的数据收集阶段,他们的在线 BPO 在 TL;DR 和 Anthropic Helpfulness 两项任务中的胜率也分别从 72.0% 和 82.2% 提高到了 80.2%和 89.1%。

论文链接:
https://arxiv.org/abs/2406.12168
GitHub 链接:
https://www.jenmusic.ai/research#DreamStyler

3.JEN-1 DreamStyler:通过参数微调定制音乐概念学习

目前,文生音乐大模型已经取得了重大进展,这有助于根据所提供的文本提示创作出高质量和多样化的音乐作品。然而,输入文本提示可能无法准确捕捉用户需求,尤其是当目标是生成体现从指定参考集合中提取的特定概念的音乐时。

来自 Futureverse 的研究团队提出了一种定制文生音乐的新方法,它可以从两分钟的参考音乐中捕捉概念,并生成符合概念的新音乐。他们通过使用参考音乐微调预训练的文生音乐模型来实现这一目标。

然而,直接微调所有参数会导致过拟合问题。为此,他们提出了一种关键参数微调方法,使模型在吸收新概念的同时保留其原有的生成能力。此外,在对预训练模型提出了多个概念时,他们还发现了潜在的概念冲突。他们提出了一种概念增强策略来区分多个概念,使微调模型能够同时生成包含单个或多个概念的音乐。在定性和定量评估中,他们提出的 Jen1-DreamStyler 均优于几种基线。

论文链接:
https://arxiv.org/abs/2406.12292

4.DeepSeek-AI 推出开源 MoE 代码语言模型 DeepSeek-Coder-V2

来自 DeepSeek-AI 的研究团队提出了一种开源的专家混合(MoE)代码语言模型 DeepSeek-Coder-V2,在代码特定任务中实现了与 GPT4-Turbo 相当的性能。具体来说,DeepSeek-Coder-V2 是在 DeepSeek-V2 的中间检查点基础上进一步预训练的,额外增加了 6 万亿个 token。通过这种持续的预训练,DeepSeek-Coder-V2 大幅增强了 DeepSeek-V2 的编码和数学推理能力,同时在通用语言任务中保持了相当的性能。

与 DeepSeek-Coder-33B 相比,DeepSeek-Coder-V2 在代码相关任务的各个方面,以及推理和一般能力方面都有显著提高。此外,DeepSeek-Coder-V2 支持的编程语言从 86 种增加到 338 种,上下文长度从 16K 增加到 128K。在标准基准评估中,DeepSeek-Coder-V2 在编码和数学基准测试中的表现优于 GPT4-Turbo、Claude 3 Opus 和 Gemini 1.5 Pro 等闭源模型。

论文链接:
https://arxiv.org/abs/2406.11931
GitHub 网址:
https://github.com/deepseek-ai/DeepSeek-Coder-V2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/31011.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

r2frida:基于Frida的远程进程安全检测和通信工具

关于r2frida r2frida是一款能够将Radare2和Frida的功能合二为一的强大工具,该工具本质上是一个Radare2的自包含插件,可以帮助广大研究人员利用Frida的功能实现对目标进程的远程安全检测和通信管理。 Radare2项目提供了针对逆向工程分析的完整工具链&…

好用的抖音短视频矩阵系统推荐:筷子剪辑,超级编导。抖去推

目前短视频矩阵行业如火如荼,为大家推荐几款比较好用的短视频矩阵系统。 第一款叫做筷子剪辑,由筷子科技开发,网页版应用工具,无需下载安装 主打视频剪辑,支持一键成片,视频发布等,&#xff0…

为什么要把ip和mac地址绑定

IP地址和MAC地址绑定是一种网络安全措施,主要用于以下几个方面: 1. **防止IP地址冲突**:在局域网中,如果两个设备被分配了相同的IP地址,将会导致IP地址冲突,影响网络的正常使用。通过将IP地址与MAC地址绑定…

RS-232协议详解:深入理解与实际应用

RS-232协议详解 RS-232协议,也称为推荐标准232,是一种用于串行通信的标准协议。它在计算机和外围设备之间的通信中广泛应用。本文将详细介绍RS-232协议的各个方面,包括其历史、工作原理、信号类型、连接方式、应用场景等。希望通过这篇文章&a…

Linux 远程使用 Nvidia 显卡加速桌面

(首发地址:学习日记 https://www.learndiary.com/2024/06/nvidia-remote-desktop/) 朋友们,大家好!我是来自淘宝网学习日记小店的 learndiary,专注于 Linux 服务领域。今天,我想和大家分享一些…

靠这套车载测试面试题系列成功哪些20k!

HFP测试内容与测试方法 2.3 接听来电:测试手机来电时,能否从车载蓝牙设备和手机侧正常接听】拒接、通话是否正常。 1、预置条件:待测手机与车载车载设备处于连接状态 2、测试步骤: 1)用辅助测试机拨打待测手机&…

24年计算机等级考试22个常见问题解答❗

24年9月计算机等级考试即将开始,整理了报名中容易遇到的22个问题,大家对照入座,避免遇到了不知道怎么办? 1、报名条件 2、报名入口 3、考生报名之后后悔了,不想考了,能否退费? 4、最多能够报多少…

计网课设-发送TCP数据包

一、效果展示 二、代码实现 import nmap import socket import tkinter as tk from tkinter import messagebox,Listbox from threading import Thread#获取自身IP,从而确定当前局域网范围 def get_ip_address():#创建了一个socket对象,socket.AF_INET表…

扩散模型详细推导过程——训练与采样

扩散模型的训练与采样算法 训练目标的推导 需要使得去噪过程所产生的 x ( i ) \boldsymbol{x}^{(i)} x(i)的总体出现概率最大,先不考虑第几个样本,省略上标,即最大化 p ( x ∣ θ 1 : T ) p(\boldsymbol{x}|\theta_{1:T}) p(x∣θ1:T​)&am…

【Java】计算程序耗时多少

使用hutool自带的工具类实现 import cn.hutool.core.date.StopWatch; Slf4j public class TestApp {Testpublic void test1() {StopWatch stopWatch new StopWatch();try {// 开始计时stopWatch.start("handleReq");// 执行要测量的代码块performTask();// 停止计时…

国际版多商户商城小程序源码(Android+IOS+H5)

一站式全球购物新体验 功能介绍 精准分类、我的团队、开通会员我的返利、我的订单、快速购买 邀请返利、购物车、我的提现 一、引言:为何选择国际版多商户商城小程序? 随着全球化的步伐不断加快,越来越多的人开始追求国际化的购物体验。国…

FreeBSD在zfs挂接第二块ssd 硬盘

为FreeBSD机器新增加了一块ssd硬盘:骑尘 256G 先格式化分区硬盘 进入bsdconfig 选Disk Management 选择ada1 ,也就是新增加的硬盘 选择auto 然后选择Entire Disk 提示信息 The existing partition scheme on this disk (MBR) │ …

密码学与信息安全面试题及参考答案(2万字长文)

目录 什么是密码学?它的主要目标是什么? 请解释明文、密文、加密和解密的概念。 密码系统的安全性通常基于哪三种假设? 什么是Kerckhoffs原则?它对现代密码学设计有何意义? 简述密码学中的“混淆”和“扩散”概念。 什么是AES(高级加密标准)?AES有几种常见的密钥…

代码随想录训练营Day 64|卡码网98. 所有可达路径(深搜)

1.所有可达路径 98. 所有可达路径 | 代码随想录 代码&#xff1a; &#xff08;深搜&#xff09;邻接矩阵表示 #include <iostream> #include <vector> using namespace std; vector<int> path; vector<vector<int>> result; void dfs(const ve…

图论算法学习

图论 dfs是可一个方向去搜&#xff0c;不到黄河不回头&#xff0c;直到遇到绝境了&#xff0c;搜不下去了&#xff0c;再换方向&#xff08;换方向的过程就涉及到了回溯&#xff09;。bfs是先把本节点所连接的所有节点遍历一遍&#xff0c;走到下一个节点的时候&#xff0c;再…

01_RISC-V 入门及指令集学习

参考文档 risc-v入门&#xff1a;https://blog.csdn.net/bebebug/article/details/128039038RISC-V OS&#xff1a;https://blog.csdn.net/bebebug/article/details/130551378riscv-spec文档&#xff1a;https://riscv.org/wp-content/uploads/2019/12/riscv-spec-20191213.pd…

小摩法兴纷纷转多,看涨港股的时机来了吗?

恒生指数今日高开一度上涨89点报18520点&#xff0c;创近两周高。之后持续震荡下行&#xff1b;恒指临近中 午跌幅扩大&#xff0c;恒生科技指数一度跌近1.5%。截止收盘&#xff0c;恒生指数跌0.52%&#xff0c;盘面上&#xff0c;石油、煤炭、环保、建筑节能等板块涨幅居前&a…

java中的Random

Random 是 Java 中的一个内置类&#xff0c;它位于 java.util 包中&#xff0c;主要用于生成伪随机数。伪随机数是指通过一定算法生成的、看似随机的数&#xff0c;但实际上这些数是由确定的算法生成的&#xff0c;因此不是真正的随机数。然而&#xff0c;由于这些数在统计上具…

新手下白对Latex下手啦!

第一次使用latex&#xff0c;浅浅地记录一下子吧。 首先我们一般会下载一个latex模板&#xff0c;如果想知道咋下载&#xff0c;评论去告诉俺哟&#xff01; 新手小白首先要看懂结构&#xff0c;不然完全下不了手&#xff0c;本文就以IEEE的模板&#xff0c;从头往下讲咯~ 第…

网页的CSS和JavaScript文件没有自动更新, 解决办法

项目场景&#xff1a; 无人值守的场馆预定以及管理 问题描述 更新了CSS和JavaScript&#xff0c;访问始终样式不对 原因分析&#xff1a; 浏览器缓存了你的CSS和JavaScript文件 浏览器缓存了你的CSS和JavaScript文件。当文件的修改时间戳&#xff08;last-modified&#xff…