国产开源模型标杆,能力比肩ChatGPT!书生·浦语2.0发布,支持免费商用

1月17日,新一代大语言模型书⽣·浦语2.0(InternLM2)正式发布并开源。

2种参数规格、3种模型版本,共计6个模型,全部免费可商用。

它支持200K超长上下文,可轻松读200页财报。200K文本全文范围关键信息召回准确率达95.62%

图片

不借助任何外部工具,内生数理能力超过ChatGPT。配合代码解释器,可达到和GPT-4相仿水平

图片

同时还带来工具多轮调用、更高共情等能力。

据了解,这些都得益于书生·浦语2.0在基础建模能力上完成大幅升级,语料质量更高、信息密度更大。

所以,书生·浦语2.0带来哪些升级?又是如何做到?

上海AI实验室领军科学家林达华教授,向我们披露了背后机密。

重点能力比肩ChatGPT

书生·浦语2.0共包含2种参数规格:7B和20B

7B面向轻量级研究和应用,20B综合性能更强可支持更复杂的使用场景。

每个规格中包含3个模型版本。

  • InternLM2-Base

  • InternLM2

  • InternLM2-Chat

Base版本是2.0中新增加的版本,它是标准版InternLM2 在进行能力强化前的版本,更加基础、可塑性也更高,因此更适合做探索研究。

标准版InternLM2是在Base基础上,对多个能力进行强化。它的评测成绩更好,同时保持了很好的通用语言能力,适合大部分应用。

Chat版本在Base基础上经过SFT和RLHF,在对话能力上进行加强,具有很好的指令遵循、共情、调用工具等能力。

具体能力方面,相较于上一代,InternLM2核心加强了基础语言建模能力

可以看到两代模型在大规模高质量验证语料上的loss分布,第二代分布整体左移,表明语言建模能力实质性增强。

图片

由此下游任务实现全方位提升,包括:

  • 有效支持200K tokens超长上下文

  • 支持复杂智能体搭建、工具多轮调用

  • 内生数理能力超越ChatGPT

  • 综合性能处于同规模开源模型领先水平

InternLM2现在有效支持20万字超长上下文,同时保持很高的信息召回成功率,相较于上一代提升明显。

图片

对InternLM2进行“大海捞针”实验,通过将关键信息随机插入一段长文本的不同位置构造问题,测试模型是否能从长文本中提取关键信息。

结果显示,InternLM2-Chat召回准确率始终保持在高位,16K以内的平均准确率达到 95.65%

图片

在实际场景中,InternLM2可以处理长达3个小时的会议记录、212页长的财报内容。

图片

内生计算能力也有大幅提升。

InternLM2在不依靠计算器等外部工具的情况下,可进行部分复杂数学题的运算和求解。

100以内数学运算上可做到接近100%准确率,1000以内达到80%准确率。

图片

如果配合代码解释器,20B模型已可以求解积分等大学级别数学题。

图片

工具调用方面,基于更强和更具有泛化性的指令理解、工具筛选与结果反思等能力,InternLM2可更可靠地支持复杂智能体搭建,支持工具进行有效多轮调用、完成复杂任务。

图片

综合性能方面,InternLM2在推理、数学、代码方面表现突出。

不仅相较于上一代提升明显,而且在标准测评集上,部分指标已经超越ChatGPT

图片

比如InternLM2-Chat-20B在MATH、GSM8K上,表现都超过ChatGPT。在配合代码解释器的条件下,则能达到和GPT-4相仿水平。

图片

在AGIEval、 BigBench-Hard(BBH)等对推理能力有较高要求的评测上,新一代20B模型的表现优于ChatGPT。

图片

同时InternLM2还和其他开源模型进行了全方位性能对比。

对比规格相近基座模型和对话模型,结果如下:

6B-7B基座模型对比

图片

13B-20B基座模型对比

注:Mixtral-8x7B每次推理会激活约 13B 参数,而且这个模型近期也备受关注,因此其表现也列在此处作为参考。

图片

6B-7B对话模型对比

图片

13B-20B对话模型对比

图片

从各项数据来看,InternLM2已经完成了全方位升级,给开源社区带来了“ChatGPT级别”的大模型选择。

那么它是如何做到的?技术上做了哪些创新?

核心在于提升数据质量

和许多大模型迭代升级的路线不同,InternLM2并没有卷参数规模,而是把重点放在了数据方面

上海AI实验室领军科学家林达华教授介绍,这是出于整体策略的考量。

提炼出一版非常好的数据后,它可以支持不同规格模型的训练。所以首先把很大一部分精力花在数据迭代上,让数据在一个领先的水平。在中轻量级模型上迭代数据,可以让我们走得更快

为此,上海AI实验室研发了新一代数据清洗过滤体系,主要工作有3方面:

  • 多维数据价值评估

  • 高质量语料驱动的数据富集

  • 有针对性的数据补齐

首先在数据价值评估上,基于语言质量、信息密度等维度对数据价值进行综合评估与提升。比如研究团队发现,论坛网页上的评论给模型能力带来的提升非常有限。

所以团队利用高质量语料的特征从物理世界、互联网以及语料库中进一步富集更多类似语料。

这样可以引导种子数据去汇聚真正有知识量的数据,加大它们的比重。

最后再针对性补充语料,重点加强世界知识、数理、代码等核心能力。

为了打造新一代数据清洗体系,研究团队训练了三位数的模型数量。因为体系每一次迭代,都起码需要训一个7B规模上的大模型做验证。

在新一代数据清洗技术的加持下,只使用约60%的训练数据,即可达到上一版数据训练1T tokens的性能表现

图片

另外,为了避免数据污染导致评测结果失真,InternLM2通过更严谨的训练集构建流程,把各测试集排除在外,同时通过min-hash去重,去掉训练语料中和测试集接近的部分。

当然,InternLM2不仅关注模型基座能力,也基于当下应用趋势需求,针对一些下游任务能力做提升。

比如近来很火的超长上下文趋势,林达华教授介绍工具调用、数理推理等场景都需要更长的长下文窗口。

所以InternLM2通过拓展训练窗口大小和位置编码改进,并找到足够长且高质量、有结构以来关系的数据做训练,同时优化训练系统,将上下文窗口支持延长到了20万tokens。

在大模型对话体验方面,InternLM2采用Online RLHF,对奖励模型和对话模型进行三轮迭代更新,在每一轮更新中对前一轮模型更新偏好数据和训练prompt。

在奖励模型训练和PPO阶段都平衡地采用各类prompt,使得模型在安全性进一步提升的情况下,对话的主观体验也显著提升。

值得一提的是,研究团队同步开源了InternLM2-Chat仅SFT和SFT+RLHF的权重,供社区分析对比RLHF前后模型的变化。

图片

总结来看,对于InternLM2的升级迭代,上海AI实验室核心关注模型基座能力,同时还结合大模型应用趋势的需求,针对部分下游任务做重点提升。

在快速演进的趋势里,这种清晰的思路很难得。

它需要团队对技术有深入理解、对趋势有准确判断,能大幅提升大模型开发效率,加速模型迭代升级。

而上海AI实验室能够得出如此思路,与其大模型初心有关。

做真正高质量的开源

2023年世界人工智能大会上,书生·浦语大模型正式开源。

通过书生·浦语的高质量全方位开源开放,我们希望可以助力大模型的创新和应用,让更多的领域和行业受惠于大模型变革的浪潮。

图片

梳理来看,过去7个月里书生·浦语的一系列开源工作,彻底且全面

范围覆盖通用大模型、专项任务大模型(书生·浦语灵笔)、全链条工具体系(贯穿数据、预训练、微调、部署、评测、应用)、多模态预训练语料(书生·万卷)等。

为什么要这样做?

上海AI实验室领军科学家林达华教授,给出了两方面原因。

直接原因是大模型应用趋势马上到来,开源高质量基座大模型能缩短落地过程的中间链条

林达华教授分析,无论是公众还是商业领域,对大模型的耐心是有限度的。2024年大家必然会全力把大模型推向真正的应用落地

做高质量基础大模型,能够让基础大模型在一个具体场景上做到应有水平,变得更方便、更迅速。

更加根本的底层原因在于,中国需要自己的高质量开源大模型

大模型趋势由ChatGPT开启,但第二波高潮来自Meta开源LLaMA。它让更多个人、机构、企业能进入到大模型领域,发展出丰富的应用,给整个技术生态带来深刻影响。

但由于LLaMA在中文理解方面存在局限、以及合规性等方面的考虑,国内需要一个中文原生的高质量开源基座。

综合各方面因素,学术界力量更能胜任这件事。

开源基座大模型不仅要保证质量高,更关键是要长期可持续。企业也能做开源,但是它天生存在商业诉求、关注点会逐渐从底层技术转向商业应用,这本身无可厚非,所以需要上海人工智能实验室能在这里发挥自己的价值。

加之学术圈无需考虑构建商业壁垒,因此让开源更加彻底。

林达华教授介绍,上海AI实验室在做大模型时会考虑应用方面需要的能力,与合作伙伴共同打造具有开创和示范性质的创新应用,而不是打造To C的商业化应用。。

比如近期升级发布的医疗多模态基础模型群“浦医2.0”。它由上海AI实验室与上海交通大学医学院附属瑞金医院等合作伙伴联合发布,旨在为“跨领域、跨疾病、跨模态”的AI医疗应用提供能力支持。目前已经建设了智能影像诊断、数字病理科建设、数字人虚拟手术、智慧临床决策、创新医学科研五大应用场景。

这项工作同样主打开源。最新升级中不仅加入了多个领先医学大模型,新增5个开源数据集、新增评测模块等,实现了医疗大模型群“产、学、研、用、评”一站式开源。

图片

浦医2.0中的医疗基础模型涵盖病理、超声、CT、MR、心电等多个医疗领域

透过这些实际开源脚步,即可洞察到当下趋势正在发生哪些转变,以及上海AI实验室如何理解趋势。

2024年被业内视为大模型应用落地元年。开年伊始,上海AI实验室的动作更加聚焦应用层面。

图片

林达华教授认为,2024年大模型领域的关键是,谁能找到大模型最具有可持续应用价值的场景

这个应用价值可能并不是我们常见的那种交互形态,比如聊天APP。

我手机上装了十几个大模型对话APP,平均使用时长只有2个小时,因为它并不是我特别需要的应用。

所以对于整个业界来说,怎样找到一个大家公认的、真正有用的场景,是一个比较大的挑战。

一旦找到,大模型技术革命就会真正在历史上沉淀下来。”

而想要走到这一步,底层基础大模型是最根本、最关键的影响因素。

回归到技术发展上,林达华教授对于2024年也给出了一些预测和判断:

  1. 大模型基础能力会逐渐收敛,之后模型间的关键区别在于谁的质量更高。

  2. 目前大模型领域任何趋势热度都不会超过3个月,比如超长上下文能力很快会成为各家大模型标配。

  3. 24年上半年会涌现一批开源多模态大模型。

  4. 当下MoE还只是初级设计,发展到最高效设计仍需一段时间。

  5. 24年国内很有希望出现比肩GPT-4的开源大模型。

总之,2024年,很有可能迎来开源大模型的高潮。

这不,开年第一枪已经由上海AI实验室打响了。

书生·浦语2.0开源链接:
https://github.com/InternLM/InternLM
免费商用授权许可申请:
https://wj.qq.com/s2/12725412/f7c1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/633527.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot日志框架logback与log4j2

目录 Springboot日志使用 Logback日志 日志格式 自定义日志格式 日志文件输出 Springboot启用log4j2日志框架 Springboot日志使用 Springboot底层是使用slf4jlogback的方式进行日志记录 Logback日志 trace:级别最低 debug:调试级别的&#xff0c…

Windows平台反调试技术学习

前言 前俩天的学习记录Windows上面的反调试学习,主要是参考《恶意代码实战分析》和《加密与解密》里面的,给每个小技术都写了程序示例,自己编译反调试了一遍。对于加解密一书是还有很多不理解的地方的,目前只能记录到这了&#x…

建筑类中级工程师职称证明业绩材料有哪些?

三、建筑类中级工程师职称造价类工程业绩材料 1.合同:证明项目合作关系的凭证。 2.预(结)算报告等(重点是体现封面有你的名字和执业印章等) 3.单位证明或任命书(本人在项目中的职务聘书) 4.工程获奖证明:项目获得市优的证书、省优…

Ubuntu 22.04.1 LTS VirtualBox7.0 解决虚拟机窗口失去焦点一段时间后,虚拟机显示不刷新问题

故障描述: virtualbox安装在ubuntu系统上,虚拟机内安装了windows操作系统。使用中发现,当linux系统窗口被激活,如firefox浏览器,虚拟机的显示一段时间后会暂停刷新,鼠标划入虚拟机窗口后,才会立…

分布式概念

文章目录 一、CAP定理和BASE定理1.1 CAP定理1.2 CAP取舍1.3 BASE定理 二、分布式事务2.1 柔性事务2.2 两阶段提交协议2.3 三阶段提交协议 三、分布式ID3.1 数据库自增ID3.2 数据库多主模式3.3 号段模式3.4 雪花算法3.5 Leaf3.6 使用Redis生成ID 四、限流算法4.1 固定窗口计数器…

TypeScript实现一个贪吃蛇小游戏

游戏效果 文件目录 准备1&#xff1a;新建index.html&#xff0c;编写游戏静态页面 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-…

小程序开发实战案例五 | 小程序如何嵌入H5页面

在接入小程序过程中会遇到需要将 H5 页面集成到小程序中情况&#xff0c;今天我们就来聊一聊怎么把 H5 页面塞到小程序中。 本篇文章将会从下面这几个方面来介绍&#xff1a; 小程序承载页面的前期准备小程序如何承载 H5小程序和 H5 页面如何通讯小程序和 H5 页面的相互跳转 小…

安全加速SCDN是什么

安全加速SCDN&#xff08;Secure Content Delivery Network&#xff0c;SCDN&#xff09; 是集分布式DDoS防护、CC防护、WAF防护、BOT行为分析为一体的安全加速解决方案。已使用内容分发网络&#xff08;CDN&#xff09;或全站加速网络&#xff08;ECDN&#xff09;的用户&…

【JavaEE】_网络通信原理

目录 1. 网络发展史 2. 网络通信基础 1.1 IP地址 1.2 端口号 1.3 协议 1.3.1 概念 1.3.2 五元组 1.4 协议分层 1.4.1 协议分层的优点 1.4.2 协议分层的分类 1.4.3网络设备所在分层 1.4.4 两台主机通过TCP/IP协议通讯过程 1.5 封装与分用 1.5.1 封装 1.5.2 分用…

Docker 容器连接

Docker 容器连接 前面我们实现了通过网络端口来访问运行在 docker 容器内的服务。 容器中可以运行一些网络应用&#xff0c;要让外部也可以访问这些应用&#xff0c;可以通过 -P 或 -p 参数来指定端口映射。 下面我们来实现通过端口连接到一个 docker 容器。 网络端口映射 …

算法练习-A+B/财务管理/实现四舍五入/牛牛的菱形字符(题目链接+题解打卡)

难度参考 难度&#xff1a;简单 分类&#xff1a;熟悉OJ与IDE的操作 难度与分类由我所参与的培训课程提供&#xff0c;但需要注意的是&#xff0c;难度与分类仅供参考。以下内容均为个人笔记&#xff0c;旨在督促自己认真学习。 题目 A B1. A B - AcWing题库财务管理1004:财…

VsCode + CMake构建项目 C/C++连接Mysql数据库 | 数据库增删改查C++封装 | 信息管理系统通用代码 ---- 课程笔记

这个是B站Up主&#xff1a;程序员程子青的视频 C封装Mysql增删改查操作_哔哩哔哩_bilibilihttps://www.bilibili.com/video/BV1m24y1a79o/?p6&spm_id_frompageDriver&vd_sourcea934d7fc6f47698a29dac90a922ba5a3安装mysql:mysql 下载和安装和修改MYSQL8.0 数据库存储…

【现代密码学】笔记9-10.3-- 公钥(非对称加密)、混合加密理论《introduction to modern cryphtography》

【现代密码学】笔记9-10.3-- 公钥&#xff08;非对称加密&#xff09;、混合加密理论《introduction to modern cryphtography》 写在最前面8.1 公钥加密理论随机预言机模型&#xff08;Random Oracle Model&#xff0c;ROM&#xff09; 写在最前面 主要在 哈工大密码学课程 张…

深入vue响应式原理

当你把一个普通的 JavaScript 对象传入 Vue 实例作为 data 选项&#xff0c;Vue 将遍历此对象所有的 property&#xff0c;并使用 Object.defineProperty 把这些 property 全部转为 getter/setter。 这些 getter/setter 对用户来说是不可见的&#xff0c;但是在内部它们让 Vue …

Docker 47 个常见故障的原因和解决方法

本文针对Docker容器部署、维护过程中&#xff0c;产生的问题和故障&#xff0c;做出有针对性的说明和解决方案&#xff0c;希望可以帮助到大家去快速定位和解决类似问题故障。 Docker是一种相对使用较简单的容器&#xff0c;我们可以通过以下几种方式获取信息&#xff1a; 1、…

简单理解自动驾驶-看这篇够了!

本文主要介绍自动驾驶技术的整体框架&#xff0c;旨在从宏观理解自动驾驶技术。 &#x1f3ac;个人简介&#xff1a;一个全栈工程师的升级之路&#xff01; &#x1f4cb;个人专栏&#xff1a;自动驾驶技术 &#x1f380;CSDN主页 发狂的小花 &#x1f304;人生秘诀&#xff1a…

第6章 现代通信技术

文章目录 6.1 图像与多媒体通信6.1.1 图像通信6.1.2 多媒体通信技术1、多媒体通信概念2、多媒体通信的组成3、多媒体通信的业务分类4、实用化的多媒体通信系统类型5、多媒体通信应用系统&#xff08;1&#xff09;多媒体会议电视系统&#xff08;2&#xff09;IPTV 6.2 移动通信…

【机器学习300问】12、为什么要进行特征归一化?

当线性回归模型的特征量变多之后&#xff0c;会出现不同的特征量&#xff0c;然而对于那些同是数值型的特征量为什么要做归一化处理呢&#xff1f; 一、为了消除数据特征之间的量纲影响 使得不同指标之间具有可比性。例如&#xff0c;分析一个人的身高和体重对健康的影响&…

每日一题——LeetCode1252.奇数值单元格的数目

进阶&#xff1a;你可以设计一个时间复杂度为 O(n m indices.length) 且仅用 O(n m) 额外空间的算法来解决此问题吗&#xff1f; 方法一 直接模拟&#xff1a; 创建一个n x m的矩阵&#xff0c;初始化所有元素为0&#xff0c;对于indices中的每一对[ri,ci]&#xff0c;将矩…

多色女童家居服,柔软细腻超舒适

柔软细腻到不想脱下来的 优可丝面料家居服来啦 精挑细选的可爱印花图案 让宝贝能够更快乐的进入梦乡 长度也是刚刚好合适 春夏交替的季节&#xff0c;建议多入几件换着穿