【第1节】书生·浦语大模型全链路开源开放体系

目录

  • 1 简介
  • 2 内容
    • (1)书生浦语大模型发展历程
    • (2)体系
    • (3)亮点
    • (4)全链路体系构建
      • a.数据
      • b 预训练
      • c 微调
      • d 评测
      • e.模型部署
      • f.agent 智能体
  • 3 相关论文解读
  • 4 ref

1 简介

  • 书生·浦语 InternLM介绍
    InternLM 是在过万亿 token 数据上训练的多语千亿参数基座模型。通过多阶段的渐进式训练,InternLM 基座模型具有较高的知识水平,在中英文阅读理解、推理任务等需要较强思维能力的场景下性能优秀,在多种面向人类设计的综合性考试中表现突出。在此基础上,通过高质量的人类标注对话数据结合 RLHF 等技术,使得 InternLM 可以在与人类对话时响应复杂指令,并且表现出符合人类道德与价值观的回复

  • 2024.1.17 InternLM V2.0 已经升级成为v2.0 (笔记更新时间2024.4)

  • 重要链接汇总
    官方github地址 | 官方网址 | 【模型中心-OpenXLab 实战营优秀项目】 | 常见问题QA

2 内容

(1)书生浦语大模型发展历程

在这里插入图片描述

(2)体系

在这里插入图片描述
在这里插入图片描述

(3)亮点

在这里插入图片描述在这里插入图片描述主要表现在:

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

(4)全链路体系构建

在这里插入图片描述在这里插入图片描述

a.数据

万卷 : 官方地址
在这里插入图片描述

上海人工智能实验室(上海AI实验室)于2023年8月14日宣布开源发布“书生·万卷” 1.0多模态预训练语料。
据了解,“书生·万卷”的主要构建团队——OpenDataLab旨在建设面向人工智能开发者的超大规模、高质量、多模态开放数据服务平台,致力于打造国内公开数据资源的基础建设。
目前,该平台已建立共享的多模态数据集5500个,涵盖超过1万亿token文本语料、60亿张图像、8亿个视频片段和100万个3D模型。

在这里插入图片描述

b 预训练

在这里插入图片描述

c 微调

在这里插入图片描述
xtuner在这里插入图片描述

d 评测

在这里插入图片描述在这里插入图片描述

  • 重要链接和地址
    司南OpenCompass2.0评测体系官网:https://opencompass.org.cn/
    GitHub主页:https://github.com/open-compass/OpenCompass/

  • 本次发布的OpenCompass2.0,首次推出支撑大模型评测的“铁三角”:
    权威评测榜单CompassRank
    高质量评测基准社区CompassHub
    评测工具链体系CompassKit

基于全新升级的能力体系和工具链,OpenCompass2.0构建了一套高质量的中英文双语评测基准,涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面对大模型进行评测分析。通过高质量、多层次的综合性能力评测基准,OpenCompass2.0创新了多项能力评测方法,实现了对模型真实能力的全面诊断。

Alt

  • CompassRank:中立全面的性能榜单

在这里插入图片描述

作为OpenCompass2.0中各类榜单的承载平台,CompassRank不受任何商业利益干扰,保持中立性。同时,依托CompassKit工具链体系中的各类评测手段,保证了CompassRank的客观性。CompassRank不仅覆盖多领域、多任务下的模型性能,还将定期更新,提供动态的行业洞察。与此同时,OpenCompass团队将在榜单中提供专业解读,进一步帮助从业者理解技术深意,优化模型选择。

CompassRank 榜单地址:https://rank.opencompass.org.cn/home

  • CompassHub:高质量评测基准社区

CompassHub是面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。OpenCompass2.0欢迎评测用户在CompassHub上传各自构建的高质量评测基准,发布相应的性能榜单,汇聚社区力量助力大模型社区整体快速发展。

CompassHub社区地址:https://hub.opencompass.org.cn/home

  • CompassKit:大模型评测全栈工具链

OpenCompass2.0对广受欢迎的初代评测工具库进行了全面优化,推出大模型评测全栈工具链CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

CompassKit工具链地址:https://github.com/open-compass

CompassKit中包含:

OpenCompass升级版大语言模型评测工具:提供全面的大模型评测功能,包括广泛模型支持、高效评测速度、主观评测能力、数据污染检查和丰富的长文本评测能力。

VLMEvalKit多模态大模型评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。

Code-Evaluator代码评测服务工具:提供基于docker的统一编程语言评测环境,确保代码能力评测的稳定性和可复现性。

MixtralKit MoE模型入门工具:为MoE模型初学者提供学习资料、模型架构解析、推理与评测教程等入门工具。

e.模型部署

在这里插入图片描述

f.agent 智能体

在这里插入图片描述在这里插入图片描述
agentlego : 多功能、多模态的AI工具箱

3 相关论文解读

InternLM2 技术报告: https://arxiv.org/pdf/2403.17297.pdf

通义千问 - 文档解读

  • 摘要翻译:
    随着诸如ChatGPT和GPT-4这样的大型语言模型(LLMs)的发展,引发了关于通用人工智能(AGI)到来的讨论。然而,在开源模型中复制此类进展颇具挑战性。本文介绍了一款名为InternLM2的开源LLM,它通过创新的预训练和优化技术,在六个维度、三十个基准测试以及长程建模和开放式主观评估方面超越了其前身。InternLM2的预训练过程详尽阐述,突出了包括文本、代码及长程数据在内的多种数据类型的准备。该模型在预训练和微调阶段初始以4k令牌进行训练,随后提升至32k令牌,展现出在20万字符级别的“大海捞针”测试中的卓越性能。进一步地,通过监督精细调整(Supervised Fine-Tuning, SFT)和新颖的基于人类反馈的条件在线强化学习策略(Conditional Online Reinforcement Learning from Human Feedback, COOL RLHF),InternLM2解决了人类偏好冲突和奖励破解问题,并实现了对模型的校准。通过发布不同训练阶段和模型规模的InternLM2模型,我们为社区提供了有关模型演进的深入见解。

  • 各标题内容翻译:
    1.引言
    讨论大型语言模型的进步与开源领域面临的挑战,引出InternLM2模型的推出及其优势。
    2.基础设施
    描述InternLM2的研发基础设施,如InternEvo平台和模型结构设计。
    3.预训练
    细致说明预训练数据的来源与处理,包括文本数据、代码数据和长程上下文数据的准备。
    4.性能评估与分析

提供全面的语言模型在多个领域和任务上的表现评估与分析。
a.下游任务性能
b.全面评估:在一系列涵盖人文科学、社会科学、STEM等多个学科领域的多选题数据集(如MMLU)上进行基准测试。
c.语言与知识应用
d.推理与数学能力验证:涉及WinoGrande、HellaSwag和BigBench Hard等推理与数学相关的多项选择题数据集。
e.多编程语言编码能力
f.长程建模性能
g.工具利用能力

  • 文档内容相关亮点与优点分析:

InternLM2模型的主要亮点在于:

(1) 开源性:作为一款开源LLM,InternLM2在各种综合评测和基准测试中表现出优于前代模型的能力,这有利于学术界和产业界共同推进AI技术的发展和应用。
(2)预训练技术创新:采用多样化的预训练数据类型,并有效捕捉长程依赖关系,提升了模型在长文本理解和生成、跨领域知识运用等方面的表现。
(3)强化学习与校准:通过SFT和COOL RLHF策略对模型进行进一步校准,解决了大规模预训练模型在处理复杂情境下的人类偏好表达和奖励机制安全问题。
(4)表现优异:在阅读理解、开放域问答、多语言翻译等多种NLP下游任务上取得突出成绩,显示出强大的语言理解和知识应用能力。

  • 这篇技术报告的主要贡献有两个方面:

1.开源高性能的InternLM2模型:团队发布了各种规模的InternLM2模型,包括1.8B、7B和20B参数量级的版本,并且这些模型在主观和客观评价中均表现出色。为了便于社区分析SFT(监督微调)和RLHF(基于人类反馈的强化学习)训练阶段的变化,他们还提供了不同训练阶段的模型版本。

2.针对长上下文场景的设计与实践:InternLM2针对长序列上下文信息处理进行了特别优化,能够在一个200k的上下文窗口中近乎完美地识别“Needle-in-a-Haystack”测试中的目标元素。研究人员详尽介绍了在整个预训练、SFT以及RLHF各个阶段训练长上下文LLM的经验和方法。

3.全面的数据准备指南:团队详细记录了为LLM准备不同类型数据的过程,包括预训练数据、领域特异性增强数据、SFT数据以及RLHF数据,这将有助于社区更有效地训练大型语言模型。

通过上述贡献,InternLM2项目不仅展示了在众多基准任务上的优越性能,而且为如何分阶段地进行大规模语言模型的研发提供了一套完整的解决方案。

4 ref

1.书生·浦语大模型全链路开源开放体系(视频)
2.一文读懂司南大模型评测体系OpenCompass
3.通义千问

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/824430.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

.net9 AOT编绎生成标准DLL,输出API函数教程-中国首创

1,安装VS2022预览版(Visual Studio Preview) https://visualstudio.microsoft.com/zh-hans/vs/preview/#download-preview 2,选择安装组件:使用C的桌面开发 和 .NET桌面开发 ------------------------------------- …

SnapGene Mac激活版 分子生物学软件

SnapGene Mac是一款功能全面、操作便捷的综合性分子生物学软件,专为Mac用户打造。它集成了DNA序列编辑、分析、可视化和团队协作等多种功能,为科研人员提供了一个高效、可靠的分子生物学研究工具。 SnapGene Mac激活版下载 在SnapGene Mac中,…

批量插入10w数据方法对比

环境准备(mysql5.7) CREATE TABLE user (id bigint(20) NOT NULL AUTO_INCREMENT COMMENT 唯一id,user_id bigint(10) DEFAULT NULL COMMENT 用户id-uuid,user_name varchar(100) NOT NULL COMMENT 用户名,user_age bigint(10) DEFAULT NULL COMMENT 用户年龄,create_time time…

Docker搭建Minisatip

Minisatip 是一个多线程的 satip 服务器版本 1.2,它在 Linux 下运行,并且已经通过了与 DVB-S、DVB-S2、DVB-T、DVB-T2、DVB-C 等的测试。satip 是一个用于接收卫星电视流的服务器软件,而 Minisatip 则是该软件的一个轻量级版本,它…

ssm057学生公寓管理中心系统的设计与实现+jsp

学生公寓管理中心系统设计与实现 摘 要 现代经济快节奏发展以及不断完善升级的信息化技术,让传统数据信息的管理升级为软件存储,归纳,集中处理数据信息的管理方式。本学生公寓管理中心系统就是在这样的大环境下诞生,其可以帮助管…

JS版本号比较大小

概述 在项目开发和运行的过程中,总是少不了各类升级。例如某个功能组件需要更高的依赖库、数据项需要进行兼容等等问题。遇到此类问题开发者需要使用版本号来解决。版本号通常由三部分组成:主版本号、次版本号和修订版本号 通常来说升级会涉及到三个…

【JavaEE多线程】线程的创建

系列文章目录 🌈座右铭🌈:人的一生这么长、你凭什么用短短的几年去衡量自己的一生! 💕个人主页:清灵白羽 漾情天殇_计算机底层原理,深度解析C,自顶向下看Java-CSDN博客 ❤️相关文章❤️:清灵白羽 漾情天…

【代码】Python3|Requests 库怎么继承 Selenium 的 Headers (2024,Chrome)

本文使用的版本: Chrome 124Python 12Selenium 4.19.0 版本过旧可能会出现问题,但只要别差异太大,就可以看本文,因为本文对新老版本都有讲解。 文章目录 1 难点解析和具体思路2 注意事项2.1 PDF 资源获取时注意事项2.2 Capabiliti…

asp.net core 依赖注入后的服务生命周期

ASP.NET Core 依赖注入(DI)容器支持三种服务的生命周期选项,它们定义了服务实例的创建和销毁的时机。理解这三种生命周期对于设计健壯且高效的应用程序非常重要: 瞬时(Transient): 瞬时服务每次…

西瓜书学习——第一、二章笔记

[] 什么是机器学习? 研究关于“学习算法”(一类能从数据中学习出其背后潜在规律的算法)的一门学科。 PS:深度学习指的是神经网络那一类学习算法,因此是机器学习的子集。 假设空间和版本空间 举个栗子:假设现已收集到某地区近几年的房价和学校数量数据&#xf…

CloudCompare 整体架构

CloudCompare 是一个开源的大规模点云处理软件,内置了点云渲染和各种点云算法,还有插件化拓展,非常适合作为点云相关软件的基础程序进行二次开发。源码地址:https://github.com/CloudCompare/CloudCompare 这里记录一下项目的主要模块目录和他们做的事情。 编译和依赖 编…

ChatGPT及GIS、生物、地球、农业、气象、生态、环境科学领域案例

以ChatGPT、LLaMA、Gemini、DALLE、Midjourney、Stable Diffusion、星火大模型、文心一言、千问为代表AI大语言模型带来了新一波人工智能浪潮,可以面向科研选题、思维导图、数据清洗、统计分析、高级编程、代码调试、算法学习、论文检索、写作、翻译、润色、文献辅助…

SRIO系列-时钟逻辑与复位逻辑

一、前言 上一篇讲述了SRIO协议的基本概念,传输的HELLO帧格式、事务类型等,本篇说一下SRIO IP核的时钟关系。 基本的IP设置可以参考此篇文章:【高速接口-RapidIO】Xilinx SRIO IP 核详解-CSDN博客 二、时钟关系 PHY可以在两个时钟域上运行…

【Java EE】多线程-进阶-锁策略

目录 1.常见的锁策略 1.1乐观锁 vs 悲观锁 1.2重量级锁 vs 轻量级锁 1.3自旋锁(Spin Lock) 1.4公平锁 vs 非公平锁 1.5可重入锁和不可重入锁 1.6读写锁 2.CAS 2.1什么事CAS 2.2CAS是怎么实现的 2.3CAS有哪些应用 2.3.1实现原子类 2.3.2实现自…

自动驾驶(八十四)---------中间件对比分析

很久没有写博客了,CSDN无故非法删了我第82篇,让我很恼火,一直提不起兴趣重新写一遍第82篇。但回初心,知识需要用自己的语言输出,所以今天对比分析自动驾驶中间件: 1. 中间件介绍 在自动驾驶架构中&#xf…

SAP打印输出设置

SAP打印输入有很多方式,适合不同的应用场景。 一.打印输出总体概览图 二.前台打印 这个是比较常见的,前端打印的出现减轻了管理员的工作量,用户可以选择自己电脑上的打印机输出,不需要所有打印机都在SAP平台中进行配置&#xff0…

【Next】动态路由、加载 UI 和流式传输

动态路由 动态段作为 params 属性传递给 layout、page、route 和 generateMetadata 函数。 /app/blog/[slug]/page.tsx export default function Page({params}: {params:{slug:string}}) {return <h1>Slug Page -- {params.slug}</h1> };/app/shop/[...slug]/pa…

(vue)el-select选择框加全选/清空/反选

(vue)el-select选择框加全选/清空/反选 <el-form-item label"批次"><el-selectv-model"formInline.processBatch"multiplecollapse-tagsfilterableplaceholder"请选择"style"width: 250px"no-data-text"请先选择企业、日…

常用的启发式算法有哪些

常用的启发式算法主要包括模拟退火算法&#xff08;SA&#xff09;、蚁群算法&#xff08;ACO&#xff09;、粒子群算法&#xff08;PSO&#xff09;、遗传算法&#xff08;GA&#xff09;、禁忌搜索算法&#xff08;TS&#xff09;以及超启发式算法&#xff08;Hyper-Heuristi…

Java使用documents4j将word和excel转pdf

pom.xml添加documents4j依赖 <!-- documents4j --> <dependency><groupId>com.documents4j</groupId><artifactId>documents4j-local</artifactId><version>1.0.3</version> </dependency> <!-- documents4j 转 wor…