【书生大模型实战】L1-书生大模型全链路开源体系

一、关卡任务

  • 观看本关卡视频后,写一篇关于书生大模型全链路开源开放体系的笔记。

  • 视频链接:【书生·浦语大模型全链路开源体系】 https://www.bilibili.com/video/BV1Vx421X72D/?share_source=copy_web

二、实验过程

书生·浦语大模型全链路开源体系,上海AI Lab,陈恺老师

大模型已经成为发展AGI的重要途径,传统的专用模型是针对特定任务,一个模型解决一个问题,比如ImageNet竞赛中涌现的分类模型,AlphaFold等等。

而通用模型旨在利用一个模型完成All任务,对应多种模态。比如GPT4通过Prompt实现。 

书生浦语大模型开源历程:从2023年6月7日的InternLM,到2024年1月17日的InternLM2开源,实际上2024 年7月3日,已经发布了InternLM2.5,有3大亮点:

  • 推理能力大幅提升,领先于国内外同量级开源模型,在部分维度上甚至超越十倍量级的 Llama3-70B;

  • 支持 1M tokens 上下文,能够处理百万字长文;

  • 具有强大的自主规划和工具调用能力,比如可以针对复杂问题,搜索上百个网页并进行整合分析。

Github仓库:https://github.com/InternLM/InternLM

InternLM2的体系:面向不同的使用需求,采用不同的规格,每个规格包括了3个模型版本。

从7B-20B,包括了Base、LM2和Chat版本。Base属于高质量、可塑性强的基准模型,适合在深度领域适配;LM2在多个能力方向强化,保持了很好的通用语言能力,更加推荐使用;Chat经过SFT、RLHF,面相对话交互进行了优化,具有很强的指令遵循、共情聊天和调用工具的能力。

回归语言建模的本质:采用新一代数据清洗过滤技术,包括多维度数据价值评估、高质量语料驱动的数据集和有针对的数据补齐。

主要亮点:

  • 20W Token超长上下文
  • 推理、数学和代码能力比肩GPT
  • 精准指令遵循
  • 可靠支持工具、复杂智能体搭建
  • 强大的内生计算能力,加入了代码解释

性能全方面提升,比肩GPT3.5

使用例子:

工具调用能力升级

代码解释器可以求解一些积分等大学级别数学题目

从模型到应用典型流程

开放的高质量语料数据:书生万卷CC,基于互联网的开放内容,来源多样,安全性高

预训练优化工具,可以支持主流生态,开箱即用

微调Xtuner,增量续训和有监督的微调

最低8GB显存的显卡就可以微调

司南大模型评分体系

CompassRank:中立全面的性能榜单

评测工具链

部署工具:LMDeploy

全链条体系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/51762.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

银行贷款信用评分不足?大数据帮你找回失去的“分”

在这个信息爆炸的时代,无论是个人还是企业,数据都成为了衡量信用和评估风险的重要依据。贷款、融资、求职甚至是日常消费,都可能因为一份好的数据报告而变得更加顺畅。那么,如何高效地查询自己的大数据,面对评分不足时…

【持续集成_02课_Jenkins+Git+Gogs综合应用】

https://www.cnblogs.com/xfeiyun/p/17510472.html Jenkins部署及持续集成——傻瓜式教程-腾讯云开发者社区-腾讯云 一、Jenkins安装 Jenkins由Java语言编写而成,安装包即是一个war包。因此,Jenkins的运行启动依赖于Java环境,同时&#xf…

G120 EPos配置方案及应用场景

EPos功能就是基本定位器功能,它可计算出轴的运行特性,使轴以时间最佳的方式移动到目标位置。EPos功能主要包括:设定值 直接给定(MDI)功能、 选择程序段功能、回参考点功能、点动功能、运行到固定挡块功能。 EPos功能通过处理给定的加速度、速度和位置值生成运行特性曲线,…

昇思 25 天学习打卡营第 15 天 | mindspore 实现 VisionTransformer 图像分类

1. 背景: 使用 mindspore 学习神经网络,打卡第 15 天;主要内容也依据 mindspore 的学习记录。 2. Vision Transformer 介绍: mindspore 实现 VisionTransformer 图像分类;VisionTransformer 论文地址 VisionTransfo…

Redis是多线程还是单线程?

文章目录 1、用户态和内核态2、阻塞IO3、非阻塞IO4、IO多路复用4.1 select4.2 poll4.3 epoll4.4 epoll中的ET和LT4.5 epoll的服务端流程 5、信号驱动6、异步IO7、对比8、Redis是单线程的吗?9、单线程多线程网络模型变更 1、用户态和内核态 1、ubuntu和Centos 都是Li…

day 02

作业: 1> 写一个日志文件,将程序启动后,每一秒的时间写入到文件中 1、2024- 7-29 10:31:19 2、2024- 7-29 10:31:20 3、2024- 7-29 10:31:21 ctrlc:停止程序 ./a.out 4、2024- 7-29 10:35:06 5、2024- 7-29 10:35:07 6、2024- 7-29 10:3…

轻松入门Linux—CentOS,直接拿捏 —/— <2>

一 、权限问题详细讲解 读写的权限可以分别写成 r, w, x 总共有九个权限,可以分组三大组分别是: user:当前文件所属用户的权限 group:与当前文件所属用户同一组的用户权限 others:其他用户的权限 故使用 u, g, o 来代表…

从装机到冯·诺依曼架构,揭秘计算机的硬件组成

在当今数字化的时代,计算机已经成为我们生活和工作中不可或缺的一部分。从日常办公到科学计算,从畅玩游戏到无人驾驶,计算机简直无所不能。而这一切的背后,离不开其精密而复杂的硬件组成。今天,我们将一起探索计算机的…

Selenium Java中的isDisplayed()方法

isDisplayed()方法用于确定元素是否可见。本文将详细讨论 的WebElement接口isDisplayed()方法。 方法声明- boolean isDisplayed()它能做什么?此方法用于判断元素是否显示。这个方法节省了我们…

带有扰动观测器的MPC电机控制

模型预测控制(Model Predictive Contro1, MPC)是一种先进的控制策略,虽然具有鲁棒性、建模简单、处理多变量系统、显示约束、预测未来行为和优化性能的能力等优势。它的不足在于预测控制行为的计算需要繁琐的计算量,以及抗干扰能力较弱。这里提出基于扰动…

视创云展:重塑线上会议体验,六大核心引领数字空间新纪元

视创云展以其革命性的“数字活动”解决方案为核心,精心构建了一个超越想象的未来数字世界。通过整合六大前沿技术模块,它不仅为参会者打造了一个身临其境的线上会议环境,更让每一位参与者都能跨越物理界限,深刻感受会议的每一个瞬…

PointCLIP: Point Cloud Understanding by CLIP

Abstract 近年来,基于对比视觉语言预训练(CLIP)的零镜头和少镜头学习在二维视觉识别中表现出了令人鼓舞的效果,该方法在开放词汇设置下学习图像与相应文本的匹配。然而,通过大规模二维图像-文本对预训练的CLIP是否可以推广到三维识别&#x…

关于#define的使用方法总结

文章目录 #define 预处理指令一、#define宏定义二、查看预处理文件三、#define 的使用方法四、C语言宏中“#”和“##”的用法五、常见的宏定义总结六、常考题目 #define 预处理指令 #define 是 C 和 C 编程语言中的预处理指令,用于定义宏(macro&#xf…

斯坦福UE4 + C++课学习记录 13:UMG-血量条

文章目录 一、创建血量属性二、应用血量更改三、血量UI 一、创建血量属性 Unreal Motion Graphics (UMG)是 UE中用于创建用户界面 (UI) 的工具。它可以实现如下复杂功能: (1)动画:UMG 支持为控件添加动画。可以在 Widget Bluepri…

扩散模型系列0 DDPM:Denoising Diffusion Probabilistic Models

前言: 从7月12号开始 学习了一些扩散模型的论文,越看越上瘾,对未知的渴求激励着我不断地读论文整理、学习、分析、理解 以前发的博客仅仅是对论文的翻译,现在觉得仅仅翻译是不够的,读了一篇论文以后,要形成…

智慧出行新纪元:Vatee万腾平台引领未来交通蓝图

在科技日新月异的今天,智慧出行已成为连接城市脉动、重塑生活方式的关键词。Vatee万腾平台,作为智慧交通领域的佼佼者,正以前瞻性的视角和创新的技术,为我们描绘出一幅未来交通的宏伟蓝图,让每一次出行都成为一次前所未…

扩散模型系列ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models

向文本到图像扩散模型添加条件控制 摘要解读: 我对摘要英文的理解: 我们提出了一个神经网络架构ControlNet,可以向大规模的预训练好的文本到图像的扩散模型中添加空间条件控制。ControlNet锁住了准备生产的大规模扩散模型,并且重…

TCP为什么需要四次挥手?

tcp为什么需要四次挥手? 答案有两个: 1.将发送fin包的权限交给被动断开发的应用层去处理,也就是让程序员处理 2.接第一个答案,应用层有了发送fin的权限,可以在发送fin前继续向对端发送消息 为了搞清楚这个问题&…

生鲜云订单零售系统小程序的设计

管理员账户功能包括:系统首页,个人中心,用户管理,商品分类管理,商品信息管理,订单评价管理,订单管理,系统管理 微信端账号功能包括:系统首页,商品信息&#x…

力扣高频SQL 50题(基础版)第二十三题

文章目录 力扣高频SQL 50题(基础版)第二十三题596.超过5名学生的课题目说明实现过程准备数据实现方式结果截图 力扣高频SQL 50题(基础版)第二十三题 596.超过5名学生的课 题目说明 表: Courses -------------------- | Colum…