大模型入门0: 基础知识

大模型入门0: 基础知识

news/2025/4/26 10:20:27/文章来源:https://blog.csdn.net/weixin_38812492/article/details/135320140

transformer
scaling law
分布式训练

自然语言处理包括几大任务

NLP: 文本分类，词性标注，信息检索
NLG：机器翻译，自动摘要，问答QA、对话机器ChatBot

Transformer

T5

Bert

GPT

in context learning: (zero-shot transfer) 模型inference，为了模型的能力迅速迁移到某个特定task上，先给他一些参考样例，然后模型就迅速领会到了，然后就可以按照这个特定task去输入输出了

GLM

scaling law

大模型时代，很多观念都需要更新了。scaling地方在于数据量，任务量，模型参数量。

分布式训练

分布式通信库：CPU上用MPI，GPU上用NCCL
点对点通信(Point-to-point Communication, P2P): 两个节点间通信，集合通信(Collective Communication, CC)：一组节点内通信
数据并行(DP)、模型并行(TP)、流水线并行(PP)
流水线并行: Gpipe,
- 模型的拓扑序，切分成p段，每一段为一个stage
- mini-batch进一步切分为几个大小的micro-batch
zero使用的几个阶段

reference

Gpipe-如何有效地阅读PyTorch的源代码？ - OpenMMLab的回答 - 知乎
[Transformer 101系列] LLM分布式训练面面观 - aaronxic的文章 - 知乎
预训练语言模型之GPT-1，GPT-2和GPT-3 - 大师兄的文章 - 知乎

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/588810.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vue3中pinia的使用及持久化(详细解释)

vue3中pinia的使用及持久化(详细解释)

解释一下pinia： Pinia是一个基于Vue3的状态管理库，它提供了类似Vuex的功能，但是更加轻量化和简单易用。Pinia的核心思想是将所有状态存储在单个store中，并且将store的行为和数据暴露为可响应的API，从而实现数据&#…

阅读更多...

cnn lstm结合网络

cnn lstm结合网络

目录特征处理例子： cnn 5张图片一组，提取特征后，再给lstm，进时间序列分类。特征处理例子： import torch# 假设 tensor 是形状为 15x64 的张量 tensor torch.arange(15 * 2).reshape(15, 2) # 生成顺序编号的张量&…

阅读更多...

中国历史长河图

中国历史长河图

历史是一种传承和记忆，不管你是否承认，他就在那里。你也身处其中，就像一条小鱼身处波澜壮阔的大河中，没留下一点痕迹。了解历史，不是只为了多知道些古代人物、历史事件，或者为了应付考试。而是应该想到&am…

阅读更多...

2024年元旦，祝福所有的人和事物

2024年元旦，祝福所有的人和事物

愿风调雨顺，国泰民安。愿人生平安健康，安居乐业，福慧增长，丰足富饶。愿我们能一起进步。

阅读更多...

今年努力输出的嵌入式Linux视频

今年努力输出的嵌入式Linux视频

今年努力了一波，几个月周六日无休，自己在嵌入式linux工作有些年头，结合自己也是一直和SLAM工程师对接，所以输出了一波面向SLAM算法工程师Linux课程，当然嵌入式入门的同学也可以学习。下面是合作的官方前面发的宣传文章…

阅读更多...

【c++】使用vector存放键值对时，明明给vector的不同键赋了不同的值，但为什么前面键的值会被后面键的值给覆盖掉？

【c++】使用vector存放键值对时，明明给vector的不同键赋了不同的值，但为什么前面键的值会被后面键的值给覆盖掉？

错误描述运行程序得到结果如下图所示（左边是原始数据，xxml文件中真实数据的样子，右图是程序运行得到的结果结果）： 对比以上两图可以发现，右图中两个实例的三个属性值都来自左图中的第二个User实例&#x…

阅读更多...

【模拟电路】软件Circuit JS

【模拟电路】软件Circuit JS

一、模拟电路软件Circuit JS 二、Circuit JS软件配置三、Circuit JS 软件常见的快捷键四、Circuit JS软件基础使用五、Circuit JS软件使用讲解欧姆定律电阻的串联和并联电容器的充放电过程电感器和实现理想超导的概念电容阻止电压的突变，电感阻止电流的突变LR…

阅读更多...

一二三应用开发平台文件处理设计与实现系列之3——后端统一封装设计与实现

一二三应用开发平台文件处理设计与实现系列之3——后端统一封装设计与实现

背景前面介绍了前端通过集成vue-simple-uploader实现了文件的上传，今天重点说一下后端的设计与实现。功能需求梳理从功能角度而言，实际主要就两项，一是上传，二是下载。其中上传在文件体积较大的情况下，为了加快上…

阅读更多...

vue3 element plus el-table封装（二）

vue3 element plus el-table封装（二）

上文是对el-table的基本封装，只能满足最简单的应用，本文主要是在上文的基础上增加slot插槽，并且对col插槽进行拓展，增加通用性 // BaseTable.vue <template><el-table><template v-for"name in tableSlots&…

阅读更多...

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

Hadoop安装笔记1单机/伪分布式配置_Hadoop3.1.3——备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

将下发的ds_db01.sql数据库文件放置mysql中 12、编写Scala代码，使用Spark将MySQL的ds_db01库中表user_info的全量数据抽取到Hive的ods库中表user_info。字段名称、类型不变，同时添加静态分区，分区字段为etl_date，类型为String&am…

阅读更多...

年度总结 | 回味2023不平凡的一年

年度总结 | 回味2023不平凡的一年

目录前言1. 平台成就2. 自我提升3. Bug连连4. 个人展望前言每年CSDN的总结都不能落下，回顾去年：年度总结 | 回味2022不平凡的一年，在回忆今年，展望下年 1. 平台成就平台造就我（我也造就平台哈哈） 每…

阅读更多...

MATLAB中./和/，.*和*，.^和^的区别

MATLAB中./和/，.和，.^和^的区别

MATLAB中./和/，.*和*，.^ 和^ 的区别 MATLAB中./和/，.*和*，.^ 和^ 的区别./ 和 / 的区别.//实验实验结果 .* 和 * 的区别.**实验实验结果 .^ 和^ 的区别.^n^n实验运行结果 MATLAB中./和/，.和，.^ 和^ 的区别 …

阅读更多...

Plantuml之JSON数据语法介绍(二十五)

Plantuml之JSON数据语法介绍(二十五)

简介： CSDN博客专家，专注Android/Linux系统，分享多mic语音方案、音视频、编解码等技术，与大家一起成长！ 优质专栏：Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏：多媒…

阅读更多...

设计模式（4）--对象行为(11)--访问者

设计模式（4）--对象行为(11)--访问者

1. 意图表示一个作用于某对象结构中的各元素的操作。使你可以在不改变各元素的类的前提下定义于作用于这些元素的新操作。 2. 五种角色抽象访问者(Visitor)、具体访问者(Concrete Visitor)、抽象元素(Element)、具体元素(Concrete Element)、对象结构(ObjectStructure) 3…

阅读更多...

学习笔记15——前端和http协议

学习笔记15——前端和http协议

学习笔记系列开头惯例发布一些寻亲消息，感谢关注！ 链接：https://baobeihuijia.com/bbhj/ 关系客户端：对连接访问到的前端代码进行解析和渲染，就是浏览器的内核服务器端：按照规则编写前端界面代码解析标准…

阅读更多...

python操作mysql数据库

python操作mysql数据库

说明：这里仅仅为了演示python操作MySQL数据库，真实环境中，最好把CURD分别封装为对应的方法。并将这些方法在类中封装，体现python面向对象的特征。python链接MySQL数据库建表 create database mydb; use mydb; create table EMP…

阅读更多...

ThinkPHP如何防止SQL注入攻击

ThinkPHP如何防止SQL注入攻击

ThinkPHP 5.1版本默认采用了预处理机制来防止SQL注入攻击，开发者只需要按照ThinkPHP的编码规范来编写数据库查询语句，就能有效地防止SQL注入攻击。在ThinkPHP中，通过使用Query对象来执行数据库查询操作。Query对象会自动对用户输入的数据进…

阅读更多...

Mysql 高级语句

Mysql 高级语句

目录高阶查询select语句： 显示表格中一个或数个字段的所有数据记录： 不显示重复的数据记录：distinct and且，or或显示已知的值的数据记录：in 显示两个值范围内的数据记录：between 通配符&#xff1…

阅读更多...

UE蓝图 RPG动作游戏(一) day15

UE蓝图 RPG动作游戏(一) day15

角色状态制作制作角色动画混合空间创建一个动混合空间添加动作在混合空间动画蓝图创建一个动画蓝图先使用混合空间进行移动，后续优化后再使用状态机编写垂直水平速度逻辑初始化，获取到此动画的角色组件获取Horizontal与Vertical的速度逻辑 …

阅读更多...

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn启动失败

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn启动失败

CDH 6.3.2集成flink 1.18 zookeeper版本不匹配Flink-yarn不能正常启动，而在CHD Web页面，flink日志报错提示不明确，不能定位具体错误。CM WEB启动失败错误日志如下图所示： CM查看完成错误日志 [31/Dec/2023 10:45:09 0000] 26000…

阅读更多...

最新文章