从代码的层面掌握LLM的路线

从代码的层面掌握LLM的路线

news/2025/4/16 2:46:39/文章来源:https://blog.csdn.net/eloudy/article/details/136139735

原则：从易到难，只用 pytorch

从第一个项目来熟悉 transformer 的使用；

从第二个项目来掌握对训练数据的使用方法及 transformer 的 decoder 的细节；

从第三个项目来理解 LLM 的整个过程；

1，Transformer tutorial 阶段的教程

https://github.com/wmathor/nlp-tutorial/blob/master/5-1.Transformer/Transformer_Torch.pyhttps://github.com/wmathor/nlp-tutorial/blob/master/5-1.Transformer/Transformer_Torch.py

参考：

Transformer详解 - mathor

Transformer的PyTorch实现 - mathor

2，Transformer 原论文复现项目

The Annotated TransformerThe Annotated Transformerhttp://nlp.seas.harvard.edu/2018/04/03/attention.html

参考：

The Illustrated Transformer – Jay Alammar – Visualizing machine learning one concept at a time.

3，自然语言处理实战——预训练模型应用及其产品化

这是一本书，通过本书可以掌握自然语言处理的常用技术

如果之前没有基础，则可以对其中的技术做一些扩充掌握，比如词嵌入向量的技术细节。

4，开源 LLM 模型项目 OLMo

GitHub - allenai/OLMo: Modeling, training, eval, and inference code for OLMoModeling, training, eval, and inference code for OLMo - allenai/OLMohttps://github.com/allenai/OLMo

OLMo 的项目论文：

https://arxiv.org/abs/2402.00838

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/686888.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

C++-手把手教你模拟实现string

C++-手把手教你模拟实现string

1.string的成员变量模拟实现string只需要三个成员变量，capacity，size，_str，也就是容量，数据大小，指向字符串的指针。 2.string的构造函数 2.1 使用字符串构造使用字符串来构造一个string类的对象&…

阅读更多...

Days 33 ElfBoard 固定CPU频率

Days 33 ElfBoard 固定CPU频率

ELF 1开发板选用的是主频800MHz NXP的i.MX6ULL处理器。根据实际的应用场景，如果需要降低CPU功耗，其中一种方法可以将CPU频率固定为节能模式，下面以这款开发板为例给小伙伴们介绍一下固定CPU频率的方法。先来介绍一下与CPU频率相关的命令&…

阅读更多...

前端架构: 调试与发布本地脚手架最佳实践梳理

前端架构: 调试与发布本地脚手架最佳实践梳理

脚手架本地调试标准流程 1 ）链接本地脚手架就是当我们这个脚手架开发好还没上线的时候可以进入到脚手架的一个目录, 通过 npm link 完成这个操作$ cd your-cli-dir$ npm link这个操作的含义是将当前的项目链接到node全局的 node_modules 中作为一个库文件, 并且还…

阅读更多...

希捷与索尼集团合作生产HAMR写头激光二极管

希捷与索尼集团合作生产HAMR写头激光二极管

最近有报道指出，希捷（Seagate）在生产其采用热辅助磁记录（HAMR）技术的大容量硬盘时，并非所有组件都在内部制造。根据日经新闻的一份新报告，希捷已与索尼集团合作，由索尼为其HAMR写头生…

阅读更多...

重塑高校评价体系，缓解内卷，培养有远见的研究者

重塑高校评价体系，缓解内卷，培养有远见的研究者

重塑高校评价体系，缓解内卷，培养有远见的研究者摘要：当前高等教育和科研环境中普遍存在的“非升即走”制度，尽管表面上看似激励科研人员努力工作，但实际上反映了学术界的内卷状况。这一制度的设置在人才供过于求的背景…

阅读更多...

实验二物理内存管理-实验部分

实验二物理内存管理-实验部分

目录一、知识点 1、计算机体系结构/内存层次 1.1、计算机体系结构 1.2、地址空间&地址生成 1.3、伙伴系统（Buddy System） 2、非连续内存分配 2.1、段式存储 2.2、页式存储 2.3、快表和多级页表 2.4、段页式存储 3、X86的特权级与MMU 3.…

阅读更多...

FPGA中的模块调用与例化

FPGA中的模块调用与例化

目录一、模块调用与实例化 1.1 模块调用 1.2 模块实例化 1.3 Verilog例化语句及其用法 1.3.1 例化语句的基本格式 1.3.2 实例化三种不同的连接方法二、模块调用实例-全加器与半加器 2.1 半加器模块 2.2 全加器模块三、参数定义关键词与整数型寄存器 3.1 参数定义关…

阅读更多...

乡政府|乡政府管理系统|基于Springboot的乡政府管理系统设计与实现(源码+数据库+文档)

乡政府|乡政府管理系统|基于Springboot的乡政府管理系统设计与实现(源码+数据库+文档)

乡政府管理系统目录目录基于Springboot的乡政府管理系统设计与实现一、前言二、系统功能设计三、系统实现 1、用户信息管理 2、活动信息管理 3、新闻类型管理 4、新闻动态管理四、数据库设计 1、实体ER图五、核心代码六、论文参考七、最新计算机毕设选题推…

阅读更多...

视觉设计师的项目评审复盘攻略：如何提升设计质量与效率

视觉设计师的项目评审复盘攻略：如何提升设计质量与效率

视觉设计师的角色是至关重要的，以确保设计项目满足预期的质量和结果。作为一名视觉设计师，有必要进行定期的项目审查，以确保项目在正轨上进行，并尽早解决任何问题。在本文中我们将讨论可视化设计人员如何做好项目评审，…

阅读更多...

ascii码，unicode编码集和utf编码方式

ascii码，unicode编码集和utf编码方式

ASCII码 ASCII码使用7位二进制数表示一个字符，共定义了128个字符，包括基本的拉丁字母、数字、标点符号和一些控制字符。每个字符都被赋予一个唯一的数值，这个数值在0到127之间。 Unicode编码集 Unicode是一个字符编码标准，它为…

阅读更多...

吴恩达机器学习全课程笔记第一篇

吴恩达机器学习全课程笔记第一篇

目录前言 P1 - P8 监督学习无监督学习 P9-P14 线性回归模型成本（代价）函数 P15-P20 梯度下降 P21-P24 多类特征向量化多元线性回归的梯度下降 P25-P30 特征缩放检查梯度下降是否收敛学习率的选择特征工程多项式回归前言…

阅读更多...

【沐风老师】3DMAX一键书籍生成插件BookMaker使用方法详解

【沐风老师】3DMAX一键书籍生成插件BookMaker使用方法详解

3DMAX书籍制作者插件BookMaker使用方法 3DMAX一键书籍生成插件BookMaker，是用于在3dMax中创建书籍的插件，可以创建高细节的3D书籍模型，具有不同的书籍类型可以选择。【适用版本】 3dMax2012 – 2024（不仅限于此范围）…

阅读更多...

问题记录——c++ sort 函数和严格弱序比较

问题记录——c++ sort 函数和严格弱序比较

引出看下面这段cmp函数的定义 //按照vector第一个元素升序排序 static bool cmp(const vector<int>& a, const vector<int>& b){return a[0] < b[0]; }int eraseOverlapIntervals(vector<vector<int>>& intervals) {//按区间左端排序…

阅读更多...

RK3399平台开发系列讲解（USB篇）USB 枚举和断开过程

RK3399平台开发系列讲解（USB篇）USB 枚举和断开过程

🚀返回专栏总目录文章目录一、连接与检测二、USB设备枚举三、断开过程沉淀、分享、成长，让自己和他人都能有所收获！😄 📢介绍 USB 枚举/断开过程。一、连接与检测二、USB设备枚举 USB设备枚举一

阅读更多...

Linux：docker的Portainer部署

Linux：docker的Portainer部署

官网 Portainer: Container Management Software for Kubernetes and Dockerhttps://www.portainer.io/ 1.下载 portainer也是一个docker的镜像直接下载即可 docker pull portainer/portainer 2.运行直接运行镜像即可直接使用 docker run -d -p 8000:8000 -p 9000:9000 -…

阅读更多...

VitePress-17- 配置- appearance 的作用详解

VitePress-17- 配置- appearance 的作用详解

作用说明 appearance : 是进行主题模式的配置开关，决定了是否启用深色模式。可选的配置值： true: 默认配置，可以切换为深色模式； false: 禁用主题切换，只使用默认的配置； dark: 默认使用深色模式&#xff…

阅读更多...

《PCI Express体系结构导读》随记 —— 第II篇第13章 PCI总线与虚拟化技术（6）

《PCI Express体系结构导读》随记 —— 第II篇第13章 PCI总线与虚拟化技术（6）

接前一篇文章：《PCI Express体系结构导读》随记 —— 第II篇第13章 PCI总线与虚拟化技术（5） 13.2 ATS（Address Translation Services） 单纯使用IOMMU并不能充分发挥处理器系统的效率，从图13-2中可以发现&…

阅读更多...

TIM编码器接口（编码器测速）

TIM编码器接口（编码器测速）

定时器编码器接口自动计次--------->对应手册14.3.12编码器接口模式应用场景： 电机控制PWM驱动电机，编码器测电机速度，PID算法闭环控制 ------------------------------------------------------------------------------------------…

阅读更多...

C++入门学习（三十）一维数组的三种定义方式

C++入门学习（三十）一维数组的三种定义方式

数组是什么？ 数组（Array）是有序的元素序列。若将有限个类型相同的变量的集合命名，那么这个名称为数组名。组成数组的各个变量称为数组的分量，也称为数组的元素，有时也称为下标变量。用于区分数组的各个元素…

阅读更多...

Nuxt3+Vue3(Composition API)+TS+Vite+Ant Design Vue 搭建

Nuxt3+Vue3(Composition API)+TS+Vite+Ant Design Vue 搭建

最近官网搭建选择了nuxtjs，由于框架更新了，其中语法也有很多变化，中间遇到了一些问题点做下总结。 nuxt3官方文档地址：https://nuxt.com/docs/getting-started/installation 安装在安装Nuxt3之前，你需要保证你的nod…

阅读更多...

最新文章