从头搭建GPT(Andrej Karpathy) 笔记

从头搭建GPT(Andrej Karpathy) 笔记

news/2025/4/28 11:22:58/文章来源:https://blog.csdn.net/level_code/article/details/136941813

本文来自openAI联合创始人，曾担任特斯拉视觉部门总监的Andrej的视频Let’s build GPT。

文章目录

- - 简单介绍
  - 数据处理部分
  - 什么是tokenize
  - 计算loss
  - 直觉上的self-attention
  - 矩阵乘法实现self-attention:
  - self-attention和cross-attention有什么区别
  - attention中为什么要做scaling
  - 继续增加改进的点, 逐步实现transformer
  - 真实的GPT训练步骤

当然这里的GPT并不是原版GPT，只是一个nanoGPT, 不过大体结构差不多

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/775532.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

标定系列——预备知识-OpenCV中与标定板处理相关的函数（四）

标定系列——预备知识-OpenCV中与标定板处理相关的函数（四）

标定系列——预备知识-OpenCV中与标定板处理相关的函数（四） 说明记录棋盘格圆网格说明记录了OpenCV中与标定板处理相关的函数用法记录棋盘格圆网格

阅读更多...

AWS SES发送邮件时常见的错误及解决方法？

AWS SES发送邮件时常见的错误及解决方法？

AWS SES发送邮件如何做配置？使用AWS SES发信的限制？ 在使用AWS SES发送邮件时，可能会遇到一些常见的错误。AokSend将介绍一些常见的AWS SES发送邮件错误及其相应的解决方法，帮助用户更好地利用AWS SES进行邮件发送。 AWS SES发送…

阅读更多...

阿里云ubuntu服务器搭建可视化界面

阿里云ubuntu服务器搭建可视化界面

连接终端最好初始化服务器的时候不要以root权限创建否则会出错 1更新软件: sudo apt-get update2安装ubuntu desktop : sudo apt-get install ubuntu-desktop3 配置ubuntu desktop并重启: sudo apt-get -f install sudo dpkg-reconfigure ubuntu-desktop sudo reboot4 su…

阅读更多...

webpack.dev.js（webpack开发环境配置文件）

webpack.dev.js（webpack开发环境配置文件）

开发环境：只运行本地资源不打包dist 对于在config目录下的webpack.dev.js 1.在根目录下运行 npx webpack serve --config ./config/webpack.dev.js 2.在package.json文件中配置 "dev":"npx webpack serve --config ./config/webpack.dev.js&quo…

阅读更多...

labelme的安装与使用以及如何将labelme标注的json格式关键点标签转为yolo格式的标签

labelme的安装与使用以及如何将labelme标注的json格式关键点标签转为yolo格式的标签

文章目录本文只关于将关键点json标签转为yolo标签希望得到您的指导背景及代码可用范围一、labelme的安装和使用（一）labelme的安装（二）labelme的使用二、json2yolo 本文只关于将关键点json标签转为yolo标签如果您的json标签格式…

阅读更多...

Axure中后台系统原型模板，B端页面设计实例，高保真高交互54页

Axure中后台系统原型模板，B端页面设计实例，高保真高交互54页

作品概况页面数量：共 50 页（长期更新） 兼容版本：Axure RP 9/10，不支持低版本应用领域：网页模板、网站后台、中台系统、B端系统作品特色本品为「web中后台系统页面设计实例模板」，默林原创…

阅读更多...

(delphi11最新学习资料) Object Pascal 学习笔记---第8章第1节（继承）

(delphi11最新学习资料) Object Pascal 学习笔记---第8章第1节（继承）

第8章继承如果说编写类的关键原因是封装，那么在类之间使用继承的关键原因就是灵活性。将这两个概念结合起来，你就能拥有可以使用且不会改变的数据类型，并能创建这些类型的修改版本，这就是最初所谓的 “开放-封闭原则”&…

阅读更多...

备考ICA----Istio实验10---为单个主机配置TLS Istio Ingress Gateway实验

备考ICA----Istio实验10---为单个主机配置TLS Istio Ingress Gateway实验

备考ICA----Istio实验10—为单个主机配置 TLS Istio Ingress Gateway实验 1. 环境准备部署httpbin kubectl apply -f istio/samples/httpbin/httpbin.yaml 2. 证书生成 2.1 生成根证书生成根证书keyfile和crt文件 mkdir example_certs_root openssl req -x509 -sha256 …

阅读更多...

强化基础-Java-泛型

强化基础-Java-泛型

什么是泛型？ 泛型其实就参数化类型，也就是说这个类型类似一个变量是可变的。为什么会有泛型？ 在没有泛型之前，java中是通过Object来实现泛型的功能。但是这样做有下面两个缺陷： 1 获取值的时候必须进行强转 2 没有…

阅读更多...

学透Spring Boot — 创建一个简单Web应用

学透Spring Boot — 创建一个简单Web应用

从今天开始，我们将开始学习一个新的系列，那就是在项目中用得非常广泛的一个框架 —— Spring Boot，我们会循序渐进地介绍 Spring Boot 的方方面面，包括理论和实战，也会介绍和Spring Boot一些热点面试题。概论本文是…

阅读更多...

C#学生信息成绩管理系统

C#学生信息成绩管理系统

一、系统功能描述本系统包括两类用户：学生、管理员。管理员可以通过系统来添加管理员信息、修改管理员信息、添加学生信息、修改学生信息；开设课程、查询课程、录入成绩、统计成绩、修改成绩、修改个人密码等，而学生则可以通过系统来选择课…

阅读更多...

观察者模式和发布-订阅模式有什么异同

观察者模式和发布-订阅模式有什么异同

观察者模式（Observer Pattern）和发布-订阅模式（Publish-Subscribe Pattern）都是用于处理对象之间的一对多依赖关系，但它们在实现方式和应用场景上有一些异同。观察者模式： 观察者模式定义了一种一对多的依…

阅读更多...

基于Givens旋转完成QR分解进而求解实矩阵的逆矩阵

基于Givens旋转完成QR分解进而求解实矩阵的逆矩阵

基于Givens旋转完成QR分解进而求解实矩阵的逆矩阵目录前言一、Givens旋转简介二、Givens旋转解释三、Givens旋转进行QR分解四、Givens旋转进行QR分解数值计算例子五、求逆矩阵六、MATLAB仿真七、参考资料总结前言在进行QR分解时，HouseHolder变换…

阅读更多...

YOLOv8项目实践——目标检测、实例分割、姿态估计、目标追踪算法原理及模型部署（Python实现带界面）

YOLOv8项目实践——目标检测、实例分割、姿态估计、目标追踪算法原理及模型部署（Python实现带界面）

简介 Ultralytics YOLOv8是一种前沿的、最先进的（SOTA）模型，它在前代YOLO版本的成功基础上进行了进一步的创新，引入了全新的特性和改进，以进一步提升性能和灵活性。作为一个高速、精准且易于操作的设计，YO…

阅读更多...

量化交易入门（二十三）什么是MTM指标，原理是什么

量化交易入门（二十三）什么是MTM指标，原理是什么

MTM指标全称是Momentum指标,翻译为动量指标。它用来衡量市场价格在一定时间内上涨或下跌的幅度,属于趋势型指标。其计算公式是: MTM(N) 当前收盘价 - N日前的收盘价其中N表示统计的周期数,常用参数有6日、12日和24日。 MTM指标的应用要点如下: 判断趋势强弱:MTM数值越大,表…

阅读更多...

uniapp 微信小程序 canvas 手写板文字重复倾斜水印

uniapp 微信小程序 canvas 手写板文字重复倾斜水印

核心逻辑先将坐标系中心点通过ctx.translate(canvasw / 2, canvash / 2) 平移到canvas 中心，再旋转设置水印假如不 translate 直接旋转，则此时的旋转中心为左上角原点，此时旋转示意如图所示当translate到中心点之后再旋转，此…

阅读更多...

树状打印二叉树的类Java、Go、PHP

树状打印二叉树的类Java、Go、PHP

说明和效果树的结构示例：1/ \2 3/ \ / \4 5 6 7树状打印二叉树Java代码 static class TreeNode {int val 0;TreeNode left null;TreeNode right null;public TreeNode(int val) {this.val val;}}//打印二叉树的类// TreeOperation.javastati…

阅读更多...

P8649 [蓝桥杯 2017 省 B] k 倍区间：做题笔记

P8649 [蓝桥杯 2017 省 B] k 倍区间：做题笔记

目录思路代码思路代码推荐 P8649 [蓝桥杯 2017 省 B] k 倍区间思路额嗯，这道题我刚上来是想到了前缀和，但是还要判断每个子序列，我就两层for嵌套，暴力解了题。就是我知道暴力肯定过不了但是写不出来其他的[留下了苦…

阅读更多...

【ESP32S3 Sense接入语音识别+MiniMax模型对话】

【ESP32S3 Sense接入语音识别+MiniMax模型对话】

1. 前言围绕ESP32S3 Sense接入语音识别MiniMax模型对话展开，首先串口输入“1”字符，随后麦克风采集2s声音数据，对接百度在线语音识别，将返回文本结果丢入MiniMax模型，进而返回第二次结果文本，实现语言对话…

阅读更多...

Serilog日志框架

Serilog日志框架

文章目录一. Serilog介绍1.1 安装Serilog1.2 Serilog日志级别二. Serilog.App项目应用2.1 Serilog一般应用2.2 兼容系统日志三. Serilog.Web应用3.1 Minimal示例3.2 WebApi示例参考链接一. Serilog介绍 Serilog 是 .NET应用程序的诊断日志记录库。它易于设置，…

阅读更多...

最新文章