李宏毅gpt个人记录

李宏毅gpt个人记录

news/2025/4/27 7:15:13/文章来源:https://blog.csdn.net/qq_55736201/article/details/134831378

参考：

李宏毅机器学习--self-supervised：BERT、GPT、Auto-encoder-CSDN博客

用无标注资料的任务训练完模型以后，它本身没有什么用，GPT 1只能够把一句话补完，可以把 Self-Supervised Learning 的 Model做微微的调整，把它用在其他下游的任务裡面，对于下游任务的训练，仍然需要少量的标记数据。

GPT1基本实现

例如有条训练语句是“台湾大学”，那么输入BOS后训练输出是台，再将BOS和"台"作为输入训练输出是湾，给它BOS "台"和"湾"，然后它应该要预测"大"，以此类推。模型输出embedding h，h再经过linear classification和softmax后，计算输出分布与正确答案之间的损失cross entropy，希望它越小越好。

详细计算过程：

GPT1和GPT2

GPT1里主要用的是transformer中的decoder层。

GPT-2依然沿用GPT单向transformer的模式，只不过做了一些改进与改变：

GPT-2去掉了fine-tuning层
增加数据集和参数
调整transformer

模型	参数量
ELMO	94M
BERT	340M
GPT-2	1542M

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/212278.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

32.768KHz时钟RTC晶振精度PPM值及频差计算

32.768KHz时钟RTC晶振精度PPM值及频差计算

一个数字电路就像一所城市的交通，晶振的作用就是十字路口的信号灯，因此晶振的品质及其电路应用尤其关键。数字电路又像生命体，它的运行就像人身体里的血液流通，它不是由单一的某个器件或器件单元构成，而是由多个器件及…

阅读更多...

【Spring Boot 源码学习】ApplicationListener 详解

【Spring Boot 源码学习】ApplicationListener 详解

Spring Boot 源码学习系列 ApplicationListener 详解引言往期内容主要内容1. 初识 ApplicationListener2. 加载 ApplicationListener3. 响应应用程序事件总结引言书接前文《初识 SpringApplication》，我们从 Spring Boot 的启动类 SpringApplication 上入手&am…

阅读更多...

如何查询川菜食材配料的API接口

如何查询川菜食材配料的API接口

在当今的美食文化中，菜谱不只是一张简单的食谱，更是了解美食文化和饮食知识的重要途径。然而，若没有准确的食材配料，烹制出的每道菜品都将难以达到完美的味道。因此，为了更好地满足人们对于菜谱和食谱的需求&#xff0…

阅读更多...

C语言习题集（026）

C语言习题集（026）

//写一个函数，输入一个4位数字，要求输出这4个 //数字字符，但每两个数字间空一个空格。如输入 //1990，应输出"1 9 9 0"。 /* */ //解答： #include<stdio.h> void change(int a) { if(a/10!0) { chang…

阅读更多...

linux权限管理以及shell

linux权限管理以及shell

1.shell 1.1什么是shell? shell即外壳，是运行在linux系统上的一个脚本语言，包裹在linux内核的外面。我们常说的linux操作系统实际上是linux内核。我们使用的所有指令都是一个个程序，而shell指令就是一个将我们用户的操作翻译给linux内核的程…

阅读更多...

软件设计之组合模式

软件设计之组合模式

组合模式：将对象组合成树形结构。案例：公司管理。一个公司可以分总公司和分公司，无论是总公司还是分公司都有自己的部门，如人力资源管理部门、财务部门。分公司可以建立自己在不同地域的办事处。请使用组合模式打印出某个公司的…

阅读更多...

SpringSecurity6 | 登陆后的跳转

SpringSecurity6 | 登陆后的跳转

SpringSecurity6 | 自定义认证规则 ✅作者简介：大家好，我是Leo，热爱Java后端开发者，一个想要与大家共同进步的男人😉😉 🍎个人主页：Leo的博客 💞当前专栏： Ja…

阅读更多...

第九天：信息打点-CDN绕过篇amp；漏洞回链amp；接口探针amp；全网扫描amp；反向邮件

第九天：信息打点-CDN绕过篇amp；漏洞回链amp；接口探针amp；全网扫描amp；反向邮件

信息打点-CDN绕过篇 cdn绕过文章：https://www.cnblogs.com/qiudabai/p/9763739.html 一、CDN-知识点 1、常见访问过程 1、没有CDN情况下传统访问：用户访问域名-解析服务器IP–>访问目标主机 2.普通CDN：用户访问域名–>CDN节点–>…

阅读更多...

面向LLM的App架构——业务维度

面向LLM的App架构——业务维度

这是两篇面向LLM的大前端架构的第一篇，主要写我对LLM业务的认知以及由此推演出的大前端架构。由于我是客户端出身，所以主要以客户端角度来描述，并不影响对前端的适用性。对LLM的认知基于Google对AGI的论文，AGI或者LLM一定会朝…

阅读更多...

浅谈ClickHouse性能监控与调优

浅谈ClickHouse性能监控与调优

ClickHouse性能监控与调优 ClickHouse是一个高性能的列式数据库管理系统，适用于实时分析和大数据处理。本文将详细讲解如何监控ClickHouse的性能指标、日志和查询统计信息，以及如何进行故障排查和性能调优。一、监控性能指标 1. 系统表 ClickHouse提…

阅读更多...

网络层重点协议——IP协议详解

网络层重点协议——IP协议详解

✏️✏️✏️今天给大家分享的是网络层的重点协议——IP协议。清风的CSDN博客 🛩️🛩️🛩️希望我的文章能对你有所帮助，有不足的地方还请各位看官多多指教，大家一起学习交流！ ✈️✈️✈️动动你们发财的…

阅读更多...

阿里内部教程Jmeter 性能测试常用图表、服务器资源监控

阿里内部教程Jmeter 性能测试常用图表、服务器资源监控

性能测试常用图表插件安装步骤 1：安装插件管理器在 Jmeter 官网上下载插件管理器 Plugins-manager-1.3.jar将 jar 包放入到 lib\ext 目录下重启 Jmeter，可以在选项下看到 Plugins Manager 选项步骤 2：安装指定的插件打开 Plugins Ma…

阅读更多...

JVM虚拟机系统性学习-运行时数据区（堆）

JVM虚拟机系统性学习-运行时数据区（堆）

运行时数据区 JVM 由三部分组成：类加载系统、运行时数据区、执行引擎下边讲一下运行时数据区中的构成根据线程的使用情况分为两类： 线程独享（此区域不需要垃圾回收） 虚拟机栈、本地方法栈、程序计数器线程共享（数…

阅读更多...

【矩阵】73. 矩阵置零

【矩阵】73. 矩阵置零

题目法1：自己想的笨蛋方法 class Solution {public void setZeroes(int[][] matrix) {Set<Integer> rowSet new HashSet<>();Set<Integer> columnSet new HashSet<>();for (int i 0; i < matrix.length; i) {for (int j 0; j <…

阅读更多...

DataGrip常见问题

DataGrip常见问题

查询语句结果没有输出在output中进行如下配置配置后查询结果输出在output中左侧数据库链接信息导航栏被隐藏以上导航栏被隐藏，按下图操作调出

阅读更多...

【Qt开发流程】之容器类2:使用STL风格迭代器进行遍历

【Qt开发流程】之容器类2:使用STL风格迭代器进行遍历

概述对于每个容器类，都有两种stl风格的迭代器类型:一种提供只读访问，另一种提供读写访问。应该尽可能使用只读迭代器，因为它们比读写迭代器快。 STL迭代器的API以数组中的指针为模型。例如，操作符将迭代器推进到下一项&#xf…

阅读更多...

Java开发工具：IDEA 2023.3(WinMac)中文激活版

Java开发工具：IDEA 2023.3(WinMac)中文激活版

IntelliJ IDEA 2023是一款由JetBrains公司出品的集成开发环境（IDE），专为程序员设计。它以智能、高效和人性化为主要特点，致力于提高开发人员的生产力，帮助程序员更快、更好地编写代码。在智能功能方面，Int…

阅读更多...

Panalog 日志审计系统 sprog_deletevent.php SQL 注入漏洞复现

Panalog 日志审计系统 sprog_deletevent.php SQL 注入漏洞复现

0x01 产品简介 Panalog大数据日志审计系统定位于将大数据产品应用于高校、公安、政企、医疗、金融、能源等行业之中，针对网络流量的信息进行日志留存，可对用户上网行为进行审计，逐渐形成大数据采集、大数据分析、大数据整合的工作模式…

阅读更多...

c语言一维数组总结详解

c语言一维数组总结详解

目录介绍： 一维整型数组： 声明： 初始化： 打印输出： 输出结果： 浮点型数组： 代码： 运行结果： 补充： 一维字符数组： 字符数组声明及初始…

阅读更多...

Python轴承故障诊断 (二)连续小波变换CWT

Python轴承故障诊断 (二)连续小波变换CWT

目录前言 1 连续小波变换CWT原理介绍 1.1 CWT概述 1.2 CWT的原理和本质 2 基于Python的CWT实现与参数对比 2.1 代码示例 2.2 参数介绍和选择策略 2.2.1 尺度长度： 2.2.2 小波函数（wavelet）： 2.3 凯斯西储大学轴承数据的…

阅读更多...

最新文章