LLM学习笔记-2

在未标记数据上进行预训练


  1. 本章概要

  2. 在上节的笔记中,因为训练出的效果,并不是特别理想,在本节中,会用数据进行训练,使得模型更加的好;
    改图为上一节笔记

  3. 计算文本生成损失

inputs = torch.tensor([[16833, 3626, 6100],   # ["every effort moves",[40,    1107, 588]])   #  "I really like"]targets = torch.tensor([[3626, 6100, 345  ],  # [" effort moves you",[588,  428,  11311]]) #  " really like chocolate"]

假设我们有一个inputs张量,包含了2个训练样本(行)的标记ID。,以下改图,进行阐释了此词汇表的产生
在这里插入图片描述
在这里插入图片描述
在数学优化中,最大化概率分数的对数比分数值本身更容易,这里介绍一个回归损失函数Youtube

在这里插入图片描述
其中10.7722称为交叉熵损失。

  1. 训练阶段(代码整理完后更新)

  2. 训练结果
    在这里插入图片描述
    在这里插入图片描述

  3. 这次效果比上一节的效果好了很多。有很大的进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/2637.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ARP 攻击神器:ARP Spoof 保姆级教程

一、介绍 arpspoof是一种网络工具,用于进行ARP欺骗攻击。它允许攻击者伪造网络设备的MAC地址,以欺骗其他设备,并截获其通信。arpspoof工具通常用于网络渗透测试和安全评估,以测试网络的安全性和漏洞。 以下是arpspoof工具的一些…

TensorRT plugins and ONNX parser编译

https://github.com/NVIDIA/TensorRT是TensorRT plugins and ONNX parser,并不包含TensorRT的nvinfer库(libinfer.so、nvinfer.dll),此部分并未开源,只能使用官方支持的平台、环境https://developer.nvidia.com/tensor…

科技改变视听4K 120HZ高刷新率的投影、电视、电影终有用武之地

早在1888年,法国生理学家埃蒂安朱尔马莱就发明了一套盒式摄像机,能以120帧/s的速度在一条纸膜上曝光照片,但是当时没有相匹配的放映设备。而马莱的另一套拍摄设备是60帧/s的规格,并且图像质量非常好。 受此启发,雷诺的…

【软件测试基础】黑盒测试(知识点 + 习题 + 答案)

《 软件测试基础持续更新中》 对于黑盒测试这一章,等价类划分、边界值测试、决策表、场景法,这四种是最容易出大题的,其他几种考察频率很低。下述的一些例题只是经典例题,掌握方法后,还要多加练习! 目录 3…

极快!宝藏EI,2-4周录用,接受范围广!

本周投稿推荐 SSCI • 2/4区经管类,2.5-3.0(录用率99%) SCIE(CCF推荐) • 计算机类,2.0-3.0(最快18天录用) SCIE(CCF-C类) • IEEE旗下,1/2…

短信视频提取批量工具,免COOKIE,博主视频下载抓取,爬虫

痛点:关于看了好多市面的软件,必须要先登录自己的Dy号才能 然后找到自己的COOKIE 放入软件才可以继续搜索,并且无法避免长时间使用 会导致无法正常显示页面的问题。 有没有一种方法 直接可以使用软件,不用设置的COOKIE的方法呢 …

文献速递:肺癌早期诊断---利用低剂量CT扫描的三维概率深度学习系统用于肺癌的检测与诊

Title 题目 A 3D Probabilistic Deep Learning System forDetection and Diagnosis of Lung Cancer Using Low-Dose CT Scans 利用低剂量CT扫描的三维概率深度学习系统用于肺癌的检测与诊 01文献速递介绍 肺癌既是最常见的癌症之一,也是导致癌症死亡的主要原因之…

【GNS3 GraduProj】交换机Ansible配置脚本(文件备份)

为交换机S1、S2、S3分别创建VLAN、并进行Access接口的配置,同时对所有交换机进行Trunk接口的全局自动配置。 所有Switches的脚本合并:SwitchesConfig.yml --- - name: Switches Global Configurationhosts: Switchesgather_facts: falseconnection: ne…

关于yolov8-class Pose(Detect)

下面看一下代码: class Pose(Detect):"""YOLOv8 Pose head for keypoints models."""def __init__(self, nc80, kpt_shape(17, 3), ch()):"""Initialize YOLO network with default parameters and Convolutional La…

【笔记】应对Chrome更新导致Chromedriver失效的解决方案:Chrome For Test

随着网络应用和网站的不断发展,自动化测试变得越来越重要,而Selenium成为了许多开发者和测试人员的首选工具之一。然而,对于使用Selenium来进行网站测试的人来说,Chrome浏览器的频繁更新可能会成为一个头疼的问题。每当Chrome更新…

Docker容器:镜像与容器管理命令

目录 一、镜像管理命令 1、搜索镜像 2、获取镜像 3、镜像加速下载 4、查看下载的镜像文件信息 5、查看下载到本地的所有镜像 6、获取指定镜像的详细信息 7、为本地的镜像添加新的标签 8、删除镜像 8.1 删除指定的镜像 8.2 批量删除多个镜像 9、导出镜像与导入镜像 …

Day 32 122.买卖股票的最佳时机II 55. 跳跃游戏 45.跳跃游戏II

买卖股票的最佳时期Ⅱ 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。 设计一个算法来计算你所能获取的最大利润。你可以尽可能地完成更多的交易(多次买卖一支股票)。 注意:你不能同时参与多笔交易(你…

[Android]使用CompositionLocal隐式传值

1.相关概念 CompositionLocal 是定义数据的方式,而 CompositionLocalProvider 是在 Compose UI 树中传递这些数据的工具。二者合作,为 Compose 应用提供了一个强大的状态和数据流管理机制,使得数据可以在组件间按需传递,而无需通…

使用Python实现批量删除MYSQL数据库的全部外键

我先说下场景,昨天因为我们使用了Java工作流框架flowable,它自动生成了许多工作流相关的表,但是这些表都有外键关联,如果单纯的使用sql语句去一个一个的删除外键,那会非常麻烦,所以我写了一个Python脚本来进…

云上如何实现 Autoscaling: AutoMQ 的实战经验与教训

01 背景 弹性是云原生、Serverless 的基础。AutoMQ 从软件设计之初即考虑将弹性作为产品的核心特质。对于 Apache Kafka 而言,由于其存储架构诞生于 IDC 时代,针对物理硬件设计,存储层强依赖本地存储,已不能很好地适应现在云的时…

Python自动化系列---Python基础2

1、 变量:存储数据的 保险柜:钱,金条,户口本,珠宝,古董 — 存储东西 数据类型: int float bool str 变量名(见名知意):标识符(不能用关键字&…

Linux:Centos7.x系统,无效的密码问题处理

一、情景说明 我新创建了Centos7系统,在使用的过程中,我需要创建一个test账号 那么,同时我就要给这个账号设置一个密码 为了方便,我设置成123456 就报错了 二、解决办法 其实这个问题很容易处理,不需要像其他帖子说…

项目报错com.mall.common.domain.request那么就说明你的项目里面是找不到导入类的包名或者路径

当你的项目里面一直报错是找不到导入类的包名或者路径的时候:com.mall.common.domain.request 这个问题我们阔以分为几个角度来想 1、包路径错误:确保com.mall.common.domain.request这个包路径在项目中是正确的。可能的情况是包名写错了,或…

java包装类型详解

一、用途 在Java语言中,包装类型(Wrapper Classes)是一种特殊的类,它们将八个基本数据类型(byte、short、int、long、float、double、char、boolean)封装在一个类中。这些包装类(如Integer、Lon…

识别有效的IP地址和掩码并进行分类统计

问题概要 请解析IP地址和对应的掩码,进行分类识别。要求按照A/B/C/D/E类地址归类,不合法的地址和掩码单独归类。 所有的IP地址划分为 A,B,C,D,E五类 A类地址从1.0.0.0到126.255.255.255; B类地址从128.0.0.0到191.255.255.255; C类地址从192.0.0.0到223.…