大语言模型数据处理方法(基于llama模型)

文章目录

  • 前言
  • 一、基于huggingface的DataCollatorForSeq2Seq方法解读
    • 1、DataCollatorForSeq2Seq方法
    • 2、batch最长序列填充
    • 3、指定长度填充
  • 二、构建大语言模型数据加工模块
    • 1、数据读取
    • 2、数据加工
      • 1、数据格式
      • 2、预训练(pretrain)数据加工
      • 3、微调(sft)数据加工
        • ①、sft数据加工代码
        • ②、sft数据变换内容
    • 3、数据dataloader方法


前言

本文使用huggingface方法来构建大模型数据加工方法!当然,这些方法也可以为其它大模型使用!。


一、基于huggingface的DataCollatorForSeq2Seq方法解读

1、DataCollatorForSeq2Seq方法

该方法是类似collan_fn函数,就是torch的dataloader对batch包装函数处理,而输入字典给input_ids与labels就好了,这个方法会自动给你添加attention_mask内容,而attention_mask若有pad填充值是0。这个也是huggingface提供内容,而我这里想介绍如何自动填充。

该方法是一个类,其示意源码如下:

class DataCollatorForSeq2Seq:tokenizer:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/58287.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Springboot项目搭建的问题

1.第一次出现这个问题是在使用postgresql进行搭建项目的时候,但是配置文件中的驱动一致导入不了 最后发现是meaven中依赖导入不进来(不知道为什么),于是手动的在meaven中央仓库下载了对应的jar进行配置 然后项目可以正常启动 2.…

大模型系列——AlphaZero/强化学习/MCTS

AlphaGo Zero无需任何人类历史棋谱,仅使用深度强化学习,从零开始训练三天的成就已远远超过了人类数千年积累的围棋知识。 1、围棋知识 (1)如何简单理解围棋知识 (2)数子法分胜负:https://zhu…

w外链如何跳转微信小程序

要创建外链跳转微信小程序,主要有以下几种方法: 使用第三方工具生成跳转链接: 注册并登录第三方外链平台:例如 “W外链” 等工具。前往该平台的官方网站,使用手机号、邮箱等方式进行注册并登录账号。选择创建小程序外…

Jellycat玩偶界的天花板,如何用情绪营销征服成年人的心?

Jellycat的用户肯定对这个品牌有一定的了解,不知道的用户或许也看过这个很火的茄子表情包,这是Jellycat很火的一款玩偶“活泼茄子”。Jellycat,这个源自英国伦敦的高端玩具品牌,近年来在全球范围内迅速走红,摇身一变玩…

一方数据能让沃尔玛广告业务成为下一个亚马逊吗?

作者:刀客doc 在如今的广告市场可以说是热闹非凡。有Facebook、谷歌这些传统巨头,也有亚马逊、TikTok这些行业新贵涌现出来。近几年连PayPal、Netflix这些原来和广告业务八竿子打不着的平台,也都开始把勺子伸进来,想要分一杯羹。…

基于SSM土家风景文化管理系统的设计

管理员账户功能包括:系统首页,个人中心,用户管理,景点分类管理,热门景点管理,门票订单管理,旅游线路管理,系统管理 前提账号功能包括:系统首页,个人中心&…

windows 编译 breadpad

原文链接:https://gist.githubusercontent.com/vnl/f317840bfa9c638a60f2c4110872056a/raw/07185c8e86fc2faf08e3410ed3950a5c4d2e8b32/Breakpad%2520on%2520Windows ##### Building Google breakpadBuilding Google breakpad on Windows is a very painful experience because…

搭建海外云服务器需要什么费用?

搭建海外云服务器需要什么费用?搭建海外云服务器的费用涉及多个方面,包括服务器实例费用、公网带宽费用、磁盘存储费用、操作系统费用和其他费用。具体费用取决于所选的云服务提供商、服务器配置、计费模式等因素。以下是UU云小编整理的一些主要的费用构…

Python 基础语法 - 赋值运算符

运算符说明简单赋值运算符、-、*、/、%、//、**等复合赋值运算符 1. 赋值运算符的功能 所有的赋值运算符都是用来给变量赋值的(都是完成将数据保存到一个变量中)重要结论:所有的赋值运算符表达式都没有结果 -> 无法提供数据 2. 简单赋值…

IDEA->EasyCode(mapper.xml) 字段无逗号分隔和修改全局变量问题

1.mapperxml字段无逗号分隔 在easycode的设置里找到: 1、Template下的 mapper.xml.vm脚本 2、Global Config下的 mybatisSupport.vm脚本 将脚本里的 $velocityHasNext 替换成 $foreach.hasNext,然后保存。Mybatis-Plus框架操作一样 github->issue连…

C# 将时间转换为毫秒

作者:逍遥Sean 简介:一个主修Java的Web网站\游戏服务器后端开发者 主页:https://blog.csdn.net/Ureliable 觉得博主文章不错的话,可以三连支持一下~ 如有疑问和建议,请私信或评论留言! C# 将时间转换为毫秒…

PHP的 CSRF、XSS 攻击和防范

CSRF攻击 CSRF(Cross-Site Request Forgery)攻击,也称为跨站请求伪造,是一种常见的网络安全威胁。在这种攻击中,攻击者利用已认证的用户身份,在用户不知情的情况下伪造请求,冒充用户的操作向目…

Elastic Stack - FileBeat 入门浅体验

Filebeat 是 Elastic Stack 中的一个轻量级日志转发器,主要用于收集和转发日志数据。Filebeat 作为代理安装在您的服务器上,可以监控您指定的日志文件或位置,收集日志事件,并将其转发到 Elasticsearch 或 Logstash 进行索引。 一…

GitHub Actions的 CI/CD

GitHub Actions 是一个强大的 CI/CD 工具,适用于自动化各种开发任务。GitHub Actions 的原理是基于事件驱动的自动化流水线工具,通过定义触发条件和执行步骤,可以让项目在特定条件下自动运行一系列操作,比如构建、测试、部署等。 …

STM32--基于STM32F103C8T6的OV7670摄像头显示

本文介绍基于STM32F103C8T6实现的OV7670摄像头显示设计(完整资源及代码见文末链接) 一、简介 本文实现的功能:基于STM32F103C8T6实现的OV7670摄像头模组实时在2.2寸TFT彩屏上显示出来 所需硬件: STM32F103C8T6最小系统板、OV76…

基于行业分类的目标检测与跟踪系统

针对题目“目标检测跟踪”,我们可以根据行业类别、子类别、细分类别以及应用场景选择合适的图表进行可视化分析。以下是一些可能的图表选择及其对应的SQL示例(假设有一个数据库包含相关字段): 1. 散点图 (Scatter Plot) 应用场景…

C#与C++交互开发系列(十一):委托和函数指针传递

前言 在C#与C的互操作中,委托(delegate)和函数指针的传递是一个复杂但非常强大的功能。这可以实现从C回调C#方法,或者在C#中调用C函数指针的能力。无论是跨语言调用回调函数,还是在多线程、异步任务中使用委托&#x…

在Ubuntu上配置python环境

apt install python3.11-venv 是一个命令,用于在基于 Debian 的 Linux 系统(如 Ubuntu)上安装 Python 3.11 的虚拟环境模块。 解释: apt: 这是一个包管理工具,用于安装、更新、删除软件包。install: 这是一个命令&am…

CloudStack云平台搭建:XenServer服务器系统安装

1.打开VMware虚拟机,点击“创建新的虚拟机” 2. 点击“自定义(高级)” → “下一步” 3. 点击“下一步” 4. 点击“稍后安装操作系统” → “下一步” 5. 选择“其他” → “其他64位” → “下一步” 6. 修改“虚拟机名称” 、“位置”&…

[linux]和windows间传输命令scp 执行WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!错误解决

[linux]和windows间传输命令scp 执行WARNING: REMOTE HOST IDENTIFICATION HAS CHANGED!错误解决. 现象: 原因: 接收方服务器系统做了某些更改,导致登录时会报错。主要因为接收方服务器对登录过它的主机都会把该主机登录标识证书记录下来&a…