Python:jsonl文件转json文件,并做字段处理

在使用LLaMA-Factoryshenzhi-wang/Llama3-8B-Chinese-Chat(https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat/tree/main)进行微调时,希望使用COIG-CQIA的小红书数据集(https://huggingface.co/datasets/m-a-p/COIG-CQIA/tree/main/xhs)。

由于该数据集为jsonl格式,所以使用python转为json格式。

原格式:

{"instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套", "input": "", "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n", "task_type": {"major": ["文本生成"], "minor": ["小红书风格文本"]}, "domain": ["社交媒体"], "metadata": "暂无元数据信息", "answer_from": "human", "human_verified": false, "copyright": "暂无版权及作者信息"}
{"instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套", "input": "", "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n", "task_type": {"major": ["文本生成"], "minor": ["小红书风格文本"]}, "domain": ["社交媒体"], "metadata": "暂无元数据信息", "answer_from": "human", "human_verified": false, "copyright": "暂无版权及作者信息"}

转换后格式:

{  "instruction": "写一篇小红书风格的帖子,标题是免费送!超耐摔高档行李箱+送贴纸箱套",  "input": "",  "output": "免费送!爱麦士行李箱实力宠粉![偷笑R]\n✨这款奶白行李箱颜值超高,细磨砂工艺,防刮耐脏容易打理。\n轮子超级顺滑、静音,拖着不累💫\n💖抑菌里布,没有异味,很多隔层真的很实用\n✨✨✨✨✨\n👉8月27日下午3点小红书官方平台自动开奖\n👉中奖奖品:爱麦士行李箱\n抽奖活动规则.\n1⃣活动时间: 8月7日00:00:00-8月27日00:00:00\n2⃣开奖时间: 8月27日15:00:00\n3⃣奖品数量: 3份\n4⃣中奖条件:关注本品牌号;点赞收藏本笔记\n5⃣中奖者将随机抽取,由系统发送中奖通知\n其他规则:一定要点击笔记左下角的【报名】才能参加此活动哦,中奖后记得在7天内填写收货信息,逾期视为放弃机会~冲了!💞\n"  
},

处理代码:

import json as JSON  def jsonl_to_json(jsonl_file, json_file):  dict_list = []  with open(jsonl_file, 'r', encoding='utf-8') as f:  jsonl_data = f.readlines()  for line in jsonl_data:  line_dict = JSON.loads(line)  del line_dict['task_type']  del line_dict['domain']  del line_dict['metadata']  del line_dict['answer_from']  del line_dict['human_verified']  del line_dict['copyright']  dict_list.append(line_dict)  with open(json_file, 'w', encoding='utf-8') as f:  JSON.dump(dict_list, f, indent=4, ensure_ascii=False)  jsonl_file = './data/COIG-CQIA_xhs.jsonl'  
json_file = './data/test.json'  if __name__ == '__main__':  jsonl_to_json(jsonl_file, json_file)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/875913.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JVM 11 的优化指南:如何进行JVM调优,JVM调优参数有哪些

这篇文章将详细介绍如何进行JVM 11调优,包括JVM 11调优参数及其应用。此外,我将提供12个实用的代码示例,每个示例都会结合JVM启动参数和Java代码。 本文已收录于,我的技术网站 java-broke.site,有大厂完整面经&#x…

教育+大模型-可解释-2024-7-15

教育大模型-可解释 文章目录 教育大模型-可解释摘要1 引言2 LLMs在教育领域应用3 可解释性的关键技术和方法3.1 局部解释3.1.1 基于特征归因的解释3.1.2 基于注意力的解释3.1.3 基于示例的解释 3.2 全局解释3.2.1 基于探针的解释3.2.2 模型内部机制的揭示 摘要 随着人工智能技…

Java面试八股之Spring-boot-starter-parent的作用是什么

Spring-boot-starter-parent的作用是什么 spring-boot-starter-parent 是Spring Boot项目中的一个特殊POM(Project Object Model),它主要的作用是提供一系列默认的配置和依赖管理,以便简化项目的构建过程。以下是spring-boot-sta…

二十、【机器学习】【非监督学习】- 均值漂移 (Mean Shift)

系列文章目录 第一章 【机器学习】初识机器学习 第二章 【机器学习】【监督学习】- 逻辑回归算法 (Logistic Regression) 第三章 【机器学习】【监督学习】- 支持向量机 (SVM) 第四章【机器学习】【监督学习】- K-近邻算法 (K-NN) 第五章【机器学习】【监督学习】- 决策树…

【支持语言模型和视觉语言模型的推理引擎sglang】

介绍 sglang是一个AI推理引擎,是一个专门为大语言模型和视觉语言模型设计的高效服务框架。 就像F1赛车需要顶级发动机一样,大语言模型也需要高效的推理引擎来发挥潜力。 而sglang正是这样一个性能怪兽。 根据LMSys组织的官方公告,最新的s…

【C算法】编程初学者入门训练140道(1~20)

牛客编程初学者入门训练150题 BC1 实践出真知BC2 我是大VBC3 有容乃大BC6 小飞机BC7 缩短二进制BC8 十六进制转十进制BC9 printf的返回值BC10 成绩输入输出BC11 学生基本信息输入输出BC12 字符圣诞数BC13 ASCII 码BC14 出生日期输入输出BC15 按照格式输入并交换输出BC16 字符转…

Lianwei 安全周报|2024.07.22

新的一周又开始了,以下是本周「Lianwei周报」,我们总结推荐了本周的政策/标准/指南最新动态、热点资讯和安全事件,保证大家不错过本周的每一个重点! 政策/标准/指南最新动态 01 国家标准《数据安全技术个人信息保护合规审计要求》…

Milvus × RAG助力快看多业务应用

快看介绍 快看漫画创办于2014年,集漫画阅读、创作互动、线下漫画沉浸体验、周边衍生品购买等体验于一体,是年轻人的一站式漫画生活方式平台。截止到2023年底,快看总用户超过3.8亿,在中国漫画市场渗透率超过50%。经过9年的创作者生…

Mybatis-plus自动生成MVC架构

系列文章目录 目录 系列文章目录 文章目录 前言 核心特性 一、mybatis-plus插件介绍 二、使用步骤 1.下载插件 2.读入数据 总结 前言 MyBatis-Plus(简称 MP)是一个基于 MyBatis 的增强工具包,旨在简化开发流程并提高开发效率。以下…

如何使用EXCEL访问WinCC中的实时数据实现报表

如果项目已经做好了,不想改动现有项目。那么可以使用 EXCEL 通过 OPC 方式访问 WinCC 项目的数据。预先定义好 EXCEL 表格样式,通过以下方式实现。通过以下步骤打开 EXCEL 中的 VB 编辑器 引用 WinCC 提供的 OPC 客户端 Control 控件: Siemens OPC DAAut…

智能音箱的工作原理

智能音箱的工作原理主要涉及到硬件和软件两个层面的协同工作,以及多个关键技术环节的配合。以下是对智能音箱工作原理的详细解析: 一、硬件层面 智能音箱的硬件组成通常包括主控芯片、麦克风阵列、扬声器、Wi-Fi模块和电源等部分。 主控芯片&#xff1…

H5+CSS+JS工作性价比计算器

工作性价比&#xff1d;平均日新x综合环境系数/35 x(工作时长&#xff0b;通勤时长—0.5 x摸鱼时长) x学历系数 如果代码中的公式不对&#xff0c;请指正 效果图 源代码 <!DOCTYPE html> <html> <head> <style> .calculator { width: 300px; padd…

【个人记录】pkg可以将Node.js应用打包为可执行文件

背景 之前按客户需求做了一个简易定时任务应用&#xff0c;完成后为方便客户使用需要打包为可执行文件。 pkg工具 pkg 是一个非常流行的工具&#xff0c;它能够将 Node.js 应用打包成独立的可执行文件。它支持多个平台&#xff0c;包括 Windows、macOS 和 Linux。 测试环境…

懒人精灵安卓版纯本地离线文字识别插件

目的 懒人精灵是一款可以模拟鼠标和键盘操作的自动化工具。它可以帮助用户自动完成一些重复的、繁琐的任务&#xff0c;节省大量人工操作的时间。懒人精灵也包含图色功能&#xff0c;识别屏幕上的图像&#xff0c;根据图像的变化自动执行相应的操作。本篇文章主要讲解下更优秀的…

测试工作中常听到的名词解释 : )

背景 很多名称其实看字面意思都挺抽象的&#xff0c;有时看群里的测试大佬在不停蹦这类术语&#xff0c;感觉很高大上&#xff0c;但其实很多你应该是知道的&#xff0c;只不过没想到别人是这样叫它的。又或者你的主编程语言不是 Java&#xff0c;所以看不懂他们在讲啥&#x…

【Go学习】如何使用os包操作环境变量

Go标准库提供了非常多实用的功能&#xff0c;其中就包含了操作环境变量。 环境变量是操作系统中用于存储配置信息的变量&#xff0c;这些信息可以在不同的程序之间共享。它们通常用于存储系统的全局设置&#xff0c;如临时文件目录、路径、默认的shell、语言设置等。 环境变量…

平均场理论下的维度约简公式与应用解析

平均场理论下的维度约简公式与应用解析 平均场理论的核心作用 平均场理论是一种处理复杂网络系统的方法&#xff0c;特别是在网络系统规模庞大时。它通过将耦合的多元微分方程组降至多个一元微分方程组&#xff0c;从而实现维度约简&#xff0c;极大地提高了计算效率。其基本…

C#高级:枚举(Enum)从索引、值到注释的完整使用技巧

目录 一、推荐的枚举写法 二、获取注释的封装代码 三、已知【枚举】&#xff0c;获取注释、索引 四、已知【索引】&#xff0c;获取枚举值、注释 五、已知【注释】&#xff0c;获取枚举值、索引 六、创建一个【枚举字典】&#xff0c;key索引&#xff0c;value(枚举值&am…

河道高效治理新策略:视频AI智能监控如何助力河污防治

一、背景与现状 随着城市化进程的加快&#xff0c;河道污染问题日益严重&#xff0c;对生态环境和居民生活造成了严重影响。为了有效治理河道污染&#xff0c;提高河道管理的智能化水平&#xff0c;TSINGSEE青犀提出了一套河污治理视频智能分析及管理方案。方案依托先进的视频…

gitee设置ssh公钥密码避免频繁密码验证

gitee中可以创建私有项目&#xff0c;但是在clone或者push都需要输入密码&#xff0c; 比较繁琐。 公钥则可以解决该问题&#xff0c;将私钥放在本地&#xff0c;公钥放在gitee上&#xff0c;当对项目进行操作时带有的私钥会在gitee和公钥进行验证&#xff0c;避免了手动输入密…