意图数据集HWU、Banking预处理

当谈到意图数据集时,HWU、Banking和Clinc是三个常见的数据集。以下是关于这三个数据集的介绍:

目录

一、数据集介绍

HWU数据集

Banking数据集

Clinc数据集

二、数据集预处理

数据处理 

数据存储

数据类别分析

句子长度统计


一、数据集介绍

HWU数据集

  • 来源与用途:HWU数据集通常用于自然语言处理和任务型对话系统的研究中,特别是在意图识别和对话状态追踪方面。
  • 内容特点:该数据集包含多种用户意图和对应的语句,这些语句旨在反映真实世界中用户可能提出的各种请求和查询。
  • 使用场景:研究人员可以使用HWU数据集来训练和测试他们的模型,以准确识别用户的意图,并据此作出相应的响应。

Banking数据集

  • 专注领域:Banking数据集(以BANKING77为例)专注于银行领域的对话意图识别。它包含了与银行服务相关的各种用户查询和意图。
  • 数据构成:这个数据集通常包含大量的用户提问样本,每个样本都标注了具体的意图类别,如查询余额、转账、查询交易记录等。
  • 应用价值:对于开发智能银行助理或金融领域的自然语言处理应用来说,Banking数据集是一个宝贵的资源。它可以帮助模型更好地理解和响应用户在银行业务方面的需求。

Clinc数据集

  • 广泛覆盖:Clinc数据集(以CLINC150为例)是一个相对大型的数据集,涵盖了广泛的用户意图和场景,不仅限于特定领域。
  • 意图多样性:该数据集包含多达150种不同的意图,这些意图涉及各种日常活动和信息查询,如播放音乐、查询天气、设置提醒等。
  • 研究价值:由于Clinc数据集的多样性和广泛性,它成为了研究通用意图识别和对话系统的重要资源。研究人员可以利用这个数据集来开发和测试更加通用和健壮的自然语言处理模型。

总的来说,HWU、Banking和Clinc这三个数据集在意图识别和对话系统研究中各有侧重,共同为研究人员提供了丰富的数据和场景来训练和测试他们的模型。

二、数据集预处理

数据处理 

python读取数据

import pandas as pd
from datasets import load_from_disk
raw_datasets = load_from_disk("./banking77/")

展示数据

raw_datasets

DatasetDict({train: Dataset({features: ['text', 'label'],num_rows: 10003})test: Dataset({features: ['text', 'label'],num_rows: 3080})
})

可以看到,数据集是json格式 ,我们要把它转换成tsv或者csv格式,一列内容,一列标签的格式。

# 转换 train 数据集为 DataFrame
train_df = raw_datasets['train'].to_pandas()# 转换 test 数据集为 DataFrame
test_df = raw_datasets['test'].to_pandas()
train_df.head(2)

 

从打印前两行可知,数据已成功转换为text和label两列并转换为tsv格式方便读取。 

数据存储

train_df.to_csv('./banking77/banking_train.tsv',index=False,sep='\t')
test_df.to_csv('./banking77/banking_dev.tsv',index=False,sep='\t')

数据类别分析

import pandas as pd
df = pd.read_csv('./HWU/HWU_train_data.tsv', sep='\t')
# # df = pd.read_csv('./SST-2/dev.tsv', sep='\t')
df.head()
# # 统计 label 列的种类数量
label_counts = df['label'].value_counts()
print(label_counts)# # 输出种类数量
print(f"label 列共有 {len(label_counts)} 种不同的取值。")

label
9     1216
48    1014
27     920
67     894
53     892... 
34      35
41      21
5       18
23      18
10       5
Name: count, Length: 68, dtype: int64
label 列共有 68 种不同的取值。

句子长度统计

import csv# 读取CSV文件
filename = './HWU/HWU_dev_data.tsv'  # 请替换成你的CSV文件路径
with open(filename, 'r', newline='', encoding='utf-8') as csvfile:reader = csv.reader(csvfile)next(reader)  # 跳过标题行word_counts = [len(row[0].split()) for row in reader]  # 假设你想要获取第二列句子的单词个数# 统计单词个数
total_sentences = len(word_counts)
average_words = sum(word_counts) / total_sentences# 打印结果
print("句子总数:", total_sentences)
print("平均单词数:", average_words)

句子总数: 2000
平均单词数: 6.8565

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/39943.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AI产品经理能力模型的重点素质:人文素养和灵魂境界

在AI产品经理的能力模型中,我最想提的差异化关键点,就是“人文素养和灵魂境界”。 1 为什么“人文素养和灵魂境界”非常重要? 一、“人文素养和灵魂境界”如何影响AI产品设计? 例1:面对一个具体的AI场景&#xff0…

25考研,数二全程跟的张宇老师请问660(做了一半)880和张宇1000题应该怎么选择?

跟张宇老师,也可以做其他的题集,不一定非要做1000题 我当初考研复习的时候,也听了张宇老师的课程,但是我并没有做1000题 因为1000题对于我来说太难了。做了一章之后,就换成其他的题目了。 对于大家来说,…

ppt接单渠道大公开‼️

PPT 接单主要分两种:PPT 模板投稿和PPT 定制接单,我们先从简单的 PPT 模板投稿说起。 PPT 模板投稿 利用业余时间,做一些 PPT 模板上传到平台,只要有人下载你的模板,你就有收入。如果模板质量高,简直就是一…

【设计模式】观察者模式(定义 | 特点 | Demo入门讲解)

文章目录 定义结构Demo | 代码Subject目标类Observer抽象观察者观察者1 | CPU监听器观察者2 | 内存监听器客户端 | Client 优点适合场景 定义 所谓观察者模式就是你是被观察的那个对象,你爸爸妈妈就是观察者,一天24h盯着你,一旦你不听话&…

【BUUCTF-PWN】7-[第五空间2019 决赛]PWN5

参考:BUU pwn [第五空间2019 决赛]PWN5 //格式化字符串漏洞 - Nemuzuki - 博客园 (cnblogs.com) 格式化字符串漏洞原理详解_printf 任意内存读取-CSDN博客 32位小端排序,有栈溢出保护 运行效果: 查看main函数 存在格式化字符串漏洞 输…

SQL二次注入原理分析

二次注入在测试的时候比较少见,或者说很难被测出来,因为测的时候首先要去找注入的位置,其次是去判断第一次执行的SQL语句,然后还要去判断第二次进行调用的 SQL 语句。而关键问题就出在第二次的调用上面。 下面以一个常用过滤方法…

macos下搭建minikube dashboard的启动

背景 最近在复习一下k8s环境相关的知识,需要在自己电脑上搭建一个minikube的环境供自己使用。但是因为docker的镜像仓库最近被墙了,因此在执行minikube dashboard的时候,拉不到相应的镜像,就导致页面看不到相应的一些信息因此本文…

flask中解决图片不显示的问题(很细微的点)

我在编写flask项目的时候,在编写html的时候,发现不管我的图片路径如何变化,其就是显示不出来。如下图我框中的地方。 我尝试过使用浏览器打开,是可以的。 一旦运行这个flask项目,就无法显示了。 我查阅资料后。发现…

泛微开发修炼之旅--29用计划任务定时发送邮件提醒

文章链接:29用计划任务定时发送邮件提醒

[单master节点k8s部署]17.监控系统构建(二)Prometheus安装

prometheus server安装 创建sa账号,对prometheus server进行授权。因为Prometheus是安装在pod里面,以pod的形式去运行的,因此需要创建sa,并对他做rbac授权。 apiVersion: v1 kind: ServiceAccount metadata:name: monitornamesp…

LeetCode热题100刷题4:76. 最小覆盖子串、239. 滑动窗口最大值、53. 最大子数组和、56. 合并区间

76. 最小覆盖子串 滑动窗口解决字串问题。 labuladong的算法小抄中关于滑动窗口的算法总结&#xff1a; class Solution { public:string minWindow(string s, string t) {unordered_map<char,int> need,window;for(char c : t) {need[c];}int left 0, right 0;int …

2.8亿东亚五国建筑数据分享

数据是GIS的血液&#xff01; 我们现在为你分享东亚5国的2.8亿条建筑轮廓数据&#xff0c;该数据包括中国、日本、朝鲜、韩国和蒙古5个东亚国家完整、高质量的建筑物轮廓数据&#xff0c;你可以在文末查看领取方法。 数据介绍 虽然开源的全球的建筑数据已经有微软的建筑数据…

vxe-table的序号一样

使用vxe-table的时候&#xff0c;有的时候会出现序号相同的现象&#xff0c;这种现象一般出现在我们后面自己添加的行中&#xff0c;就像这种 此时的这三个序号是相同的&#xff0c;我来说一下原因&#xff0c;这是在添加新的一行的时候&#xff0c;有的时候数据很多&#xff0…

Mac 运行 Windows 软件,Parallels Desktop 19和 CrossOver 24全面对比

Parallels Desktop 和 CrossOver 都是能满足你「在 Mac 上运行 Windows 软件」需求的工具。可能很多人都已经知道 Parallels Desktop 是「虚拟机」&#xff0c;但 CrossOver 其实并不是「虚拟机」。这两款软件有相同的作用&#xff0c;但由于实现原理的不同&#xff0c;两者也有…

系统提示我未定义与 ‘double‘ 类型的输入参数相对应的函数 ‘finverse‘,如何解决?

&#x1f3c6;本文收录于「Bug调优」专栏&#xff0c;主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案&#xff0c;希望能够助你一臂之力&#xff0c;帮你早日登顶实现财富自由&#x1f680;&#xff1b;同时&#xff0c;欢迎大家关注&&收藏&&…

TCP粘包解决方法

一. 产生原因及解决方法 产生原因&#xff1a;TCP是面向连接、基于字节流的协议&#xff0c;其无边界标记。当服务端处理速度比不其接收速度时&#xff0c;就很容易产生粘包现象。 解决方法&#xff1a;目前主要有两种解决方法&#xff0c;一个是在内容中添加分割标识&#xf…

人脸识别考勤系统

人脸识别考勤系统是一种利用生物识别技术进行自动身份验证的现代解决方案&#xff0c;它通过分析和比对人脸特征来进行员工的出勤记录。这种系统不仅提升了工作效率&#xff0c;还大大减少了人为错误和欺诈行为的可能性。 一、工作原理 人脸识别考勤系统的核心在于其生物识别…

管道支架安装

工程结构施工完毕后&#xff0c;系统管道安装完毕后的第一步任务就是管道支架的制作安装&#xff0c;作为对管道固定和承重作用至关重要的支、托、吊架&#xff0c;有些项目部在施工中却往往因为对它们的重要性认识不足&#xff0c;因存在侥幸心里或经验主义&#xff0c;导致支…

技术探索:利用Python库wxauto实现Windows微信客户端的全面自动化管理

项目地址&#xff1a;github-wxauto 点击即可访问 项目官网&#xff1a;wxauto 点击即可访问 &#x1f602;什么是wxauto? wxauto 是作者在2020年开发的一个基于 UIAutomation 的开源 Python 微信自动化库&#xff0c;最初只是一个简单的脚本&#xff0c;只能获取消息和发送…

掌握MySQL基础命令:数据更新操作详细操作(数据的增删改)

MySQL数据修改是指使用SQL语句&#xff08;如UPDATE、INSERT、DELETE&#xff09;对数据库表中的数据进行更改、添加或删除的操作&#xff0c;常见的操作包括更新表中的记录、插入新记录以及删除现有记录 。 一、数据插入 1插入完整的数据记录 2插入非完整的数据记录 3插入多…