如何将新标注的三元组数据转换成unicoqe可以处理的格式

目录

问题描述:

问题解决:


问题描述:

原始的标注的三元组格式如下:

需要转换的格式如下:

tips:有一个小的难点:

1. 针对多三元组的情况,需要额外考虑

2. 最后一个样本,也记得需要处理

问题解决:

from pdb import set_trace as stop
import os
from tqdm import trange
generated_path= "/public/home/hongy/qtxu/UniCOQE_20230812/data/tuple/ele/train_new_generated.txt"
Unicoqe_path = "/public/home/hongy/qtxu/UniCOQE_20230812/data/tuple/ele/train.txt"raw_data = []
with open(os.path.join(generated_path), 'r') as f:for line in f:raw_data.append(line)with open(Unicoqe_path, 'w') as fw:line_id, i = 0, 0text_line, label_line = '', ''for line_id in trange(len(raw_data), desc= "procesing data ……"):cur_line = raw_data[line_id]if len(cur_line.split('\t')) != 2:label_line += '\n' + cur_lineelse:if text_line !='':sent, label = text_line.strip().split("\t")fw.write(sent+"####")label_list = label_line.strip().split('\n\n')span_index =[]all_span= ()for label_i in label_list:cur_span = label_i.strip()[1:-1].split(';')sub, obj,asp = cur_span[0], cur_span[1], cur_span[2]try:sub_index = [int(index) for index, word in (pair.split('&', 1) if '&' in pair else [pair, ''] for pair in sub.strip()[1:-1].split())] # 针对14&&这样的特例,进行处理obj_index = [int(index) for index, word in (pair.split('&', 1) if '&' in pair else [pair, ''] for pair in obj.strip()[1:-1].split())]asp_index = [int(index) for index, word in (pair.split('&')for pair in asp.strip()[1:-1].split())] except:print(text_line)stop()span_tuple = (sub_index, obj_index, asp_index)span_index.append(span_tuple)fw.write(str('['+', '.join(str(span) for span in span_index)) + "]\n")text_line = cur_linelabel_line=''fw.write(text_line.strip().split("\t")[0]+"####")label_list = label_line.strip().split('\n\n')span_index =[]all_span= ()for label_i in label_list:cur_span = label_i.strip()[1:-1].split(';')sub, obj,asp = cur_span[0], cur_span[1], cur_span[2]sub_index = [int(index) for index, word in (pair.split('&', 1) if '&' in pair else [pair, ''] for pair in sub.strip()[1:-1].split())] # 针对14&&这样的特例,进行处理obj_index = [int(index) for index, word in (pair.split('&', 1) if '&' in pair else [pair, ''] for pair in obj.strip()[1:-1].split())]asp_index = [int(index) for index, word in (pair.split('&')for pair in asp.strip()[1:-1].split())] span_tuple = (sub_index, obj_index, asp_index)span_index.append(span_tuple)fw.write(str('['+', '.join(str(span) for span in span_index)) + "]\n")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/698620.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QEMU之CPU虚拟化

概述 KVM是由以色列初创公司Qumranet在CPU推出硬件虚拟化之后开发的一个基于内核的虚拟机监控器。 KVM是一个虚拟化的统称方案,除了x86外,ARM等其他架构也有自己的方案,所以KVM的主体代码位于内核树virt/kvm目录下面,表示所有CP…

第九节HarmonyOS 常用基础组件25-QRCode

1、描述 用于显示单个二维码的组件。 2、接口 QRCode(value:string) 3、参数 参数名 参数类型 必填 描述 value string 是 二维码内容字符串。 4、属性 名称 参数类型 描述 color ResourceColor 设置二维码颜色。默认值:Color.Black backgroundCo…

阿里云优惠:优惠活动整理、云服务器价格、域名、数据库和优惠券领取

2024年阿里云优惠活动大全,包括阿里云服务器优惠活动清单、配置价格表、域名优惠活动、阿里云建站活动、阿里云优惠代金券免费领取、对象存储OSS活动、企业邮箱优惠、无影云电脑优惠、CDN特惠等等,阿里云百科aliyunbaike.com分享2024阿里云优惠活动大全_…

每日五道java面试题之spring篇(四)

目录: 第一题 Spring框架的设计目标,设计理念,和核心是什么?第二题. Spring由哪些模块组成?第三题. 详细讲解一下核心容器(spring context应用上下文) 模块第四题.Spring框架中有哪些不同类型的事件第五题.…

网络中的进程监控

每个企业都有一些流程和程序来实现他们的业务目标,这同样适用于网络,网络中的进程监控是分析、处理和管理网络内发生的各种活动以提高网络性能和能力的做法。 网络中需要监控的基本进程 监视系统资源(CPU 利用率、内存利用率、CPU 温度等&a…

【vue】如何打开别人编译后的vue项目

文件结构如下,编译后的文件放在dist中。 dist的文件结构大约如下,文件名称随项目 1.新建app.js文件 const express require(express);const app express();const port 8080;app.use(express.static(dist));app.listen(port, () > console.log); …

实用区块链应用:去中心化投票系统的部署与实施

一、需求分析背景 随着技术的发展,传统的投票系统面临着越来越多的挑战,如中心化控制、透明度不足和易受攻击等问题。为了解决这些问题,我们可以利用区块链技术去中心化、透明性和安全性来构建一个去中心化投票系统。这样的系统能够确保投票过…

六、回归与聚类算法 - 岭回归

目录 1、带有L2正则化的线性回归 - 岭回归 1.1 API 2、正则化程度的变化对结果的影响 3、波士顿房价预测 线性回归欠拟合与过拟合线性回归的改进 - 岭回归分类算法:逻辑回归模型保存与加载无监督学习:K-means算法 1、带有L2正则化的线性回归 - 岭回…

蓝桥杯C++竞赛常用库函数介绍

文章目录 前言一、二分查找1. 二分查找的前提2.binary_search函数3.lower_bound函数和upper_bound函数4.蓝桥杯例题 二、最值查找1. min和max函数2.min_element和max_element函数3.nth_element函数4.蓝桥杯例题 三、排序1.sort函数2.sort自定义比较函数,或lambda表达式(匿名函数…

流量分析——陇剑杯 2021【签到、jwt】

目录 签到1、攻击者正在进行的可能是什么协议的网络攻击 jwt1、该网站使用了______认证方式。前置知识:解: 2、黑客绕过验证使用的jwt中,id和username是3、黑客获取webshell之后,权限是什么4、黑客上传的恶意文件文件名是5、黑客在…

Sora没用上!国产AI创作恐怖电影:《生化危机:重生》下

Sora没用上!国产AI创作恐怖电影:《生化危机:重生》下 丧尸围城,世界沦陷,爱丽丝是拯救这个世界的最后一剂解药,然而。。。 《生化危机:重生》(下):在战斗的最…

物麒平台自定义事件代码修改流程

是否需要申请加入数字音频系统研究开发交流答疑群(课题组)?可加我微信hezkz17, 本群提供音频技术答疑服务,群赠送蓝牙音频,DSP音频项目核心开发资料, 1 配置工具对应关系 2 事件处理 3 事件定义 4

微服务远程调用Feign

目录 RPC概述 什么是Feign? Ribbon&Feign对比 Feign的设计架构 Spring Cloud Alibaba快速整合Feign Spring Cloud Feign扩展 日志配置 契约配置 通过拦截器实现参数传递 自定义拦截器实现认证逻辑 超时时间配置 RPC概述 微服务之间如何方便优雅的实…

来分析两道小题

一、源码 二、分析 首先它会接两个参数一个是id一个是ps,传递的话会包含一个flag.php,然后数据库连接,之后传递过滤,然后查询,如果查到了就会取id,取出来看是不是跟adog一样,如果是它告诉你账号…

算法------(12)Trie树(字典树)

例题:(1)Acwing 835. Trie字符串统计 Trie树是一个可以高效存储查询字符串的数据结构。将一个字符串的每一个字符作为一个根节点,从字符串头到字符串尾连接起来。因此我们可以把每一个字符串存储为一个节点,记录其子节…

C 嵌入式系统设计模式 09:硬件适配器模式

本书的原著为:《Design Patterns for Embedded Systems in C ——An Embedded Software Engineering Toolkit 》,讲解的是嵌入式系统设计模式,是一本不可多得的好书。 本系列描述我对书中内容的理解。本文章描述访问硬件的设计模式之二&…

性能测试的几个指标范围(CPU,内存,IO,网络)

性能测试中,对服务端的指标监控也是很重要的一个环节。通过对各项服务器性能指标的监控分析,可以定位到性能瓶颈。 后端性能指标有 CPU,内存,网络,jvm,I/O 等等 分析思路 整体系统 CPU 利用率 内存利用…

【论文精读】Diffusion Transformer(DiT)

摘要 以往的Diffusion模型主要以卷积UNet作为主干网络,本文发现U-Net的归纳偏差对Diffusion模型的性能并不是至关重要的,可以用Transformer等取代。通过利用其他视觉方向成熟的Transformer方案和训练方法,Diffusion模型可以从这些架构中获益&…

一篇文章搞懂CDN加速原理

目录 一、什么是CDN CDN对网络的优化作用主要体现在以下几个方面: 二、CDN工作原理 CDN网络的组成元素: 三、名词解释 3.1 CNAME记录(CNAME record) 3.2 CNAME域名 3.3 DNS 3.4 回源host 3.5 协议回源 一、什么是CDN CD…

【SpringBoot3】Spring Security 常用配置总结

注:本文基于Spring Boot 3.2.1 以及 Spring Security 6.2.1 相关文章 【SpringBoot3】Spring Security 核心概念 【SpringBoot3】Spring Security 常用注解 【SpringBoot3】Spring Security 详细使用实例(简单使用、JWT模式) 【SpringBoot3】…