python bad case边界不准确问题

目录

问题描述

问题解决:


问题描述

针对bad case中,错误的主要原因是边界定位不准确问题,sub,obj抽取过短。

因此想要通过jieba分词,然后调用GPT4的api判断当前的新span是否符合条件。

问题解决:

import json
from pdb import set_trace as stop
import jiebaimport openaifrom tqdm import tqdmopenai.api_key = "api_key" # GPT4.0
openai.api_base = 'https://api.ngapi.top/v1'def get_response(prompt, temperature=0.5, max_tokens=2048):print(prompt)completion = openai.ChatCompletion.create(# model="gpt-3.5-turbo",model="gpt-4",temperature=0,top_p=0,# max_tokens=max_tokens,messages=[{"role": "user", "content": f"{prompt}"}])return completionllm_generated_path= "/public/home/hongy/qtxu/Qwen-main/results/Ele_lora/pred_20240101_instruction_0104.jsonl"
change_path = "/public/home/hongy/qtxu/Qwen-main/results/Ele_lora/pred_20240101_instruction_0104_post.txt"po_dict = {"相等":'equal',"更好": 'better','更差': 'worse','不同': 'different'}pad_word = '无'chinese_punctuation = [',', '。', '?', '!', ':', ';', '‘', '’', '“', '”', '(', ')', '【', '】', '{', '}', '《', '》', '、', '——', '-', '……', '~', '·']def get_previsous_word(cur_span, cur_sent):front_prompt = f"在输入语句({cur_sent})中,({cur_span})的前一个单词是什么?。直接给出答案即可。"front_result = get_response(front_prompt)['choices'][0]['message']['content']if front_result=='的':cur_span = front_result+cur_spanfront_prompt = f"在输入语句({cur_sent})中,({cur_span})的前一个单词是什么?直接给出答案即可。"front_result = get_response(front_prompt)['choices'][0]['message']['content']return front_resultdef identify_nonu_phrase(front_result, cur_span, cur_sent):identify_prompt = f"在输入语句({cur_sent})中,({front_result}{cur_span})是一个可以表示物品名称、物品品牌的名词或名词短语吗?直接回答'yes'或'no'"# if '#' in identify_prompt:#     identify_prompt = identify_prompt.replace('#','')identify_result = get_response(identify_prompt)['choices'][0]['message']['content']return identify_resultdef get_chinese_index(cur_span, cur_sent):index = cur_sent.find(cur_span) # 没发现的话, index = -1 return index def get_front_end_word(text, span):text_seg_list = jieba.cut(text, cut_all=False)span_seg_list = jieba.cut(span,cut_all=False )text_result = " ".join(text_seg_list)span_result = " ".join(span_seg_list)index = text_result.find(span_result) # 获取最后一个位置front_word =text_result[:index].split()[-1] # 获取前一个元素indexif front_word == '的':front_front_word = text_result[:index-2].split()[-1] # 因为有一个空格,所以是-2front_word = front_front_word+front_wordend_word = text_result[index + len(span_result):].split()[0] # 至于后面的0要不要添加,需要依据统计结果而定return front_word, end_worddef post_processing(cur_span, cur_sent, pad_word):if cur_span == pad_word: # 如果是空,则返回本身final_span = pad_wordelse:cur_span_index = get_chinese_index(cur_span, cur_sent)if cur_span_index == 0: # 如果当前给定的span已经位于句首,则保持不变final_span = cur_spanelse:front_result, end_result = get_front_end_word(cur_sent, cur_span)identify_result = identify_nonu_phrase(front_result, cur_span, cur_sent)print("identify_result结果是:", identify_result)if identify_result=='yes':final_span = front_result+cur_spanelse:final_span = cur_spanreturn final_spanwith open(llm_generated_path, 'r') as fr, open(change_path, 'w') as fw:for line in fr:cur_line = json.loads(line)cur_sent = cur_line['query'].split('\n\n')[1][7:-52].strip() # instruction2# cur_sent = cur_line['query'].split('\n\n')[-1][7:-57].strip() # instruction kaisongcompar = cur_line['type'] # 是否是比较句if compar == 1:# cur_sent = cur_line['query'].split('\n\n')[1][7:-32].strip() fw.write(cur_sent + "\n")result = cur_line['output'].strip().split('\n')gold = cur_line['truth'].strip().split('\n') # # for j in range(0, len(gold), 2): # 如果是位置信息,则是 for j in range(0, len(gold), 2)#     gold_quintuple = gold[j][7:].strip()#     fw.write("gold:"+ gold_quintuple + "\n")for i in range(0, len(result), 2): # 同上 如果是位置信息,则是 for j in range(0, len(gold), 2)cur_quintuple = result[i][7:].strip() # 有几个特殊的,不能以逗号分隔# stop()# cur_quintuple_index = result[i+1][5:].strip() # '元组位置:(,17:18:19:20:21:22:23,12:13,24:25)'cur_quintuple_list = cur_quintuple[1:-1].split(',')# cur_quintuple_index_list = cur_quintuple_index[1:-1].split(',')sub, obj, asp, op, polarity = cur_quintuple_list[0].strip(), cur_quintuple_list[1].strip(), cur_quintuple_list[2].strip(), cur_quintuple_list[3].strip(), cur_quintuple_list[-1].strip()# sub_index, obj_index, asp_index, op_index = cur_quintuple_index_list[0].strip(),cur_quintuple_index_list[1].strip(),cur_quintuple_index_list[2].strip(),cur_quintuple_index_list[3].strip()sub = sub if sub else pad_wordobj = obj if obj else pad_wordasp = asp if asp else pad_wordop = op if op else pad_wordpolarity = po_dict[polarity] if polarity else pad_word# 对产生的结果进行后处理# stop()post_sub = post_processing(sub, cur_sent, pad_word) # sub_index.split(";")[0]post_obj = post_processing(obj, cur_sent, pad_word)# post_asp = post_processing(asp, cur_sent, pad_word)# stop()final_quintuple = '('+sub +','+obj+','+ asp + ','+ op+','+polarity+')'post_final_quintuple = '('+post_sub +','+post_obj+','+ asp + ','+ op+','+polarity+')'# fw.write("final_quintuple"+final_quintuple +"\n")# fw.write("post_final_quintuple"+post_final_quintuple+"\n")fw.write(post_final_quintuple+"\n")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/597156.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Qt3D QGeometryRenderer几何体渲染类使用说明

Qt3D中的QGeometryRenderer派生出来的几何体类包括: Qt3DExtras::QConeMesh, Qt3DExtras::QCuboidMesh, Qt3DExtras::QCylinderMesh, Qt3DExtras::QExtrudedTextMesh, Qt3DExtras::QPlaneMesh, Qt3DExtras::QSphereMesh, Qt3DExtras::QTorusMesh, and Qt3DRender::QMesh 有球…

解决Oracle执行SQL报错SQL 错误 [12704] [72000]: ORA-12704: 字符集不匹配的问题

在Oracle数据库中,我有一条SQL需要执行,如下: SELECTCASEWHEN "i"."CODE" LIKE 1% THEN to_char(1)WHEN "i"."CODE" LIKE 2% THEN to_char(2)WHEN "i"."CODE" LIKE 3% THEN to_char(3)WHEN "i".&qu…

Vue 单文件组件的基础入门指南

本文是我2年前做的一个学习小demo,在这里分享一下 希望对想要学习Vue的小伙伴能有一丢丢的小帮助~_~ 1 Vue CLI Vue CLI (opens new window)是一个基于Vue.js进行快速开发的完整系统。 这里我使用 Vue CLI 生成了一个Vue项目,命令为:vue cr…

Vue3中组件常用通信方式

文章目录 一、Props二、v-model三、Provide/Inject:四、事件四、Ref 在 Vue 3 中,父子组件之间进行通信有多种方式,下面简单介绍下常见的方式及其用法和使用场景: 一、Props 用于父组件向子组件传递数据。 这是最基本也是最常用的…

算法导论复习——CHP16 贪心算法

定义 每一步都做出当前看来最优的操作。 问题引入——活动选择问题 问题描述 活动选择问题就是对给定的包含n个活动的集合S,在已知每个活动开始时间和结束时间的条件下,从中选出最多可兼容活动的子集合,称为最大兼容活动集合。 不失一般性&a…

Could not recognize scene type gaussian-splatting 常见报错

目录 render报错 GroupParams object has no attribute source_path Could not recognize scene type 报错代码: 默认路径代码:

微信小程序-监听屏幕滚动

实现: 运用页面Page()函数中的onPageScroll方法,来监听屏幕滚动的距离。 1).js中: data:{scrollTop:0, },//监听屏幕滚动 判断上下滚动onPageScroll: function (ev) {this.setData({scrollTop: ev.scrollTop})}, 2&#xff09…

Java集合-ArrayList

Java集合-ArrayList 特性 实现了三个标记接口&#xff1a;RandomAccess&#xff0c;Cloneable&#xff0c;java.io.Serializable public class ArrayList<E> extends AbstractList<E>implements List<E>, RandomAccess, Cloneable, java.io.Serializable1…

普通函数与函数模板的区别以及调用规则 学习笔记

前提知识&#xff1a; 引用是不能出现在隐式类型转换之中 引用时会把隐式类型转换后的值放到一个常量区中&#xff0c;即我们引用的时候&#xff0c;引用的是一个常量区的值。如果想使用引用&#xff0c;那么必须加const修饰&#xff0c;变成只读&#xff0c;方可使用隐式类型…

解析《个人信息保护法》实施以来主要的变化

文章目录 前言一、二十一部配套的立法二、数据入表三、跨境规则转向四、未成年个人信息保护五、数据交易六、监管创新七、执法全覆盖八、地方聚焦场景执法九、个人信息保护诉讼十、个人信息保护公益诉讼十一、包容审慎十二、双清单上线十三、外部独立监督机构十四、个性化推荐便…

建立java和sql的连接(为聊天窗口添加注册功能)

建立java和sql的连接(为聊天窗口添加注册功能) 1.1首先需要导入mysql的相关包&#xff0c;将下好的jar文件拖入在src中新建立的lib文件夹(directory)里面&#xff0c;然后将lib进行add as library就算导入成功了 2.1明确dao是什么 DAO&#xff08;Data Access Object&#x…

SVN迁移至GitLab,并附带历史提交记录(二)

与《SVN迁移至GitLab&#xff0c;并附带历史提交记录》用的 git svn clone不同&#xff0c;本文使用svn2git来迁移项目代码。 一、准备工作 安装Git环境&#xff0c;配置本地git账户信息&#xff1a; git config --global user.name "XXX" git config --global us…

计算机丢失VCRUNTIME140_1.dll怎么办,6个不同方法教你解决问题

一、什么是vcruntime140_1.dll&#xff1f; vcruntime140_1.dll是Visual C Redistributable Packages的一部分&#xff0c;它是Microsoft Visual Studio开发环境中使用的运行时库文件。它包含了许多常用的函数和类&#xff0c;为开发者提供了丰富的功能支持。 二、vcruntime1…

大数据可视化Web框架——飞致云Dataease在Windows端的安装指南(多图说明版)V2.2最新版

DataEase开源代码在Windows系统开发环境搭建与调试指南_怎么部署dataease 2.0-CSDN博客https://blog.csdn.net/tllhc01/article/details/135220598?spm1001.2014.3001.5502参考这一篇&#xff0c;基于dataease2.2源码进行构建 需要先下载三个文件&#xff0c;且版本一一对应均…

C++多态性——(4)纯虚函数与抽象类

归纳编程学习的感悟&#xff0c; 记录奋斗路上的点滴&#xff0c; 希望能帮到一样刻苦的你&#xff01; 如有不足欢迎指正&#xff01; 共同学习交流&#xff01; &#x1f30e;欢迎各位→点赞 &#x1f44d; 收藏⭐ 留言​&#x1f4dd; 我们不能选择命运&#xff0c;但我们可…

基于注解的IOC配置

基于注解的IOC配置 学习基于注解的IOC配置&#xff0c;大家脑海里首先得有一个认知&#xff0c;即注解配置和xml配置要实现的功能都是一样的&#xff0c;都是要降低程序间的耦合。只是配置的形式不一样。 1.创建工程 pom.xml <?xml version"1.0" encoding&qu…

Vault实战(三)-Vault命令详解

1 login login 命令使用提供的参数向 Vault 验证用户或机器。身份验证成功会返回一个 Vault 令牌 - 在概念上类似于网站上的会话令牌。默认情况下&#xff0c;此令牌会被缓存在本地以供将来发起请求时使用。 -method 标志允许使用其他身份验证方法&#xff0c;例如 userpass、…

MySQL之CRUD,函数与union使用

目录 一.CRUD 1.1.SELECT(查询) 1.2.INSERT&#xff08;新增&#xff09; 1.3.UPDATE(修改) 1.4.DELETE&#xff08;删除&#xff09; 二.函数 2.1.常见函数 2.1.1.字符函数 2.1.2.数字函数 2.1.3.日期函数 2.2.流程控制函数 2.3.聚合函数 三.union与union all 四…

STM32学习笔记十八:WS2812制作像素游戏屏-飞行射击游戏(8)探索游戏多样性,范围伤害模式

前面我们的攻击手段比较单一&#xff0c;虽然已经分出了 EnemyT1 / EnemyT2 / EnemyT3&#xff0c; 但里面还是基本一样的。这回&#xff0c;我们尝试实现一些新的攻击方法&#xff0c;实现一些新的算法。 1、前面我们小飞机EnemyT1 的攻击方式是垂直向下发射子弹。 那么大飞机…

Linux 安装 MySQL

一、安装 MySQL 的准备工作 1. 查看系统版本 cat /etc/redhat-release2. 查看系统是否已经安装过 MySQL 查看是否安装了 MySQL rpm -qa | grep mysql查看是否有安装 mariadb&#xff0c;该软件与 MySQL 数据库有冲突&#xff0c;需要手动卸载 # 如果是 CentOS7 可以检测出…