NLP_文本数据增强_5(代码示例)

学习目标

  • 了解文本数据增强的作用.
  • 掌握实现常见的文本数据增强的具体方法.

  • 常见的文本数据增强方法:

    • 回译数据增强法

1 回译数据增强法

  • 回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口, 将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言, 即可认为得到与与原语料同标签的新语料, 新语料加入到原数据集中即可认为是对原数据集数据增强.

  • 回译数据增强优势:

    • 操作简便, 获得新语料质量高.
  • 回译数据增强存在的问题:

    • 在短文本回译过程中, 新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间.
  • 高重复率解决办法:

    • 进行连续的多语言翻译, 如: 中文→韩文→日语→英文→中文, 根据经验, 最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.
  • 回译数据增强实现:

# 导入对应的工具包
from google_trans_new import google_translator# 实例化翻译对象
translator = google_translator()
# 进行第一次翻译, 目标语言是韩语
texts= ['这家价格很便宜', '这家价格很便宜']
tra_list= []
for text in texts:ko_res= translator.translate(text, lang_src='zh-cn', lang_tgt='ko')tra_list.append(ko_res)
# 打印中间结果
print('中间结果是:')
print(tra_list)# 进行第二次翻译, 目标语言是汉语
cn_list = []
for text in tra_list:cn_res = translator.translate(text, lang_src='ko', lang_tgt='zh-cn')cn_list.append(cn_res)
# 打印最后的结果
print("最后的结果是:")
print(cn_list)

输出结果展示:

中间翻译结果:
["이 가격은 매우 싼 ", "이 가격은 매우 싼"] 
回译得到的增强数据:
["这个价格非常便宜","这个价格很便宜"]
  • 注意
  • 如果在运行过程中报:json.decoder.JSONDecodeError: Extra data: line 1 column 1962 (char 1961)错误
  • 修改地址参考:json.decoder.JSONDecodeError: Extra data: line 1 column 300 (char 299) · Issue #36 · lushan88a/google_trans_new · GitHub
  • 温馨提示: 翻译接口在实时进行修改, 所以以后在使用第三方接口的时候要关注接口是否发生变化
  • 修改方案:          

                1.使用find命令在服务器上找到对应的google_trans_new.py文件,即: find / -name 'google_trans_new.py'

                

                2.将google_trans_new.py文件中151行的**response = (decoded_line + ']')修改为**response = decoded_line, 然后保存退出即可.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/720750.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代购集运公司需要什么样的信息化技术服务|集运系统对接主流电商API接口以实现客户丰富的代购体验

代购集运公司可以考虑以下信息化服务: 1、网络平台 代购集运公司可以建立一个在线平台,让客户能够浏览商品、下单、查询订单状态等操作。 平台也可以提供在线支付和快递跟踪等功能,方便客户和公司的沟通和交流。接入主流电商平台API接口&am…

Spring Boot的启动流程(个人总结,仅供参考)

SpringBoot应用程序的启动流程主要包括初始化SpringApplication和运行SpringApplication两个过程。 1.初始化SpringApplication包括配置基本的环境变量、资源、构造器和监听器,初始化阶段的主要作用是为运行SpringApplication实例对象启动环境变量准备以及进行必要的…

应用在智能空调触摸屏中的高精度触摸芯片

智能空调是具有自动调节功能的空调。智能空调系统能根据外界气候条件,按照预先设定的指标对温度、湿度、空气清洁度传感器所传来的信号进行分析、判断、及时自动打开制冷、加热、去湿及空气净化等功能的空调。适合放在卧室,客厅等地方。 在中央控制系统…

中国电子学会2021年3月份青少年软件编程Sc ratch图形化等级考试试卷四级真题

【 单选题 】 1.运行如下图所示的程序后,以下描述正确的是? A:角色停留在(0,0)的位置,不会移动。 B:角色会在舞台上沿水平方向不停地左右往返移动,碰到边缘就反弹。 C&#xff1a…

k8s部署mysql

(作者:陈玓玏) 一、前置条件 已部署k8s,服务端版本为1.21.14 二、部署mysql 拉取镜像; docker pull mysql将账号密码等信息写到configmap,创建configmap; apiVersion: v1 kind: ConfigM…

亚信安慧AntDB:融合架构下的数据管理利器

AntDB的独特架构将集中式和分布式部署模式巧妙融合,为用户提供了全方位的数据管理解决方案。这种一站式的特性使得用户无需在不同系统间来回切换,极大地提高了工作效率。 AntDB同时具备集中式和分布式系统的优点,集中式架构拥有简单易用、管…

MyBatis动态查询

1.问:Mybatis是什么? AI答: MyBatis 是一个开源的持久层框架,它主要解决了传统 JDBC 开发过程中的大量样板代码和繁琐的参数处理问题。MyBatis 通过 XML 或注解的方式将 SQL 语句与 Java 对象进行映射,提供了一种优雅…

邦芒宝典:职场新人需要具备的十大优秀品质

​​职场新人需要具备的十大优秀品质可以概括为以下几点: 1、良好敬业精神和工作态度:员工应具备对工作的热情和对公司的忠诚度,这是企业遴选人才时的首要考虑因素。 2、高专业能力和学习潜力:员工需要具备一定的专业知识和工作能…

贪心算法练习题(最小化战斗力差距、谈判、纪念品分组、分糖果)

目录 一、贪心算法的介绍 二、贪心算法的实现步骤 三、最小化战斗力差距 四、谈判 五、纪念品分组 六、分糖果 一、贪心算法的介绍 贪心的基本原理:每一步都选择局部最优解,而尽量不考虑对后续的影响,最终达到全局最优解。 贪心的局限性:贪心算法…

使用GRU进行天气变化的时间序列预测

本文基于最适合入门的100个深度学习项目的学习记录,同时在Google clolab上面是实现,文末有资源连接 天气变化的时间序列的难点 天气变化的时间序列预测涉及到了一系列复杂的挑战,主要是因为天气系统的高度动态性和非线性特征。以下是几个主…

代码随想录算法训练营第51天| 309.最佳买卖股票时机含冷冻期、714.买卖股票的最佳时机含手续费、股票总结

309.最佳买卖股票时机含冷冻期 完成 思路: 加入冷冻期以后,两个状态就不够用了。 状态一:持有股票状态(今天买入股票,或者是之前就买入了股票然后没有操作,一直持有)不持有股票状态&#xff0…

Jetty的工作参数

Jetty加载参数的优先级: 命令行。$JETTY_BASE下的文件。使用--include-jetty-dir指定的目录下的文件。$JETTY_HOME下的文件。 查看当前的配置参数,执行如下命令: java -jar $JETTY_HOME/start.jar --list-config命令的输出如下&#xff1a…

Linux 命令行一直出现 You have new mail 的提示,如果删除全部 mail

如果你不想保留这些新邮件,并且确定要删除所有的新邮件,你可以使用以下步骤: 使用命令行邮件客户端或者编辑邮件文件: 进入邮件所在的目录,通常是 /var/mail 或者 /var/spool/mail。 找到你的用户名对应的邮件文件&am…

自定义镜像上传阿里云

目录 前言 一、Alpine简介 二、Alpine 制作jdk镜像 2.1 jdkv2.0版本 2.2 jdkv3.0版本 三、镜像上传阿里云及下载 前言 上篇博主已经讲解过了自定义镜像,跟上篇文章我们继续衍生自定义镜像https://blog.csdn.net/2302_76638140/article/details/136352907 一…

CUDA学习笔记02:测试程序hello world

参考资料 Win10下在VS2019中配置使用CUDA进行加速的C项目 (配置.h文件,.dll以及.lib文件等)_vs2019 cuda-CSDN博客 配置流程 1. 新建一个一般的项目 2. 项目建好后,在项目里添加.cu测试文件 测试的.cu文件命名为cuda_utils.cu&…

MySQL——性能调优

性能调优(重要) SQL 优化的目的 减少磁盘 IO:尽可能避免全表扫描、尽量使用索引、尽量使用覆盖索引减少回表操作减少 CPU 和内存的消耗,尽可能减少排序、分组、去重之类的操作,尽量减少事务持有锁的时间 优化途径&…

Material UI 5 学习02-其它按钮组件

Material UI 5 学习02-其它按钮组件 一、IconButton按钮二、 ButtonGroup按钮组1、最基本的实例2、垂直按钮组 一、IconButton按钮 图标按钮通常适用于切换按钮&#xff0c;允许选择或选择单个选项 取消选择&#xff0c;例如在项目中添加或删除星号。 <IconButton aria-lab…

“互动+消费”时代,借助华为云GaussDB重构新零售中消费逻辑

场与人的关系 “人—货—场”是零售中重要的三要素&#xff0c;我们一直在追求&#xff0c;将零售中的人、货、场进行数字化并在云端进行整合&#xff0c;形成属于我们自己的云平台。 随着互联网技术为信息提供的便利&#xff0c;消费者的集体力量正在逐渐形成一股强大的反向…

HTML世界之标签Ⅰ

目录 一、a 标签 二、area 标签 三、audio 标签 四、base 标签 五、abbr 标签 六、address 标签 七、aside 标签 八、article 标签 九、b 标签 一、a 标签 属性 值 描述 download&#xff08;在客户端重命名下载文件&#xff09; filename 指定当用户点击含有该…

保姆级GeoWebCache矢量瓦片切片流程

1矢量切片解决方案 1.1Geoserver配置geowebcache插件 参考文章 (53条消息) 独立安装geoservergeowebcache发布arcgis切片服务_itouch_ok的专栏-CSDN博客 1.将下载好的geoserver 2.19.3安装部署 将下载好的geowebcache 2.19.3的war包解压到 GeoServer 安装目录下./usr/loc…