Datawhale 2024 年 AI 夏令营第二期——基于术语词典干预的机器翻译挑战赛

#AI夏令营 #Datawhale #夏令营

1.赛事简介

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

2.赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果,数据包括:

·训练集:双语数据:中英14万余双语句对

·开发集:英中1000双语句对

·测试集:英中1000双语句对

·术语词典:英中2226条

3.baseline

(1)对中英双语句对进行分词:

import nltk
import jieba
def read_file(filepath):with open(filepath, 'r', encoding='utf-8') as file:lines = file.readlines()return lines# 分词英语文本
def tokenize_en(lines):return [' '.join(nltk.word_tokenize(line)) for line in lines]# 分词中文文本
def tokenize_zh(lines):return [' '.join(jieba.cut(line)) for line in lines]

(2)统计句长分布

train_en.tok

train_zh.tok

句长普遍较短,且中英句长分布有区别。

(3)进行训练

to be continued

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/45384.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

emqx 负载均衡配置 HAProxy 健康检查 轮询 haship

HAProxy配置文件 配置文件: /etc/haproxy/haproxy.cfg 负载均衡参数: 轮询方式轮询注解roundrobin基于权重进行轮叫调度的算法,在服务器的性能分布比较均匀时,这是一种最公平合理,常用的算法。此算法使用较为频…

【银河麒麟高级服务器操作系统】数据中心系统异常卡死分析处理建议

了解银河麒麟操作系统更多全新产品,请点击访问:https://product.kylinos.cn 1.服务器环境以及配置 【机型】浪潮NF5280M5 处理器: Intel 内存: 1T 【内核版本】 4.19.90-24.4.v2101.ky10.x86_64 【OS镜像版本】 银河麒麟…

PDF 中图表的解析探究

PDF 中图表的解析探究 0. 引言1. 开源方案探究 0. 引言 一直以来,对文档中的图片和表格处理都非常有挑战性。这篇文章记录一下最近工作上在这块的探究。图表分为图片和表格,这篇文章主要记录了对表格的探究。还有,我个人主要做日本项目&…

MFC Ribbon菜单 - 中英文实时切换方法

简介 最近在搞一个老外的项目,本来谈的好好的,纯英文界面。项目接近尾声了,又提出了中英文实时切换的新需求,没办法就只能想办法,毕竟客户最大嘛。 实现方法 还好本来的ribbon英文菜单不复杂,就用纯C编码…

Android上如何使用perfetto分析systrace

Android上如何使用perfetto分析systrace Perfetto 是一个用于性能分析的工具,提供了对 Android 系统内部工作情况的详细视图。它可以用来替代传统的 systrace 工具,提供更加全面的性能分析功能。以下是如何使用 Perfetto 分析 Systrace 数据的详细指南&…

粉丝问我:大龄干运维还有出路吗?

这兄弟: 18年参加培训班,培训的java,结果学的不好。又去机构学了linux云计算,去做了运维,19年去一家网络公司做了idc,可以说这两年自己不努力,什么都没学到,基本等于零。 我现在就…

Python轻松添加行编号到Word文档及删除行编号

Word文档中的行号(行编号)功能是对于精细化的文档编辑以及解析非常有用的功能。添加行号能够极大地提升文档的可读性和定位效率,尤其是在需要引用特定行内容时,为读者提供了清晰的指引,避免了不必要的混淆和误解。然而…

Java BigInteger 类

目录 BigInteger 1. 如何获取一个BigInteger类型的对象? (1)构造方法 (2)静态方法 2. 常用方法 BigInteger 可以用来表示很大很大的数,有多大都可以。通过创建对象调用相应的方法。详见:…

【深度学习】本地运行 GraphRAG + Ollama

随着人工智能不断革新各个行业,对高效且经济的解决方案的需求日益增长。GraphRAG Local Ollama 应运而生,它是一款强大的 Microsoft GraphRAG 改进版,集成了使用 Ollama 下载的本地模型。这种改进让您可以告别昂贵的 OpenAPI 模型&#xff0c…

45、tomcat+课后实验

tomcat 1、tomcat tomcat和php一样,都是用来处理动态页面的。 tomcat也可以作为web应用服务器,开源的。 php .php tomcat .jsp nginx .html tomcat 是用Java代码写的程序,运行的是Java的web应用程序。 tomcat的特点和功能&#xff1a…

前端调试技巧(npm Link,vscode调试,浏览器调试等)

Npm Link 功能: 在本地开发npm模块的时候,我们可以使用npm link命令,将npm 模块链接到对应的运行项目中去,方便地对模块进行调试和测试 断点调试 vscode调试 Debug Vue2 Project 目标:在VSCode中调试项目代码…

DockerFile文件解析

DockerFile 要研究自己如何做一个镜像,而且微服务项目打包上云部署,Docker就是最方便的。 微服务打包成镜像,任何装了Docker的地方,都可以下载使用,极其的方便。 流程:开发应用>DockerFile>打包为…

vue3 高德地图api加载热力图及关闭 JSAPI v1.4.15

高德地图api加载天地图和2D热力图及关闭 JSAPI v1.4.15 地图API地址 [http://lbs.tianditu.gov.cn/server/MapService.html](http://lbs.tianditu.gov.cn/server/MapService.html)高德地图2D热力图地址 [https://lbs.amap.com/demo/loca-api/demos/loca_heatmap/loca_heatmap_…

负载均衡-轮询-两种简易实现

1、描述 下游可用的服务器目前有5个(node),设计一个方法,方法没有任何参数,采用轮询的方式返回其中一个node; 2、使用环形链表 每次取下一个node即可。注意:需要保证线程安全! // …

安泰高压功率放大器主要应用场景有哪些

高压功率放大器是一种专门设计用于处理高电压信号并提供大功率输出的设备。它们在各种领域中发挥着重要作用,以下是它们的主要应用场景和特点。 一、医疗设备 医疗成像:高压功率放大器在医疗成像设备中扮演关键角色,例如X射线设备和CT扫描仪。…

C++语法提高B-hook机制

Hook 机制 Hook 机制 是一种用于拦截和处理系统事件或函数调用的方法。通过 Hook 机制,程序可以在特定的事件发生时或函数调用之前、之后进行自定义操作。Hook 机制广泛应用于调试、性能监控、安全审计、功能扩展等领域。 Hook 机制的类型及实现方法 1. 消息 Hoo…

【启明智显分享】乐鑫HMI方案4.3寸触摸串口屏应用于称重测力控制仪表

称重测力控制仪表是将称重传感器信号(或再通过重量变送器)转换为重量数字显示,并可对重量数据进行传输、储存、统计、打印的电子设备,常用于工农业生产中的自动化配料,称重,以提高生产效率。随着工业化的发…

STM32F103RC使用HAL库对FLASH的擦除与写入

目录 STM32F103RC使用HAL库对FLASH的擦除与写入(代码模块) 一、芯片FLASH简介 二、FALSH的擦除 三、FALSH的写入 STM32F103RC使用HAL库对FLASH的擦除与写入(代码模块) 一、芯片FLASH简介 stm32f103rc芯片的flash大小为256KB&…

TC4056A 1A线性锂离子电池充电器芯片IC

产品描述 TC4056A是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器。其底部带有散热片的ESOP8/DIP8封装与较少的外部元件数目使得TC4056A成为便携式应用的理想选择TC4056A可以适合USB电源和适配器电源工作。 由于采用了内部PMOSFET架构,加…

《ElementUI/Plus 基础知识》el-tree 之修改可拖拽节点的高亮背景和线

前言 收到需求,PM 觉得可拖拽节点的高亮背景和线样式不明显!CSS 样式得改! 注意:下述方式适用于ElementUI el-tree 和 ElementPlus el-tree! 修改 拖拽被叠加节点的背景色和文字 关键类名 is-drop-inner .el-tree…