基于术语词典干预的机器翻译挑战赛笔记Task2 #Datawhale AI 夏令营

上回:

基于术语词典干预的机器翻译挑战赛笔记Task1 跑通baseline Datawhale AI 夏令营-CSDN博客文章浏览阅读718次,点赞11次,收藏8次。基于术语词典干预的机器翻译挑战赛笔记Task1 跑通baselinehttps://blog.csdn.net/qq_23311271/article/details/140357529?csdn_share_tail=%7B%22type%22%3A%22blog%22%2C%22rType%22%3A%22article%22%2C%22rId%22%3A%22140357529%22%2C%22source%22%3A%22qq_23311271%22%7D

书接上回:

导入库

Spacy

Spacy是一个流行的自然语言处理(NLP)库,用于文本预处理、实体识别、句法分析、词向量表示等任务。

Spacy支持多种语言,并且具有高效的性能和易于使用的接口。它被广泛用于构建智能语言处理应用程序、信息提取和文本分析等领域。

用于英文的 tokenizer(分词,就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作),不同环境的安装请参考:https://spacy.io/usage

Install spaCy · spaCy Usage DocumentationspaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging, dependency parsing, word vectors and more.icon-default.png?t=N7T8https://spacy.io/usage 

安装库的命令 

pip install -U pip setuptools wheel
pip install -U 'spacy[cuda12x]'
python -m spacy download en_core_web_sm

创建新文件夹为task2并导入文件,在这个文件夹打开终端

打开终端粘贴复制好的命令...

等待安装完成

torchtext

一个用于自然语言处理(NLP)的Python库,它为NLP任务提供了一些常用的数据集和文本预处理功能。

torchtext可以帮助开发人员加载和处理文本数据集,并将其转换为适合机器学习模型训练的格式。它还提供了一些方便的功能,例如构建词汇表、创建数据迭代器等

jieba

是一个流行的中文分词工具。

它可以将连续的中文文本切分成单独的词语,将文本转化为可以进一步处理的形式。jieba具有高效的分词速度和较好的分词准确性,因此在中文文本处理和NLP任务中被广泛使用。

sacrebleu

是一个用于机器翻译评估的Python库。

它提供了计算机翻译质量指标(如BLEU指标)的功能,用于衡量机器翻译系统的性能

安装库的命令 

!pip install torchtext    
!pip install jieba
!pip install sacrebleu

数据预处理

上传数据

数据清洗与规范化

去除无关信息清除文本中的 HTML 标签、特殊字符和非文本内容,如 “Joey. (掌声) (掌声) 乔伊” 中的 “(掌声)”。

统一格式将所有文本转换为小写,统一日期和数字的表示方式,确保数据一致性。

文本分割

分句和分段:将长文本分割成句子或段落,以便于后续处理和模型训练。

分词

定义tokenizer

中文分词:使用 jieba 等工具将中文文本分解成单词或词素。

zh_tokenizer = lambda x: list(jieba.cut(x))  # 使用jieba分词

英文分词:使用 Spacy等工具将英文文本分解成单词或词素。

en_tokenizer = get_tokenizer('spacy', language='en_core_web_trf')

对英文和中文文本数据进行预处理,以便用于机器翻译。 

from typing import List, Tuple  # 导入List和Tuple类型,用于类型注解# 定义数据预处理函数,输入参数为英文数据列表和中文数据列表,返回值为处理后的数据列表
def preprocess_data(en_data: List[str], zh_data: List[str]) -> List[Tuple[List[str], List[str]]]:processed_data = []  # 初始化一个空列表,用于存储处理后的数据for en, zh in zip(en_data, zh_data):  # 使用zip函数同时遍历英文和中文数据列表en_tokens = en_tokenizer(en.lower())[:MAX_LENGTH]  # 对英文文本进行小写转换和分词,并截断到最大长度zh_tokens = zh_tokenizer(zh)[:MAX_LENGTH]  # 对中文文本进行分词,并截断到最大长度if en_tokens and zh_tokens:  # 确保两个序列都不为空processed_data.append((en_tokens, zh_tokens))  # 将处理后的英文和中文序列添加到processed_data列表中return processed_data  # 返回处理后的数据列表

词汇表与词向量构建

词汇表构建:从训练数据中提取所有词汇,构建一个包含所有词汇的列表,并为每个词分配一个唯一索引。

词向量利用预训练的词向量或自训练词向量,将词汇表中的词映射到高维空间中的向量以捕捉词的语义信息。

# 导入build_vocab_from_iterator函数
from torchtext.vocab import build_vocab_from_iterator  # 定义构建词汇表的函数,输入参数为处理后的数据列表,返回值为英文和中文的词汇表
def build_vocab(data: List[Tuple[List[str], List[str]]]):# 使用build_vocab_from_iterator函数从英文数据中构建词汇表# specials参数指定了特殊字符,包括未知词('<unk>'),填充('<pad>'),开始('<bos>')和结束('<eos>')en_vocab = build_vocab_from_iterator((en for en, _ in data),  # 生成器表达式,只提取英文序列specials=['<unk>', '<pad>', '<bos>', '<eos>'])# 使用build_vocab_from_iterator函数从中文数据中构建词汇表zh_vocab = build_vocab_from_iterator((zh for _, zh in data),  # 生成器表达式,只提取中文序列specials=['<unk>', '<pad>', '<bos>', '<eos>'])# 设置词汇表的默认索引为未知词('<unk>')的索引en_vocab.set_default_index(en_vocab['<unk>'])zh_vocab.set_default_index(zh_vocab['<unk>'])# 返回构建好的英文和中文词汇表return en_vocab, zh_vocab

序列处理

序列截断:限制输入序列的长度,避免过长的序列增加计算成本和冗余信息。

序列填充:将所有序列填充至统一长度,通常使用 <PAD> 标记进行填充,以便于批量处理。

特殊标记添加

序列开始和结束标记:在序列的开始和结束处添加 <SOS> 和 <EOS> 标记,帮助模型识别序列的边界。

未知词标记:对不在词汇表中的词添加 <UNK> 标记,使模型能够处理未见过的词汇。

数据增强

随机替换或删除词:在训练数据中随机替换或删除一些词,以增强模型的鲁棒性。

同义词替换:使用同义词替换原文中的词,增加训练数据的多样性。

数据集划分

数据分割:虽然本赛题中数据集已经划分好,但了解将数据划分为训练集、验证集和测试集的重要性是必要的,这有助于模型训练、参数调整和最终性能评估。

模型训练

在神经机器翻译中,编码器-解码器模型是一种常用的框架,用于描述源语言和目标语言之间的关系。这个框架由两个主要组件组成:编码器和解码器。

编码器的作用是将源语言句子编码为一个固定长度的向量,捕捉句子的语义和信息。

编码器通常是一个循环神经网络(RNN)或者是变种,长短时记忆网络(LSTM)或门控循环单元(GRU)。编码器逐步读取源语言句子的每个单词或者字符,每一步都更新其内部状态,最终输出一个表示整个句子语义的向量。

解码器的作用是基于编码器的输出向量,逐步生成目标语言的翻译结果。

解码器也是一个循环神经网络,接收编码器的输出向量作为初始隐藏状态,并根据之前生成的翻译结果和当前的隐藏状态生成下一个单词或者字符。解码器不断迭代,直到生成完整的目标语言句子。

训练阶段,编码器和解码器需要通过最大似然估计或其他损失函数进行参数优化,以最大限度地减少源语言和目标语言之间的翻译误差。推断阶段,只需要使用已训练好的编码器和解码器将源语言句子输入,然后通过解码器逐步生成目标语言翻译结果。

编码器-解码器模型提供了一种将源语言翻译为目标语言的框架,通过编码器捕捉源语言句子的语义信息,并通过解码器生成目标语言的翻译结果。

主流:编码器由词嵌入层和中间网络层组成

  • 当输入一串单词序列时,词嵌入层(embedding)会将每个单词映射到多维实数表示空间,这个过程也被称为词嵌入

  • 之后中间层会对词嵌入向量进行更深层的抽象,得到输入单词序列的中间表示。中间层的实现方式有很多,比如:循环神经网络、卷积神经网络、自注意力机制等都是模型常用的结构。

  • 解码器的结构基本上和编码器是一致的,在基于循环神经网络的翻译模型中,解码器只比编码器多了输出层,用于输出每个自标语言位置的单词生成概率,而在基于自注意力机制的翻译模型中,除了输出层,解码器还比编码器多一个编码解码注意力子层,用于帮助模型更好地利用源语言信息。

我以基于循环神经网络的机器翻译模型为例,说明其整体结构。

其中,左侧为编码器部分,源语言单词按照其在文本序列中的先后顺序被依次送入到循环神经网络(RNN)当中。在每入时间步t中,模型依据送入的源语言单语 xt对应修改并维护其模型内部的隐状态ht,这个隐状态编码了输入的源语言序列前t个时刻的所有必要信息。按照这种方式当m输入全部被送入到编码器之后,所对应的hm可以认为包含了源语言序列的所有信息。

右半部分是RNN解码器部分,它接收编码器输出的编码源语言句子信息的向量hm作为初始隐状态s0。由于 RNN的循环过程在每人时间步都要求一个输入单词,为了启动解码过程,一般会使用一个保留的特殊符号”[Start]“作为翻译开始的标记送入到RNN解码器当中并解码出自标语言序列的第一个单词z1。接下来,z1会作为下一入时刻的输入被送入到循环神经网络当中,并按照不断迭代产生后续的预测。由于自标语言序列的长度无法被提前预知,因此使用另一个保留符号“[Stop]”作为预测结束的标志。当某一个时刻t预测出的目标语言单词为 zt ="[Stop]”时,解码过程动态地停止。在上述过程当中,主要涉及到两步运算,第一步是 RNN 接收前一时刻隐状态S(t-1)并依据当前时刻输入z( t-1)(自标语言单词z(t-1)对应的语义嵌入)对隐状态进行维护并生成St的运算过程。

其中 U,W,V 是可学习的参数。U,W 负责维护循环状态,而 V 负责将当前时刻状态转换到词表大小的概率分布

P \in R^{vocab_size},从中可以采样得到目标语言单词 z_{t}

通过循环网络对源语言文本进行编码,并生成目标语言翻译结果的过程十分简单。然而,它仅仅使用一个定长的向量 $$h_{m}$$ 编码整个源语言序列。这对于较短的源语言文本没有什么问题,但随着文本序列长度的逐渐加长,单一的一个向量 hm 可能不足以承载源语言序列当中的所有信息

蓝色的线代表上述简单循环神经网络性能随源语言文本长度的变化趋势。当文本长度在 20 个单词以内时,单一向量能够承载源语言文本中的必要信息。随着文本序列的进一步增加,翻译性能的评价指标 BLEU 的值就开始出现明显地下降。因此,这就启发我们使用更加有效地机制从编码器向解码器传递源语言信息,这就是接下来要讲到的注意力机制。

引入注意力机制的循环机器翻译架构与基于简单循环网络的机器翻译模型大体结构相似,均采用循环神经网络作为编码器与解码器的实现。关键的不同点在于注意力机制的引入使得不再需要把原始文本中的所有必要信息压缩到一个向量当中。引入注意力机制的循环神经网络机器翻译架构如图所示:

翻译质量评价

人们在使用机器翻译系统时需要评估系统输出结果的质量。这个过程也被称作机器翻译译文质量评价,简称为译文质量评价(Quality Evaluation of Translation)。在机器翻译的发展进程中,译文质量评价有着非常重要的作用。不论在系统研发的反复迭代中,还是在诸多的机器翻译应用场景中,都存在大量的译文质量评价环节。从某种意义上说,没有译文质量评价,机器翻译也不会发展成今天的样子。比如,本世纪初研究人员提出了译文质量自动评价方法 BLEU(Bilingual Evaluation Understudy)

该方法使得机器翻译系统的评价变得自动、快速、便捷,而且评价过程可以重复。正是由于 BLEU 等自动评价方法的提出,机器翻译研究人员可以在更短的时间内得到译文质量的评价结果,加速系统研发的进程。

机器翻译译文质量评价

机器翻译译文质量评价是指对机器翻译系统输出结果进行评估,以衡量翻译质量的过程。在机器翻译的发展中,译文质量评价起着非常重要的作用。无论是在系统研发过程中还是在实际应用中,都需要进行大量的译文质量评价。

译文质量评价

译文质量评价的重要性在于它可以提供对机器翻译结果的客观评估,帮助研发人员改进系统的性能。通过译文质量评价,可以了解系统在不同语言对、不同领域和不同文本类型上的翻译表现,从而指导系统的改进和优化。

在过去,译文质量评价往往是由人工评估人员进行的,他们需要阅读源文本和机器翻译结果,然后对译文质量进行打分或提供详细的评估报告。然而,人工评估的过程费时费力,并且在大规模应用中不太实用。

为了解决这个问题,研究人员提出了自动评价方法,其中最著名的是BLEU(Bilingual Evaluation Understudy)BLEU通过比较机器翻译结果与参考翻译之间的n-gram匹配来评估翻译质量。BLEU具有自动化、快速、便捷和可重复性的特点,因此被广泛应用于机器翻译系统的评估和研发中。

BLEU方法的提出加速了机器翻译研究的进程,使研发人员能够更快地获取关于翻译质量的评估结果。然而,BLEU也存在一些缺点,例如它只关注n-gram匹配,无法捕捉翻译的流畅性和准确性等问题。因此,研究人员还提出了其他自动评价方法,如METEOR、TER和ROUGE等,以进一步提高机器翻译的译文质量评价水平。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48263.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++树形结构(2 树的直径)

目录 1.定义&#xff1a; 2.直径的性质&#xff1a; 3.树的直径求解方法&#xff1a; 4.直径端点求解方法&#xff1a; 朴素方法&#xff1a; 优化方法&#xff1a; 5.例题&#xff1a; 6.直径公共点&#xff1a; 7.例题&#xff1a; 8.去掉再加上&#xff1a; 9.例…

最新版kubeadm搭建k8s(已成功搭建)

kubeadm搭建k8s&#xff08;已成功搭建&#xff09; 环境配置 主节点 k8s-master&#xff1a;4核8G、40GB硬盘、CentOS7.9&#xff08;内网IP&#xff1a;10.16.64.67&#xff09; 从节点 k8s-node1&#xff1a; 4核8G、40GB硬盘、CentOS7.9&#xff08;内网IP&#xff1a;10…

框架使用及下载

Bootstrap5 安装使用 | 菜鸟教程 (runoob.com) https://github.com/twbs/bootstrap/releases/download/v5.1.3/bootstrap-5.1.3-dist.zip&#xff08;下载链接&#xff09; Staticfile CDN&#xff08;html的所有框架合集&#xff09; 直接在w3cschool里面看参考文件进行搜索自…

RHCSA —— 第八节 (编辑器、编辑命令等)

Vi/vim编辑器 vim 编辑器 就是相当于在windows中创建一个记事本&#xff0c;一个word文档里面进行编辑所需要的内容。在linux中编辑文本文件&#xff0c;包括但不限于编辑源代码、配置文件、日志文件等文件内容。 三种模式 这是在编辑器中存在三种模式&#xff1a;命令模式、…

[经验] 驰这个汉字的拼音是什么 #学习方法#其他#媒体

驰这个汉字的拼音是什么 驰&#xff0c;是一个常见的汉字&#xff0c;其拼音为“ch”&#xff0c;音调为第四声。它既可以表示动词&#xff0c;也可以表示形容词或副词&#xff0c;意义广泛&#xff0c;经常出现在生活和工作中。下面就让我们一起来了解一下“驰”的含义和用法。…

Deepfake detection【Datawhale AI夏令营】数据增强方法

deepfake detection比赛链接https://www.kaggle.com/competitions/multi-ffdi 训练分类模型判别图片是否为AI生成图片&#xff0c;探究不同数据增强方法对模型表现的影响。 1、数据增强方法 图像分类任务中常见的数据增强方法&#xff1a; &#xff08;1&#xff09; 几何变换…

【BUG】已解决:xlrd.biffh.XLRDError: Excel xlsx file; not supported

已解决&#xff1a;xlrd.biffh.XLRDError: Excel xlsx file&#xff1b; not supported 目录 已解决&#xff1a;xlrd.biffh.XLRDError: Excel xlsx file&#xff1b; not supported 【常见模块错误】 错误原因 解决办法&#xff1a; 欢迎来到英杰社区https://bbs.csdn.net/…

深入解析HNSW:Faiss中的层次化可导航小世界图

层次化可导航小世界&#xff08;HNSW&#xff09;图是向量相似性搜索中表现最佳的索引之一。HNSW 技术以其超级快速的搜索速度和出色的召回率&#xff0c;在近似最近邻&#xff08;ANN&#xff09;搜索中表现卓越。尽管 HNSW 是近似最近邻搜索中强大且受欢迎的算法&#xff0c;…

详解SVN与Git相比存在的不足

原文全文详见个人博客&#xff1a; 详解SVN与Git相比存在的不足截至目前&#xff0c;我们已既从整理梳理的SVN和Git在设计理念上的差异&#xff0c;也重点对二者的存储原理和分支管理理念的差异进行深入分析。这些差异也直接造成了SVN和Git在分支合并、冲突解决、历史记录管理…

山西大学—双一流大学,考数据结构+C语言。山西大学计算机考研考情分析!

山西大学&#xff08;Shanxi University&#xff09;&#xff0c;位于山西省太原市&#xff0c;是中国办学历史最悠久的高等学府之一&#xff0c;是国家“双一流”建设高校&#xff0c;教育部和山西省人民政府共同建设的“部省合建高校”&#xff0c;山西省重点建设大学&#x…

JVM监控及诊断工具-命令行篇-jstack命令介绍

加粗样式 JVM监控及诊断工具-命令行篇04-jstack&#xff1a;打印JVM中线程快照 一 基本情况二 基本语法 一 基本情况 jstack(JVM Stack Trace)&#xff1a; 用于生成虚拟机指定进程当前时刻的线程快照(虚拟机堆栈跟踪)。 线程快照就是当前虚拟机内指定进程的每一条线程正在执…

新手小白的pytorch学习第七弹------分类问题模型

目录 1. 准备分类数据1.1 输入和输出的形状 shape1.2 将数据转换为张量&#xff0c;同时将我们的数据集转换为训练集和测试集 2 创建模型方法一&#xff1a;自定义forward()方法二&#xff1a;nn.Sequential()方法三&#xff1a;自定义forward()nn.Sequential() 用 pytorch 使用…

基于A律压缩的PCM脉冲编码调制通信系统simulink建模与仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 4.1A律压缩的原理 4.2 PCM编码过程 4.3 量化噪声与信噪比 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 2.算法运行软件版本 matlab2022a 3.部分核心程序 &#…

python项目读取oracle数据库方法(cx_Oracle库实现)

目录 创建一个python项目&#xff0c;并配置运行环境 查看oracle对应数据库版本&#xff08;该标题下内容只是为了查看版本&#xff0c;不用在意&#xff09; 从oracle官网下载对应版本的oracle客户端 解压下载的压缩包&#xff0c;并获取依赖 将依赖文件导入python项目运…

82. UE5 RPG 实现角色升级系统(下)

书接上回&#xff0c;在上一篇博客里&#xff0c;我们实现了角色升级的基础的功能。给敌人增加的经验奖励配置&#xff0c;并且在敌人死亡时&#xff0c;能够将经验通过事件传递给击杀者&#xff0c;玩家定义了被动技能&#xff0c;在被动技能中接收传递的事件&#xff0c;通过…

iOS 开发包管理之CocoaPods

CocoaPods&#xff08;Objective-C 时期&#xff0c;支持Objective-C和swift&#xff09;&#xff0c;CocoaPods下载第三方库源代码后会将其编译成静态库.a 文件 或动态库框架.framework 文件 的形式&#xff0c;并将它们添加到项目中&#xff0c;建立依赖关系&#xff0c;这种…

Redis实现用户会话

1.分布式会话 (1)什么是会话 会话Session代表的是客户端与服务器的一次交互过程&#xff0c;这个过程可以是连续也可以是时断时续的。曾经的Servlet时代&#xff08;jsp&#xff09;&#xff0c;一旦用户与服务端交互&#xff0c;服务器tomcat就会为用户创建一个session&#…

开源PDF解析工具marker 和 MinerU的解析效果对比

RAG中的文档解析需求&#xff1a;需要的是文档的完整段落&#xff0c;标题&#xff0c;图片&#xff0c;表格。我们希望删除的是md格式&#xff0c;或者josn格式。 MinerU 和 maker恰好。都是能够满足此需求的开源工具。这篇文章分享一下对两者的对比。整理出来目前还存在的问题…

RPG素材Unity7月20闪促限时4折游戏开发资产兽人角色模型动画休闲放置模板物理交互流体水下焦散VR界面UI2D模板场景20240720

今天这个是RPG素材比较多&#xff0c;还有一些休闲放置模板、FPS场景素材、角色模型、动画、特效。 详细内容展示&#xff1a;www.bilibili.com/video/BV1Tx4y1s7vm 闪促限时4折&#xff1a;https://prf.hn/l/0eEOG1P 半价促销&#xff1a;https://prf.hn/l/RlDmDeQ 7月闪促…

谷粒商城实战-Vue学习过程中踩坑记录

一&#xff0c;自闭合的<script>标签 第一次使用Vue&#xff0c;按照步骤引入vue.js&#xff0c;创建div&#xff0c;创建Vue对象&#xff0c;但是未达预期效果。 插值表达式{{name}}没被替换为data对象中的属性值。 F12看了下网页源代码&#xff0c;发现创建Vue对象的…