MT-Pref数据集:包含18种语言的18k实例,涵盖多个领域。实验表明它能有效提升Tower模型在WMT23和FLORES基准测试中的翻译质量。

2024-10-10,由电信研究所、里斯本大学等联合创建MT-Pref数据集,它包含18种语言方向的18k实例,覆盖了2022年后的多个领域文本。通过在WMT23和FLORES基准测试上的实验,我们展示了使用MT-Pref数据集对Tower模型进行对齐可以显著提高翻译质量。

一、研究背景:

大型语言模型在机器翻译中的使用受到了研究社区的广泛关注。这些模型通常使用单个人参考翻译进行微调,但这可能不足以进一步提升翻译质量,因为对于给定的源文本,可能存在多种有效的翻译,其中一些可能比其他的更受偏好。

目前遇到困难和挑战 :

1、现有的数据集通常只包含一两模型的翻译输出,限制了其多样性和适用性。

2、这些数据集要么完全自动生成,要么完全基于人类反馈,前者缺乏关键验证,后者资源有限且难以扩展。

3、自动评估指标可能无法完全符合人类的预期,而人类评估虽然质量高,但成本高且难以大规模实施。

数据集地址:MT-PREF|机器翻译数据集|偏好分析数据集

二、让我们来一起看一下MT-Pref

在机器翻译领域,与人类偏好一致是开发准确、安全的大型语言模型的重要步骤。然而,基于人类反馈的偏好数据获取和整理成本非常高。通过结合了自动指标和人类评估的优势,创建的新的高质量偏好数据集MT-Pref(Metric-induced Translation Preference)。

数据集包含了来自多个高质量机器翻译系统生成的翻译的句子级质量评估,这些评估由专业语言学家提供。数据集覆盖了18种语言方向,文本来源多样,时间跨度为2022年后。

数据集构建 :

数据集的构建首先收集了专业语言学家对多个高质量机器翻译系统生成的翻译进行的句子级质量评估,然后使用这些评估来测试当前自动指标恢复这些偏好的能力。基于这一分析,研究者使用xComet-xl和xComet-xxl指标的组合来筛选出最受欢迎的和最不受欢迎的翻译。

数据集特点 :

1、包含18种语言方向,覆盖多种领域。

2、 包含18k实例,每个实例都经过专业语言学家的评估。

3、使用xComet-xl+xxl指标来诱导偏好,确保与人类评估的高相关性。

数据集可以用于训练和微调机器翻译模型,以提高翻译质量并使其更符合人类的偏好。研究者可以使用这些数据来训练偏好学习算法,如对比偏好优化(CPO)

基准测试 :

在WMT23和FLORES基准测试中,使用MT-Pref数据集进行微调的模型显示出了显著的翻译质量提升。

不同系统之间的成对偏好:Google 和 GPT-4 翻译比开源替代方案更受欢迎。

使用 MT-Pref 进行 CPO 微调可以提高 FLORES 上塔模型的翻译质量

三、让我们展望MT-Pref数据集的应用:

比如,我在一个多语言网站工作。

我的工作是确保网站上的各种产品描述、用户指南和新闻稿在翻译成不同语言后,不仅准确无误,还要保持原有的风格和语气。这可不是一件容易的事情哦。常使用的是翻译系统,虽然翻译得还算准确,但是有时候就像是机器人写出来的,缺乏那种“人味儿”。比如,如果原文里有些幽默的语句,翻译后的版本可能就变得干巴巴的,没有表达出作者的心境。

自从使用基于MT-Pref数据集训练的翻译系统后,似乎变得有些不一样了。

这个数据集厉害的地方在于,它能够教会翻译系统理解人类的偏好,知道什么样的翻译更受人喜欢。

就拿我们网站上的一款新咖啡机的介绍来说吧。原文里有句话是这样的:“这款咖啡机不仅能让你的早晨充满咖啡香,还能让你的家变成一个小小的咖啡馆。”用我们以前的翻译系统,可能就直接翻译成:“这个咖啡机可以让你的家早上充满咖啡的味道,并且让你的家变成一个小咖啡馆。”虽然意思没错,但是那种温馨的感觉就没了。

好在使用智能系统,翻译出来的可能就是:“这台咖啡机不仅能为你的清晨带来浓郁的咖啡香气,还能瞬间把你的客厅变成一个温馨的小咖啡馆。”这样的翻译不仅保留了原文的意境,还增加了一些让人会心一笑的细节,让产品介绍更加吸引人。

而且,这个系统还能根据不同的语言习惯,做出相应的调整。比如,对于西班牙语的用户,它可能会加入一些热情洋溢的词汇,让整个介绍更加贴近当地文化。对于德语用户,它可能会使用一些更精确的描述词汇,让产品介绍显得更加专业。

现在网站内容不仅在不同语言之间保持了高度的一致性,还提高了翻译的质量和风格上的匹配度。这让不同语言的用户都能获得更好的阅读体验,也让我们的网站显得更加专业和贴心。

来吧,让我们走进:MT-PREF|机器翻译数据集|偏好分析数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/57771.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++list

1.迭代器的功能以及性质 功能有iterator,reverse_iterator,const_iterator,const_reverse_iterator 性质有单向,双向和随机,单向的迭代器只能操作,双向只能/--俩种,随机则可以执行/--//-的操作…

【C++篇】栈的层叠与队列的流动:在 STL 的韵律中探寻数据结构的优雅之舞

文章目录 C 栈与队列详解:基础与进阶应用前言第一章:栈的介绍与使用1.1 栈的介绍1.2 栈的使用1.2.1 最小栈1.2.2 示例与输出 1.3 栈的模拟实现 第二章:队列的介绍与使用2.1 队列的介绍2.2 队列的使用2.2.1 示例与输出 2.3 队列的模拟实现2.3.…

[快速阅读八] Matlab中bwlookup的实现及其在计算二值图像的欧拉数、面积及其他morph变形中的应用。...

以前看过matlab的bwlookup函数,但是总感觉有点神秘,一直没有去仔细分析,最近在分析计算二值图像的欧拉数时,发现自己写的代码和matlab的总是对不少,于是又去翻了下matlab的源代码,看到了matlab里实现欧拉数…

JS轮播图实现自动轮播、悬浮停止轮播、点击切换,下方指示器与图片联动效果

代码&#xff1a; <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><s…

计算机网络原理总结C-网络层

网络层 网络层提供的两种服务网际协议IP 虚拟互连网络IP地址子网掩码&#xff08;无分类编址CIDR&#xff09;IP地址和MAC地址IP数据报格式&#xff08;路由&#xff09;转发分组的流程 因特网的路由选择协议&#xff08;动态路由协议&#xff09; 网际控制报文协议ICMPIP多播…

麒麟v10 arm64 部署 kubesphere 3.4 修改记录

arm64环境&#xff0c;默认安装 kubesphere 3.4 &#xff0c;需要修改几个地方的镜像&#xff0c;并且会出现日志无法显示 1 fluentbit:v1.9.4 报错 <jemalloc>: Unsupported system page size Error in GnuTLS initialization: ASN1 parser: Element was not found. &…

Java最全面试题->数据库/中间件->Redis面试题

文章目录 Redisredis的数据类型有哪些?Redis 内部结构有哪些?Memcache 与 Redis 的区别都有哪些?为什么 redis 需要把所有数据放到内存中?Redis 如何进行持久化?RDB和AOF的优缺点有哪些?什么是缓存穿透?如何避免?什么是缓存雪崩?何如避免?redis的淘汰策略有哪些?Red…

用更多的钱买电脑而不是手机

如果&#xff0c;我们对自己的定义是知识工作者&#xff0c;那么在工作、学习相关的电子设备投入上&#xff0c;真的别舍不得花钱。 需要留意的是&#xff0c;手机&#xff0c;对于大部分在电脑前工作的人&#xff0c;不是工作设备。在我看来&#xff0c;每年投入到电脑的钱&…

【高级IO】IO多路转接之select

select函数 我们知道IO 等待 拷贝&#xff0c;系统提供select函数来实现多路复用输入/输出模型&#xff1b;select系统调用是用来让我们的程序监视多个文件描述符的状态变化的&#xff1b;程序会停在select这里等待&#xff0c;直到被监视的文件描述符有一个或多个发生了状态…

植物健康,Spring Boot来助力

3系统分析 3.1可行性分析 通过对本植物健康系统实行的目的初步调查和分析&#xff0c;提出可行性方案并对其一一进行论证。我们在这里主要从技术可行性、经济可行性、操作可行性等方面进行分析。 3.1.1技术可行性 本植物健康系统采用SSM框架&#xff0c;JAVA作为开发语言&#…

钉钉录播抓取视频

爬取钉钉视频 免责声明 此脚本仅供学习参考&#xff0c;切勿违法使用下载他人资源进行售卖&#xff0c;本人不但任何责任! 仓库地址: GItee 源码仓库 执行顺序 poxyM3u8开启代理getM3u8url用于获取m3u8文件userAgent随机请求头downVideo|downVideoThreadTqdm单线程下载和…

【纯血鸿蒙】HarmonyOS和OpenHarmony 的区别

一、开源鸿蒙&#xff08;Open Harmony&#xff09; 鸿蒙系统愿来的设计初衷&#xff0c;就是让所有设备都可以运行一个系统&#xff0c;但是每个设备的运算能力和功能都不同&#xff0c;所以内核的设计上&#xff0c;采用了微内核的设计&#xff0c;除了最基础的功能放在内核…

logback 如何将日志输出到文件

如何作 将日志输出到文件需要使用 RollingFileAppender&#xff0c;该 Appender 必须定义 rollingPolicy &#xff0c;另外 rollingPollicy 下必须定义 fileNamePattern 和 encoder <appender name"fileAppender" class"ch.qos.logback.core.rolling.Rollin…

LLM | 论文精读 | 基于大型语言模型的自主代理综述

论文标题&#xff1a;A Survey on Large Language Model based Autonomous Agents 作者&#xff1a;Lei Wang, Chen Ma, Xueyang Feng, 等 期刊&#xff1a;Frontiers of Computer Science, 2024 DOI&#xff1a;10.1007/s11704-024-40231-1 一、引言 自主代理&#xff08;…

企业自建邮件系统选U-Mail ,功能强大、安全稳定

在现代企业运营中&#xff0c;电子邮件扮演着至关重要的角色&#xff0c;随着企业规模的增长和业务的多样化&#xff0c;传统的租用第三方企业邮箱服务逐渐显现出其局限性。例如&#xff0c;存储空间受限、数据安全风险、缺乏灵活的管理和备份功能&#xff0c;以及无法与其他企…

C++从入门到起飞之——红黑树 全方位剖析!

&#x1f308;个人主页&#xff1a;秋风起&#xff0c;再归来~&#x1f525;系列专栏&#xff1a;C从入门到起飞 &#x1f516;克心守己&#xff0c;律己则安 目录 1. 红⿊树的概念 2. 红⿊树的实现 2.1 构建整体框架 2.2 红黑树的插入 2.3 红黑树的验证 2.4 红黑树…

数据库、数据仓库、数据湖和数据中台有什么区别

很多企业在面对数据存储和管理时不知道如何选择合适的方式&#xff0c;数据库、数据仓库、数据湖和数据中台&#xff0c;这些方式都是什么&#xff1f;有什么样的区别&#xff1f;企业根据其业务类型该选择哪一种&#xff1f;本文就针对这些问题&#xff0c;来探讨下这些方式都…

ASP.NET Core 8.0 中使用 Hangfire 调度 API

在这篇博文中&#xff0c;我们将引导您完成将 Hangfire 集成到 ASP.NET Core NET Core 项目中以安排 API 每天运行的步骤。Hangfire 是一个功能强大的库&#xff0c;可简化 .NET 应用程序中的后台作业处理&#xff0c;使其成为调度任务的绝佳选择。继续阅读以了解如何设置 Hang…

山西农业大学20241025

06-VUE 一. 生命周期1. 概念2. 生命周期的钩子函数 二. 工程化开发和脚手架1. 开发vue的两种方式2. 脚手架 Vue CLI3. 使用步骤4 . 项目目录介绍4.1 项目目录4.2 总结 一. 生命周期 1. 概念 VUE生命周期: 就是vue实例从创建到销毁的整个 生命周期经历了四个阶段: ①创建 ②挂载…

Clickhouse 笔记(一) 单机版安装并将clickhouse-server定义成服务

ClickHouse 是一个高性能的列式数据库管理系统&#xff08;DBMS&#xff09;&#xff0c;主要用于在线分析处理&#xff08;OLAP&#xff09;场景。它由俄罗斯搜索引擎公司 Yandex 开发&#xff0c;并在 2016 年开源。ClickHouse 以其卓越的查询性能和灵活的扩展性而闻名&#…