NLP论文速读(多伦多大学)|利用人类偏好校准来调整机器翻译的元指标

论文速读|MetaMetrics-MT: Tuning Meta-Metrics for Machine Translation via Human Preference Calibration

论文信息:

图片

简介:

      本文的背景是机器翻译(MT)任务的评估。在机器翻译领域,由于不同场景和语言对的需求差异,没有单一的评估指标能够普遍适用。现有的评估指标可能在一个任务中表现良好,但在另一个任务中可能就不适用。因此,依赖单一指标往往是不够的,需要将自动评估指标与人类评估对齐,以确保其有效性。此外,现有的多个评估指标之间可能因为模型和训练数据的差异而相关性不强,这影响了它们与人类评估的一致性和跨语言对的可靠性。因此,本文提出了一种新的方法,旨在通过贝叶斯优化和高斯过程(GP)来调整和优化现有的MT评估指标,使其更贴近人类偏好。

论文方法:

      本文提出的方法是METAMETRICS-MT,一个创新的评估指标,它通过贝叶斯优化和高斯过程来优化现有MT评估指标的相关性。

      具体步骤如下:

      多指标融合:METAMETRICS-MT结合了多个不同的评估指标,每个指标都被赋予特定的权重,以优化整体性能。这些指标包括基于词汇和基于语义的指标,它们被整合在一起,以形成一个综合的评估分数。

      贝叶斯优化:使用贝叶斯优化来确定最佳的权重集合,这些权重最大化了评估分数与人类评估分数之间的相关性。贝叶斯优化通过构建目标函数的概率模型,平衡了新区域的探索和已知有前景区域的利用。

      高斯过程(GP):GP被用作贝叶斯优化中的代理模型,它假设变量的多变量高斯分布,并随着观测数据的增加而变得更加精确,从而帮助算法更有效地识别权重空间中的有前景区域。

论文实验:

图片

      论文中提到了两个版本的METAMETRICS-MT:一个是基于参考的(Reference-based),另一个是无需参考的(Reference-free)。

      实验使用了WMT24度量共享任务数据集,并且使用了Kendall’s τ相关性作为评估指标。

      在参考基础设置中,使用了包括MetricX-23的不同变体、BERTScore、YISI-1、BLEURT、COMET-22和XCOMET-XL等在内的多个评估指标。

      在无参考设置中,使用了包括CometKiwi的不同变体、GEMBA-MQM和MetricX-23-QE等在内的多个评估指标。

      Table 2展示了不同评估指标在WMT24共享任务中的表现,包括系统级软成对排名准确率(sys SPA)、段级成对排名准确率(seg acc-t)和系统级、段级平均相关性(avg. corr)。

      论文中的METAMETRICS-MT在参考基础设置下的表现超过了所有其他基线,特别是在系统级和段级平均相关性方面,METAMETRICS-MT(Hybrid)变体在所有变体中表现最佳。

论文链接:

https://arxiv.org/abs/2411.00390

原文来自:

NLP论文速读(多伦多大学)|利用人类偏好校准来调整机器翻译的元指标

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/886769.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AJAX学习(24.11.1-24.11.14)(包含HTTP协议)

AJAX学习(24.11.1-11.14) 来源: 传智 | 高校学习平台-首页 传智播课:黑马程序员 1.服务器和客户端 1.服务器:存放和对外提供资源的电脑。 2.客户端(用户):获取和消费资源的电脑。&#xff0…

好用的js组件库

lodash https://www.lodashjs.com/https://www.lodashjs.com/ uuid 用于生成随机数,常用于生成id标识 GitHub - uuidjs/uuid: Generate RFC-compliant UUIDs in JavaScripthttps://github.com/uuidjs/uuid dayjs 常用于时间的处理 安装 | Day.js中文网 (fenxi…

基于麒麟服务器操作系统V10版本,部署Nginx服务、MySql服务搭建PHP环境,实现静态网站平台的搭建。

一、环境准备 关闭防火墙。 查看当前防火墙的状态 systemctl status firewalld Copy 如果防火墙的状态参数是inactive,则防火墙为关闭状态。 如果防火墙的状态参数是active,则防火墙为开启状态。 关闭防火墙。 如果您想临时关闭防火墙,需要运行以下命令: systemctl…

[JavaWeb] 尚硅谷JavaWeb课程笔记

1 Tomcat服务器 Tomcat目录结构 bin:该目录下存放的是二进制可执行文件,如果是安装版,那么这个目录下会有两个exe文件:tomcat10.exe、tomcat10w.exe,前者是在控制台下启动Tomcat,后者是弹出GUI窗口启动To…

SRP 实现 Cook-Torrance BRDF

写的很乱! BRDF(Bidirectional Reflectance Distribution Function)全称双向反射分布函数。辐射量单位非常多,这里为方便直观理解,会用非常不严谨的光照强度来解释说明。 BRDF光照模型,上反射率公式&#…

向量数据库FAISS之五:原理(LSH、PQ、HNSW、IVF)

1.Locality Sensitive Hashing (LSH) 使用 Shingling MinHashing 进行查找 左侧是字典,右侧是 LSH。目的是把足够相似的索引放在同一个桶内。 LSH 有很多的版本,很灵活,这里先介绍第一个版本,也是原始版本 Shingling one-hot …

基于YOLOv8深度学习的无人机航拍小目标检测系统(PyQt5界面+数据集+训练代码)

本研究提出并实现了一种基于YOLOv8深度学习模型的无人机航拍小目标检测系统,旨在解决高空环境下汽车目标检测的技术难题。随着无人机技术的发展,航拍图像已广泛应用于交通监控、城市管理、灾害应急等多个领域。然而,由于无人机通常在较高的飞…

LeetCode 热题 100 回顾

目录 一、哈希部分 1.两数之和 (简单) 2.字母异位词分组 (中等) 3.最长连续序列 (中等) 二、双指针部分 4.移动零 (简单) 5.盛最多水的容器 (中等) 6…

使用 PyTorch 实现 ZFNet 进行 MNIST 图像分类

在本篇博客中,我们将通过两个主要部分来演示如何使用 PyTorch 实现 ZFNet,并在 MNIST 数据集上进行训练和测试。ZFNet(ZFNet)是基于卷积神经网络(CNN)的图像分类模型,广泛用于图像识别任务。 环…

【计算机网络实验】之静态路由配置

【计算机网络实验】之静态路由配置 实验题目实验目的实验任务实验设备实验环境实验步骤路由器配置设置静态路由测试路由器之间的连通性配置主机PC的IP测试 实验题目 静态路由协议的配置 实验目的 熟悉路由器工作原理和机制;巩固静态路由理论;设计简单…

driver.js实现页面操作指引

概述 在访问某些网站的时候,第一次进去你会发现有个操作指引,本文引用driver.js,教你在你的页面也加入这般高大上的操作指引。 实现效果 实现 driver.js简介 driver.js是一个功能强大且高度可定制的基于原生JavaScript开发的新用户引导库…

无人机航测技术算法概述!

一、核心技术 传感器技术: GPS/GLONASS:无人机通过卫星定位系统实现高精度的飞行控制和数据采集。 高清相机:用于拍摄地面图像,通过后续图像处理生成三维模型。 激光雷达(LiDAR):通过激光扫…

Docker 基础命令介绍和常见报错解决

介绍一些 docker 可能用到的基础命令,并解决三个常见报错: 权限被拒绝(Permission Denied)无法连接到 Docker 仓库(Timeout Exceeded)磁盘空间不足(No Space Left on Device) 命令以…

Java RPC框架的接口预热原理及无损实现

🚀 博主介绍:大家好,我是无休居士!一枚任职于一线Top3互联网大厂的Java开发工程师! 🚀 🌟 在这里,你将找到通往Java技术大门的钥匙。作为一个爱敲代码技术人,我不仅热衷…

java的强,软,弱,虚引用介绍以及应用

写在前面 本文看下Java的强,软,弱,虚引用相关内容。 1:各种引用介绍 顶层类是java.lang.ref.Reference,注意是一个抽象类,而不是接口,其中比较重要的引用队列ReferenceQueue就在该类中定义,子…

已有docker增加端口号,不用重新创建Docker

已有docker增加端口号,不用重新创建Docker 1. 整体描述2. 具体实现2.1 查看容器id2.2 停止docker服务2.3 修改docker配置文件2.4 重启docker服务 3. 总结 1. 整体描述 docker目前使用的非常多,但是每次更新都需要重新创建docker,也不太方便&…

jmeter常用配置元件介绍总结之断言

系列文章目录 1.windows、linux安装jmeter及设置中文显示 2.jmeter常用配置元件介绍总结之安装插件 3.jmeter常用配置元件介绍总结之线程组 4.jmeter常用配置元件介绍总结之函数助手 5.jmeter常用配置元件介绍总结之取样器 6.jmeter常用配置元件介绍总结之jsr223执行pytho…

OpenLayers教程12_WebGL自定义着色器:实现高级渲染效果

在 OpenLayers 中使用 WebGL 自定义着色器实现高级渲染效果 目录 一、引言二、WebGL 自定义着色器的优势三、示例应用:实现动态渲染效果 1. 项目结构2. 主要代码实现3. 运行与效果 四、代码讲解与扩展 1. 动态圆的半径和填充颜色2. 动态透明度与边框效果 五、总结…

Axure二级菜单下拉交互实例

1.使用boxlabe进行基础布局 2.设置鼠标悬浮和选中状态 3.转换为动态面板 选中所有二级菜单,进行按钮组转换 选中所有二级菜单,进行动态面板转换 4.给用户管理增加显示/隐藏事件 1)选择toggle代表上拉和下拉切换加载 2)勾选Bring to Front,并选择Push/Pull Widgets代表收缩时…

SpringSecurity+OAuth2权限管理

Spring Security 零 介绍 功能: 身份认证(authentication) 授权(authorization) 防御常见攻击(protection against common attacks) 身份认证: 身份认证是验证谁正在访问系统资…