今日arXiv最热大模型论文:大模型也来看球,还能判断是否犯规

在足球世界,裁判的哨声可谓“千金难买”,因为它能直接决定俱乐部的钱包是鼓是瘪。但球场变化莫测,非常考验裁判的水平。

2022年卡塔尔世界杯上,半自动越位识别技术(SAOT)闪亮登场,通过12台摄像机,每秒50次追踪球员的29个数据点,精确绘制出越位线,辅助裁判做越位判别,以防错判和漏判。

除此之外,有学者开始研究让大模型来“看球”,通过视频判断球员是否违规并给出相应的解释。

这个模型叫做X-VARS,在足球领域SoccerNet-XFoul数据集上进行了训练与验证。这个数据集包含了超过22k个视频-问题-答案三元组,涵盖了最基本的裁判问题。超过70名专业裁判为数据集提供了详尽的标注和决策解释,确保了数据的质量和准确性。

经过验证,X-VARS在SoccerNet-MVFoul数据集上取得了最先进的性能,X-VARS生成的决策解释水平竟与人类裁判相当。一起来看看是否真的有这么厉害。

论文标题:
X-VARS: Introducing Explainability in Football Refereeing with Multi-Modal Large Language Models

论文链接
https://arxiv.org/pdf/2404.06332.pdf

SoccerNet-XFoul数据集构建

SoccerNet-XFoul,是一个专门设计用于犯规视频识别和解释的数据集。它包含高质量的视频文本对,超过10k个视频剪辑和22k个问题,由70多名经验丰富的裁判进标注。

与其他体育数据集相比,如下图所示,SoccerNet-XFoul是体育领域中最大的数据集,涵盖了复杂问题,并且是唯一专注于裁判问题的数据集。

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

1. 确定问题

作者首先确定了裁判在比赛中必须面对的最基础、最复杂和对比赛产生影响的决定的4个关键问题:

  1. “这是犯规吗?为什么?” ;

  2. “你会给出什么牌?为什么?”;

  3. “防守者是否阻止了有希望的进攻或进球机会?” ;

  4. “裁判是否可以给予优势?”。

要回答这四个问题,模型需要深入理解比赛规则,以及理解行为发生的背景。必须考虑诸如意图、犯规位置、比赛动态和接触强度等因素。问题的答案不仅仅是视觉的,模型还必须对潜在的未来结果进行预测。例如,在评估裁判是否应该给予优势时,模型需要评估进攻方是否更有利于继续比赛而不是获得任意球。

标注者

为确保答案质量,作者精选了经验丰富的裁判进行标注。这些裁判平均执裁了655场正式比赛,经验丰富。他们可以灵活评估视频剪辑,随时暂停避免疲劳。标注者可选择德语、法语、英语或西班牙语作答,确保语言无障碍。答案经ChatGPT-3.5翻译后再由人类裁判审核,保证翻译准确。

主观性

裁判在判决时也带有很强的主观性,如下图所示,两位裁判都认为视频中的行为是犯规的。但一位裁判认为犯规强度较低,不会出示牌,而另一位标注员认为铲球速度很快且鲁莽,会出示黄牌。

由于裁判工作中存在这种固有的主观性,数据集会收集同一行为的多个答案,而不是为每个问题收集单一的决定和解释。这种多个决定和解释实际上帮助模型学习人类裁判采用的一系列有效解释和推理策略。这可以提高 AI 模型的鲁棒性,使其能够在模糊或主观情况下做出明智的决策。

为确保同一行为得到多次评估,我们随机分配视频剪辑给标注者。最终,每个行为平均拥有1.5个相同问题的答案,丰富了模型的学习资源。

数据集统计

该数据集包含10k个视频剪辑,其中包含超过22k个裁判生成的问题和答案。下图显示了裁判标注者解释中最常见单词的分布。最常用的单词是用于描述两名球员之间对抗的特定术语,从描述性术语如defender或card到评估犯规时要考虑的关键术语如intention或intensity。每个答案的单词数量范围从1到66,总共超过540k个单词,平均每个答案近25个单词,单词分布存在显著不平衡。

方法

架构

本文的目标任务是识别是否犯规,并提供了关于其决策过程的解释。主要架构如下图所示:

使用多模态模型Video-ChatGPT作为基础模型,能够理解和生成关于视频的详细对话。首先输入一个视频剪辑视频,其中 T、H、W 和 C 分别是视频的帧数、高度、宽度和通道维度,以供 CLIP ViT-L/14 模型 使用。

通过上述公式获得相应的帧特征向量和隐藏状态.其中通过将 和 相乘获得的tokens数量, 是 CLIP 的 patch 大小,是输出层的维度,是隐藏状态的维度。然后沿时间维度对隐藏状态进行平均池化,以获得时间特征 ,并沿空间维度进行池化以获得视频级空间表示

。最后将两者连接起来以获得时空特征。

在将视频特征 输入LLM之前,通过应用线性投影层将其投影到与文本嵌入相同的特征空间中。

使用表示一系列视觉标记。特征向量也沿时间维度进行平均池化,以获得单个视频级表示。视频级特征表示通过两个分类头和C_{sev}传递,以获得犯规类型(即铲球、拉扯、推搡、站立铲球、肘击、假摔、挑战或高腿)并确定是否犯规,以及相应的严重程度(即无犯规、犯规+无牌、犯规+黄牌或犯规+红牌),预测结果为:

为了在LLM中获得高性能,关键在于找到LLM能够理解的提示。鉴于使用的是VideoChatGPT骨干,作者精心设计了以下查询作为提示,以优化模型性能:

其中代表从视频-问题-答案三元组的训练集中随机抽取的一个问题, < >和< >是从经过微调的CLIP获得的关于犯规类型和严重程度识别任务的两个预测, < >是投影的时空特征。

两阶段训练方法

作者第一阶段对CLIP进行微调,进行多任务分类以学习关于足球和裁判的先验知识。第二步是微调投影层和几层LLM,以增强模型在特定领域的生成能力。

  • 阶段1微调CLIP以融入足球专业知识。虽然CLIP擅长泛化到各类图像任务,但在识别细粒度动作或事件方面仍显不足。这类动作的识别需综合考虑时间维度,而非仅依赖静态图像。例如,评估足球犯规的严重程度需考虑动作强度和速度,这无法通过单张图像准确判断。由于CLIP未针对足球数据训练,不同情景的足球视频片段可能产生相似特征,使得LLM难以区分动作。因此,作者在SoccerNet-MVFoul数据集上微调CLIP,以学习足球相关知识。训练过程中,最小化两个任务的交叉熵损失之和,鉴于损失量级相近,直接相加而不进行缩放或加权。

  • 阶段2涉及特征对齐和端到端训练。保持微调后的CLIP权重不变,仅对线性投影层和LLM进行训练。采用VideoChatGPT的预训练投影层权重作为起点进一步微调这个投影层,确保足球片段的时空特征能够与词嵌入处于同一维度空间,实现特征的有效对齐。在训练过程中,使用CLIP的预测标签<>和<>的groundtruth标签<>和<>进行替换,因为CLIP的预测可能存在噪音,导致混淆。为确保模型能够充分利用视频信息,采用了端到端的训练策略,使模型能够在整个流程中学习到最佳的特征表示和文本生成方式。

实验

人类评估

作者邀请了20名足球裁判对X-VARS模型回答的质量进行评估。这些裁判并不知道这些解释是由人类裁判还是由X-VARS系统生成的,确保了评估的公正性和客观性。

每位裁判随机评估了20个视频片段,每个片段时长为5秒,且评估过程不受时间限制。裁判们主要关注解释的质量,判断其是否与视频内容保持一致,以及决定和解释是否符合《比赛规则》。裁判们根据1到5的评分标准对每个解释进行打分,其中5分代表“非常同意”,1分代表“非常不同意”。

下表显示了结果,X-VARS 的表现与人类裁判类似,只有极小的分数差异

定性评估

下图展示了使用X-VARS模型判决的过程:

在图(a)中X-VARS能够准确回答用户的问题,与真实情况基本一致,图(b)展示了犯规情况的主观性。X-VARS将犯规解释为中等强度,而人类裁判将其解释为低强度,没有机会触球。

结论

本文邀请70多名经验丰富的裁判员标注了一个犯规视频识别和解释的数据集——SoccerNet-XFoul。还提出了一个多模态LLM:X-VARS,从裁判的角度理解足球视频。X-VARS不仅具备视频描述、问题回答、动作识别等多种功能,更能根据视频内容展开有意义的对话,判断足球运动员是否犯规,并给出合理且专业的理由。

这一研究不仅展示了多模态大语言模型在足球视频理解领域的巨大潜力,更为未来的研究提供了新的思路与方向。我们期待着X-VARS在足球领域发挥更大的作用,为比赛的公正性和透明度贡献更多力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3773.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

玩转nginx的配置文件3

1. limit_req_zone配置限流 limit_req_zone $binary_remote_addr zonemylimit:10m rate10r/s;upstream myweb {server 10.0.105.196:80 weight1 max_fails1 fail_timeout1;}server {listen 80;server_name localhost;location /login {limit_req zonemylimit;proxy_pass http:…

总结反思 持续进步-开源即时通讯(IM)项目OpenIM 新版本release-v3.7发布

背景 过去&#xff0c;我们团队对开源项目的认知较浅&#xff0c;过分追求进度&#xff0c;而忽视了代码的质量和规范。这导致了一些问题&#xff0c;例如部署流程设计不当&#xff1a;流程复杂、不规范&#xff0c;以及Mac与Windows部署的明显缺陷。这些问题不仅给开发者带来了…

Android Studio初学者实例:RecyclerView学习--模仿今日头条

本案例来自于学校的一个简单的课程实验 先看效果图&#xff0c;可以显然的看到&#xff0c;一些item是不同的布局&#xff0c;而其他布局就是简单的布局嵌套 看一下xml代码&#xff1a; <?xml version"1.0" encoding"utf-8"?> <LinearLayout …

抽象的代理模式1.0版本

前言&#xff1a; 在阅读Spring Security官方文档时&#xff0c;里面设计到了一种设计模式——代理模式Proxy 众里寻她千百度&#xff0c;蓦然回首&#xff0c;那人却在灯火阑珊处 开始 在之前的文章里陈述了一个观点——编程语言和语言没有区别 现看看我们日常生活中的代理…

[笔试训练](七)

目录 019&#xff1a;字符串中找出连续最长的数字串 020&#xff1a;岛屿数量 021&#xff1a;拼三角 019&#xff1a;字符串中找出连续最长的数字串 字符串中找出连续最长的数字串_牛客题霸_牛客网 (nowcoder.com) 题目&#xff1a; 题解&#xff1a; 边遍历边记下遇到的…

ionic 中对Input输入框、searchbar进行solr检索

一、概述 Ionic 是一个用于开发跨平台应用程序的开源工具&#xff0c;可以使用 Angular、React 或 Vue 等前端框架。要在 Ionic 应用程序中实现实时与 Solr 通信&#xff0c;可以使用 HTTP 客户端&#xff08;如 Angular 的 HttpClient 或 Ionic 的 Native HTTP&#xff09;…

鸿蒙入门11-DataPanel组件

数据面板组件 用于将多个数据的占比情况使用 占比图 进行展示 参数 参数形式 &#xff1a; DataPanel( options:{ values: number[], max?: number, type?: DataPanelType } ) 参数名 参数类型 是否必填 默认值 参数描述 values number[] 是 - 数据值列表 最大支持…

Feign功能详解、使用步骤、代码案例

简介&#xff1a;Feign是Netflix开发的声明式&#xff0c;模板化的HTTP客户端&#xff0c;简化了HTTP的远程服务的开发。Feign是在RestTemplate和Ribbon的基础上进一步封装&#xff0c;使用RestTemplate实现Http调用&#xff0c;使用Ribbon实现负载均衡。我们可以看成 Feign R…

IDEA快速入门

目录 1. 概述 2. 安装 3. 激活 4. 关闭自动更新 5. 创建Java项目 5.1 配置JRE 5.2 创建项目 6. 配置设置 6.1 主题 6.2 设置字体默认大小 6.3 鼠标滚轮改变字体大小 6.4 设置自动导入 6.5 项目选择 7. lombok插件 7.1 安装插件 7.2 启用注解 8. 安装包及插件…

linux-进程(2)

1.通过系统调用获取进程标示符 进程id&#xff08;PID&#xff09; 父进程id&#xff08;PPID&#xff09; 每一个可执行程序运行起来之后都会成为一个进程&#xff0c;每个进程都有一个自己的id&#xff0c;以及一个父进程id&#xff0c;父进程就是创建自己进程的进程&#xf…

一条龙-T检验+绘制boxplot

1.输入文件&#xff1a; 2.代码 #title:boxplot-5utr-cds-3tr-ATCG的百分比分布和T检验_封装函数版 rm(listls(allTRUE)) setwd("E:/R/Rscripts/5UTR_ABD_TE") library(tidyverse) library(ggplot2) # library(RColorBrewer) library(patchwork) library(dplyr) l…

Python-100-Days: Day01

Day01 Python简介 1.1989年Guido von Rossum在圣诞节之夜开始着手python语言编译器的编写。 2.1991年2月 Python v1 编译器诞生&#xff0c;使用C实现的&#xff0c;此时可以调用C的库函数。 3.1994年1月&#xff0c;Python v1.0 正式版发布。 4.2000年10月16日&#xff0…

新药品注册分类5大类的注册标准

在医药行业的浩瀚海洋中&#xff0c;药品注册分类就如同一座明亮的航标灯&#xff0c;指引着每一款新药从实验室走向市场&#xff0c;从理论概念变成患者手中的生命希望。本文将深入探讨化学药、中药、生物药的药品注册分类标准&#xff0c;药品分类常见问题、以及如何高效查询…

linux系统-深入学习文件系统与日志分析

目录 一、inode于block inode于block概括inode的内容inode包含文件的元信息用stat命令可以查看某个文件的inode信息Linux系统文件三个主要的时间属性目录文件架构 用户通过文件名打开文件时&#xff0c;系统内部的过程查看inode号码的实操硬盘分区后的结构 &#x1f447;用户访…

走向大规模应用之前,DePIN 如何突破技术、数据与市场之网

近期&#xff0c;随着分布式物理基础设施网络&#xff08;DePIN&#xff09;的快速演变&#xff0c;一个旨在利用区块链技术彻底改造传统基础设施模型的新兴生态系统正在逐渐浮现。2024 年 4 月&#xff0c;以 peaq 为代表的 DePIN 项目成功筹集了 1500 万美元用于生态系统的扩…

mac配置maven

在 macOS 上配置 Maven 也相对简单。以下是一种常用的方法&#xff1a; 1. 安装maven **下载 Maven&#xff1a;**首先&#xff0c;你需要从 Maven 官网&#xff08;https://maven.apache.org/download.cgi&#xff09;下载最新版本的 Maven。你可以选择二进制压缩包&#xf…

02.Scala简单演示

Scala创建对象的方法与Java有所不同 class可以直接传入形参&#xff1b; 形式为 变量名称&#xff1a;变量类型 逗号隔开 ** ** 方法定义也比较特殊 ** ** def方法名&#xff08;&#xff09;:返回值 { } 其中返回值Unit 等价于Java中的void

系统服务(22年国赛)—— 磁盘管理(压缩去重)

前言&#xff1a;原文在我的博客网站中&#xff0c;持续更新数通、系统方面的知识&#xff0c;欢迎来访&#xff01; 系统服务&#xff08;22年国赛&#xff09;—— 磁盘管理(压缩&&去重)https://myweb.myskillstree.cn/90.html 目录 StorageSrv 安装并创建vdo 将…

多输入多输出 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机多输入多输出预测

多输入多输出 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机多输入多输出预测 目录 多输入多输出 | Matlab实现WOA-LSSVM鲸鱼算法优化最小二乘支持向量机多输入多输出预测预测效果基本介绍程序设计往期精彩参考资料 预测效果 基本介绍 Matlab实现WOA-LSSVM鲸鱼算法优化…

STL_vector源码剖析

STL vector STL2.91源码地址: https://github.com/lewischeng-ms/sgi-stl 侯捷老师用的是 2.91,不同版本的STL差异很大&#xff0c;靠后版本的STL用了太多typedef以及继承关系&#xff0c;导致可读性很差。 本文参考博客: https://blog.csdn.net/weixin_45389639/article/detai…