论文笔记:基于LLM和多轮学习的漫画零样本角色识别与说话人预测

整理了ACM MM2024 Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion)论文的阅读笔记

  • 背景
  • 模型
    • 框架
    • 实现细节
  • 实验
    • 数据集
    • 实验
    • 可视化
    • 消融实验

背景

  最近读到一篇新文章,主要是做漫画中的零样本角色识别,问题和方法都很有趣,特地来写一篇笔记分享。
  角色是漫画故事的核心,在漫画中识别角色和预测对话的说话人至关重要,这可以使我们实现很多应用程序,比如利用角色特定的声音来为漫画配音。
  以往漫画中说话人预测的研究主要解决图像中人物区域和语音气泡区域的对应关系,但无法确定说话人的名字。如果我们想知道说话者的角色名称,我们首先需要通过特定地角色分类器识别角色区域的角色名称,但是这种方法需要对每个漫画进行注释,这是不可行的,因为每年都会有上千部漫画被发布。
  本文提出了一项新问题,如何在zero-shot的情形下进行角色名称识别?这是以往的工作没有考虑过的,通过引入大语言模型和多模态迭代训练框架,本文的方法可以在仅基于未注释的漫画图像来识别角色并预测说话人的名字。这种方法不需要注释,可以在任何漫画系列上原样使用。
在这里插入图片描述

模型

框架

  下图是本文提出框架的概览。模型的输入只有漫画的图像集合 I I I,我们首先对图像进行预处理,通过一般漫画字符和文本类别的对象检测器获得角色区域 C C C和文本区域 D D D,然后使用SGG模型(一个之前的用于匹配人物区域和语音气泡区域的对应关系的模型)从 I , C , D I,C,D I,C,D中生成初始关系 R R R
在这里插入图片描述

   R R R表示字符区域和文本区域之间的对应关系。 r i j r_{ij} rij表示第 i i i个角色说了第 j j j个气泡区域的置信度。此外,本文通过OCR获取了气泡中的文本,并将其提供给LLM分析,从而获得角色列表 N N N,这一步是本文的创新之处,通过这种方式,我们可以获取漫画中的角色名称而不需要任何注释。
  这里的逻辑是这样,在没有先验知识的情况下,人类如何识别新漫画中的说话人?这个过程通常从注意对话中的角色名字开始。例如,如果一个角色叫另一个角色“火影忍者”,我们就会把对对话的回应与火影忍者联系起来。然后我们将角色的视觉外观与他的对话连接起来,当火影忍者在接下来的几页中再次出现时,即使在对话中没有提到他的名字,我们仍然可以知道这个名叫火影忍者的角色。
  在框架中,说话人预测和特征识别是迭代进行的,每个任务的输出作为另一个任务的输入,主要由三个模块组成:

  • 说话人预测,目的是通过LLM预测文本区域的标签,也就是该气泡区域属于哪个说话人,这里的标签并不是某个图像区域,而是一个确定的角色名称,第一次预测只使用文本内容,在后面的步骤中,会使用角色识别获得的标签,表示为: F : ( T , N , y p s e u d o ) → y F:(T,N,y_{pseudo})\rightarrow y F:(T,N,ypseudo)y
  • 标签传播,目的是获得图像区域的标签,也就是某图像区域的角色名称,使用关系分数在角色和文本区域之间转换标签,这个过程是双向的,表示为: H t → c : ( R , y ) → X H_{t\rightarrow c}:(R,y)\rightarrow X Htc:(R,y)X H c → t : ( R , X ) → y H_{c\rightarrow t}:(R,X)\rightarrow y Hct:(R,X)y
  • 角色识别,目的是识别每个角色姓名所对应的角色区域,使用图像信息和由上一步得到的伪标签 X p s e u d o X_{pseudo} Xpseudo来训练出一个角色分类器。预测角色区域 X X X的标签,表示为: G : ( C , X p s e u d o ) → X G:(C,X_{pseudo})\rightarrow X G:(C,Xpseudo)X  

  此外,关系分数在迭代的过程中也会被更新,因为生成最初的关系分数时没有考虑角色区域的标签,通过考虑角色标签可以获得更准确的关系分数。
  关系分数更新的原则是,如果 x i x_i xi等于 y i y_i yi,也就是说气泡所对应的说话人和角色区域对应的伪标签是相同的, r i j r_{ij} rij乘以 s s s,反之 r i j r_{ij} rij除以 s s s s s s x i x_i xi y i y_i yi的置信度获得,最小值是1。通过这种方式,被预测具有相同角色标签的配对会获得更高的关系分数。

实现细节

在这里插入图片描述

  说话人识别的细节如左图所示,首先使用llm从 T T T N N N中提取关于故事摘要和人物概况的上下文信息。然后将此上下文与每个气泡内容一起馈送到llm中,为了获得稳定的输出,我们让llm同时输出字符 i d id id和角色名称,这些输出的字符id被转换成标签。此外,我们让llm输出从1到5的整数置信度分数。
  标签传播和角色识别的过程如右图所示,给定初始说话人预测结果 Y Y Y,根据关系进行标签传播获取角色区域的伪标签,然后使用伪标签训练一个角色分类器,通过角色分类器为未知标签的角色区域生成标签。
  在多轮迭代的过程中,随着 Y Y Y越来越接近真实的文本标签,生成的伪标签也将越来越接近真实。相应的,字符分类器的训练数据也越来越可靠,识别精度也越来越高。

实验

数据集

  本文的实验所选择的数据集是Manga109数据集,包含109卷日本漫画,并为角色和文本区域提供角色标签。选择其中23卷作为测试集。剩余的卷用于关系检测模块的训练和验证以及角色分类器的预训练。
  需要注意的是,在主评价中,作者省略了数据预处理中获取C、D、T和N的步骤。而是利用Manga109的注释将它们视为已知信息。

实验

在这里插入图片描述  表中,text和img列表示每种方法使用的模式。Iter是迭代次数,初始阶段是迭代0,在此阶段,说话人预测仅通过llm使用文本信息进行。本文根据关系预测的难易程度将测试集分为Easy和Hard两类,total是全部。Easy包含11卷,关系预测精度超过75%。其余12卷被归类为Hard。
  如表1 (a)所示,本文的方法在说话人预测和角色识别方面都比单模态方法的准确性有了显著提高。尽管角色识别的准确率低于50%,但本文的方法是第一个识别未见漫画中角色标签的方法。
  在迭代3中,虽然Easy数据的准确性继续提高,但Hard和Total数据的准确性略有下降。这表明,从进一步的迭代中获得的关系检测的精度增益是有限的。为了进一步研究这一点,作者使用表1 (b)中的基础真值关系进行了分析,其中说话人预测和角色识别的精度都随着进一步的迭代而不断提高。这些结果表明,在准确预测文本和角色区域之间关系的情况下,迭代过程更有效。

可视化

在这里插入图片描述
  图5中,左图是单模态和多模态方法的对比,单模态方法无法实现zero-shot角色识别,当仅使用LLM时,不会执行角色识别。右图显示了每次迭代的结果。随着迭代次数的增加,角色识别和说话人预测任务的准确率都有明显的提高趋势。尽管第一次迭代没有产生正确的预测,但到第三次迭代时,准确性已经显著提高。
在这里插入图片描述
  图6显示了每个漫画的说话人预测的准确性。三个条形图分别表示迭代0、迭代1和迭代2的准确性。迭代提高了大多数漫画的准确率,表明了迭代方法在不同漫画上的有效性。
  但是,不同漫画的性能差异很大,范围从0.2到0.8。更多的迭代并不一定导致更高的精度。这是因为如果关系预测或角色识别的准确性较低,候选对象可以在说话人预测中引入噪声。图7显示了一个示例。在迭代1中,llm正确地预测了说话者(角色A)。然而,由于说话者与文本之间的距离,角色A获得了较低的关系得分。相比之下,角色B更亲近,关系得分更高,被错误地认为是高自信的候选人。这在迭代2中导致了不正确的预测,这解释了图6和表1中迭代的准确性降低的原因。

消融实验

在这里插入图片描述
  表2和3显示了伪标签和说话人候选人的质量及其对说话人预测和角色识别任务准确性的影响。比较了三种关系得分。第二和第三列是伪标签的精度和召回率。第四列中列出的精度是小于阈值的伪标签的精度。第五列是最终准确度。我们可以观察到,从伪标签的准确度(第4列)到最终准确度(第5列)的解释了迭代过程的有效性。结果表明,在每个模块中使用不同的模态信息对前一步得到的结果进行了细化。通过对比关系分数,我们可以看到,通过更好的关系预测来提高伪标签的质量,结果会更好。
  表4显示了在说话人预测的过程中使用不同的LLM提示的效果,(1)ctx:关于人物和故事的上下文信息,(2)cand:说话人候选人,(3)prob:候选人的概率。
  表5展示了框架中的关系评分对关系预测和说话人预测的影响。对于每个文本区域,选择对应的关系得分最高的角色区域。然后,通过将正确匹配的区域数除以文本区域总数来计算准确率。我们的评分方法准确率达到79.8%,优于以往的方法。与之前不考虑角色标签的工作相比,该框架可以通过预测图像和文本的角色标签来更好地预测关系。
  表6展示了完全zeroshot情形下的实验结果,而不是直接使用注释,由于对象检测、OCR和字符名称提取中的错误,这个结果极大地低于表1所示的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/879634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pikachu下

CSRF(跨站请求伪造) CSRF(get) url变成了这样了,我们就可以新开个页面直接拿url去修改密码 http://pikachu-master/vul/csrf/csrfget/csrf_get_login.php?username1&password2&submitLogin CSRF(post) 这里只是请求的方式不同,…

HC-SR04超声波传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍 三、程序设计 main.c文件 ultrasonic.h文件 ultrasonic.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 HC-SR04超声波传感器是通过发送和接收超声波,利用时间差和声音传播速度…

带你深入了解C语言指针(四)

目录 前言一、回调函数是什么?二、qsort使用1.什么是qsort2.qsort函数的语法解析3.回顾冒泡排序4.使用qsort函数排序整型数据4.1 思路分析4.2 完整代码:4.3 总体逻辑展现 5.使用qsort函数排序结构数据5.1 strcmp( )函数5.2 思路分析5.2.1 按名字比较5.2.…

力扣每日一题 公交站间的距离

环形公交路线上有 n 个站,按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离,distance[i] 表示编号为 i 的车站和编号为 (i 1) % n 的车站之间的距离。 环线上的公交车都可以按顺时针和逆时针的方向行驶。 返回乘客从出发点 start 到目…

C# 使用Socket通信,新建WinForm服务端、客户端程序

一、新建WinForm Socket服务端程序 注:rtbReceviceMsg为RichTextBox控件 服务端程序、界面 服务端代码 public partial class Form1 : Form {public Form1(){InitializeComponent();}public virtual void TriggerOnUpdateUI(string message){if (this.InvokeRequir…

Oracle发送邮件功能:配置自动化发信指南?

Oracle发送邮件服务设置方法?怎么用Oracle数据库发信? Oracle数据库作为企业级应用的核心,其内置的发送邮件功能为企业提供了强大的自动化工具。AokSend将详细介绍如何配置Oracle发送邮件功能,以实现自动化发信,从而提…

leetcode 2576.求出最多标记下标

2576.求出最多标记下标 题意: 解析: 数组长为 n n n,因为一次标记两个,所以数组中最多有 ⌊ n 2 ⌋ \lfloor \frac{n}{2}\rfloor ⌊2n​⌋ 对标记。 贪心的考虑,一个数 x 一定优先与满足 y ≥ 2 x y \ge 2x y≥2…

上海泗博EtherNet/IP转PROFIBUS DP网关EPS-320IP成都地铁项目应用案例

背景: 地铁,作为城市的活力脉搏,不仅是衔接城市生活的关键纽带,更是现代城市交通体系中不可或缺的核心组成部分。因此,确保地铁的稳定运行对任何一座城市都至关重要。 上海泗博自动化,作为与成都地铁项目合…

使用ENVI之辐射定标

将下载好的遥感影像导入遥感影像处理软件ENVI 5.6中 使用ENVI 5.6的Toolbox中的Radiometric Calibration工具 跳出的Date Input File界面中选中要进行辐射定标的文件选中 再在跳出的Radiometric Calibration界面中将Output Interleave改为BIL再点击Apply FLAASH Settings Soale…

【iOS】push和present的区别

【iOS】push和present的区别 文章目录 【iOS】push和present的区别前言pushpop presentdismiss简单小demo来展示dismiss和presentdismiss多级 push和present的区别区别相同点 前言 在iOS开发中,我们经常性的会用到界面的一个切换的问题,这里我们需要理清…

网络(四)——HTTP协议

文章目录 认识urlurlencode和urldecodeHTTP协议格式HTTP的方法HTTP的状态码HTTP常见Header 虽然应用层的协议是由人为规定的,但是已经有大佬们定义了一些现成的,又非常好用的应用层协议,供我们直接参考使用. HTTP(超文本传输协议)就是其中之一…

适合骑行的开放式耳机哪个品牌好?四款开放式蓝牙耳机推荐

骑行时是否有必要佩戴耳机是一个需要权衡安全与便利的问题。因为虽然耳机能提供音乐、导航等功能,但也可能分散注意力,影响骑行安全。而且这也是需要看个人需求决定的,骑行戴耳机的需求是什么,我想大部分人应该就是为了接听电话&a…

[数据集][目标检测]无人机识别检测数据集VOC+YOLO格式6986张1类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6986 标注数量(xml文件个数):6986 标注数量(txt文件个数):6986 标注…

MySQL —— 视图

概念 视图是一张虚拟的表,它是基于一个或多个基本表或其他视图的查询结果集。 视图本身不存储数据,而是通过执行查询来动态生成数据,用户可以像操作普通表一样使用视图来进行查询更新与管理等操作。 视图本身也不占用物理存储空间&#xf…

Redis基础数据结构之 Sorted Set 有序集合 源码解读

目录标题 Sorted Set 是什么?Sorted Set 数据结构跳表(skiplist)跳表节点的结构定义跳表的定义跳表节点查询层数设置 Sorted Set 基本操作 Sorted Set 是什么? 有序集合(Sorted Set)是 Redis 中一种重要的数据类型,…

SQL Server数据库简单的事务日志备份恢复

模拟数据库备份恢复过程 1.基础操作 1.创建TestDB数据库,并添加数据 USE [master] GO CREATE DATABASE TestDB CONTAINMENT NONE ON PRIMARY ( NAME NTestDB, FILENAME ND:\TestDB.mdf , SIZE 8192KB , MAXSIZE UNLIMITED, FILEGROWTH 65536KB ) LOG ON ( …

【ArcGIS Pro实操第七期】栅格数据合并、裁剪及统计:以全球不透水面积为例

【ArcGIS Pro实操第七期】批量裁剪:以全球不透水面积为例 准备:数据下载ArcGIS Pro批量裁剪数据集1 数据拼接2 数据裁剪3 数据统计:各栅格取值3.1 栅格计算器-精确提取-栅格数据特定值3.2 数据统计 4 不透水面积变化分析 参考 准备&#xff1…

DAY13信息打点-Web 应用源码泄漏开源闭源指纹识别GITSVNDS备份

#知识点 0、Web架构资产-平台指纹识别 1、开源-CMS指纹识别源码获取方式 2、闭源-习惯&配置&特性等获取方式 3、闭源-托管资产平台资源搜索监控 演示案例: ➢后端-开源-指纹识别-源码下载 ➢后端-闭源-配置不当-源码泄漏 ➢后端-方向-资源码云-源码泄漏 …

[C++进阶]AVL树

前面我们说了二叉搜索树在极端条件下时间复杂度为O(n),本篇我们将介绍一种对二叉搜索树进行改进的树——AVL树 一、AVL 树的概念 二叉搜索树虽可以缩短查找的效率,但如果数据有序或接近有序二叉搜索树将退化为单支树,查找效率低下。因此,两位…

人工智能和大模型的简介

文章目录 前言一、大模型简介二、大模型主要功能1、自然语言理解和生成2、文本总结和翻译3、文本分类和信息检索4、多模态处理三、大模型的技术特性1、深度学习架构2、大规模预训练3、自适应能力前言 随着技术的进步,人工智能(Artificial Intelligence, AI)和机器学习(Mac…