论文笔记:基于LLM和多轮学习的漫画零样本角色识别与说话人预测

整理了ACM MM2024 Zero-Shot Character Identification and Speaker Prediction in Comics via Iterative Multimodal Fusion)论文的阅读笔记

  • 背景
  • 模型
    • 框架
    • 实现细节
  • 实验
    • 数据集
    • 实验
    • 可视化
    • 消融实验

背景

  最近读到一篇新文章,主要是做漫画中的零样本角色识别,问题和方法都很有趣,特地来写一篇笔记分享。
  角色是漫画故事的核心,在漫画中识别角色和预测对话的说话人至关重要,这可以使我们实现很多应用程序,比如利用角色特定的声音来为漫画配音。
  以往漫画中说话人预测的研究主要解决图像中人物区域和语音气泡区域的对应关系,但无法确定说话人的名字。如果我们想知道说话者的角色名称,我们首先需要通过特定地角色分类器识别角色区域的角色名称,但是这种方法需要对每个漫画进行注释,这是不可行的,因为每年都会有上千部漫画被发布。
  本文提出了一项新问题,如何在zero-shot的情形下进行角色名称识别?这是以往的工作没有考虑过的,通过引入大语言模型和多模态迭代训练框架,本文的方法可以在仅基于未注释的漫画图像来识别角色并预测说话人的名字。这种方法不需要注释,可以在任何漫画系列上原样使用。
在这里插入图片描述

模型

框架

  下图是本文提出框架的概览。模型的输入只有漫画的图像集合 I I I,我们首先对图像进行预处理,通过一般漫画字符和文本类别的对象检测器获得角色区域 C C C和文本区域 D D D,然后使用SGG模型(一个之前的用于匹配人物区域和语音气泡区域的对应关系的模型)从 I , C , D I,C,D I,C,D中生成初始关系 R R R
在这里插入图片描述

   R R R表示字符区域和文本区域之间的对应关系。 r i j r_{ij} rij表示第 i i i个角色说了第 j j j个气泡区域的置信度。此外,本文通过OCR获取了气泡中的文本,并将其提供给LLM分析,从而获得角色列表 N N N,这一步是本文的创新之处,通过这种方式,我们可以获取漫画中的角色名称而不需要任何注释。
  这里的逻辑是这样,在没有先验知识的情况下,人类如何识别新漫画中的说话人?这个过程通常从注意对话中的角色名字开始。例如,如果一个角色叫另一个角色“火影忍者”,我们就会把对对话的回应与火影忍者联系起来。然后我们将角色的视觉外观与他的对话连接起来,当火影忍者在接下来的几页中再次出现时,即使在对话中没有提到他的名字,我们仍然可以知道这个名叫火影忍者的角色。
  在框架中,说话人预测和特征识别是迭代进行的,每个任务的输出作为另一个任务的输入,主要由三个模块组成:

  • 说话人预测,目的是通过LLM预测文本区域的标签,也就是该气泡区域属于哪个说话人,这里的标签并不是某个图像区域,而是一个确定的角色名称,第一次预测只使用文本内容,在后面的步骤中,会使用角色识别获得的标签,表示为: F : ( T , N , y p s e u d o ) → y F:(T,N,y_{pseudo})\rightarrow y F:(T,N,ypseudo)y
  • 标签传播,目的是获得图像区域的标签,也就是某图像区域的角色名称,使用关系分数在角色和文本区域之间转换标签,这个过程是双向的,表示为: H t → c : ( R , y ) → X H_{t\rightarrow c}:(R,y)\rightarrow X Htc:(R,y)X H c → t : ( R , X ) → y H_{c\rightarrow t}:(R,X)\rightarrow y Hct:(R,X)y
  • 角色识别,目的是识别每个角色姓名所对应的角色区域,使用图像信息和由上一步得到的伪标签 X p s e u d o X_{pseudo} Xpseudo来训练出一个角色分类器。预测角色区域 X X X的标签,表示为: G : ( C , X p s e u d o ) → X G:(C,X_{pseudo})\rightarrow X G:(C,Xpseudo)X  

  此外,关系分数在迭代的过程中也会被更新,因为生成最初的关系分数时没有考虑角色区域的标签,通过考虑角色标签可以获得更准确的关系分数。
  关系分数更新的原则是,如果 x i x_i xi等于 y i y_i yi,也就是说气泡所对应的说话人和角色区域对应的伪标签是相同的, r i j r_{ij} rij乘以 s s s,反之 r i j r_{ij} rij除以 s s s s s s x i x_i xi y i y_i yi的置信度获得,最小值是1。通过这种方式,被预测具有相同角色标签的配对会获得更高的关系分数。

实现细节

在这里插入图片描述

  说话人识别的细节如左图所示,首先使用llm从 T T T N N N中提取关于故事摘要和人物概况的上下文信息。然后将此上下文与每个气泡内容一起馈送到llm中,为了获得稳定的输出,我们让llm同时输出字符 i d id id和角色名称,这些输出的字符id被转换成标签。此外,我们让llm输出从1到5的整数置信度分数。
  标签传播和角色识别的过程如右图所示,给定初始说话人预测结果 Y Y Y,根据关系进行标签传播获取角色区域的伪标签,然后使用伪标签训练一个角色分类器,通过角色分类器为未知标签的角色区域生成标签。
  在多轮迭代的过程中,随着 Y Y Y越来越接近真实的文本标签,生成的伪标签也将越来越接近真实。相应的,字符分类器的训练数据也越来越可靠,识别精度也越来越高。

实验

数据集

  本文的实验所选择的数据集是Manga109数据集,包含109卷日本漫画,并为角色和文本区域提供角色标签。选择其中23卷作为测试集。剩余的卷用于关系检测模块的训练和验证以及角色分类器的预训练。
  需要注意的是,在主评价中,作者省略了数据预处理中获取C、D、T和N的步骤。而是利用Manga109的注释将它们视为已知信息。

实验

在这里插入图片描述  表中,text和img列表示每种方法使用的模式。Iter是迭代次数,初始阶段是迭代0,在此阶段,说话人预测仅通过llm使用文本信息进行。本文根据关系预测的难易程度将测试集分为Easy和Hard两类,total是全部。Easy包含11卷,关系预测精度超过75%。其余12卷被归类为Hard。
  如表1 (a)所示,本文的方法在说话人预测和角色识别方面都比单模态方法的准确性有了显著提高。尽管角色识别的准确率低于50%,但本文的方法是第一个识别未见漫画中角色标签的方法。
  在迭代3中,虽然Easy数据的准确性继续提高,但Hard和Total数据的准确性略有下降。这表明,从进一步的迭代中获得的关系检测的精度增益是有限的。为了进一步研究这一点,作者使用表1 (b)中的基础真值关系进行了分析,其中说话人预测和角色识别的精度都随着进一步的迭代而不断提高。这些结果表明,在准确预测文本和角色区域之间关系的情况下,迭代过程更有效。

可视化

在这里插入图片描述
  图5中,左图是单模态和多模态方法的对比,单模态方法无法实现zero-shot角色识别,当仅使用LLM时,不会执行角色识别。右图显示了每次迭代的结果。随着迭代次数的增加,角色识别和说话人预测任务的准确率都有明显的提高趋势。尽管第一次迭代没有产生正确的预测,但到第三次迭代时,准确性已经显著提高。
在这里插入图片描述
  图6显示了每个漫画的说话人预测的准确性。三个条形图分别表示迭代0、迭代1和迭代2的准确性。迭代提高了大多数漫画的准确率,表明了迭代方法在不同漫画上的有效性。
  但是,不同漫画的性能差异很大,范围从0.2到0.8。更多的迭代并不一定导致更高的精度。这是因为如果关系预测或角色识别的准确性较低,候选对象可以在说话人预测中引入噪声。图7显示了一个示例。在迭代1中,llm正确地预测了说话者(角色A)。然而,由于说话者与文本之间的距离,角色A获得了较低的关系得分。相比之下,角色B更亲近,关系得分更高,被错误地认为是高自信的候选人。这在迭代2中导致了不正确的预测,这解释了图6和表1中迭代的准确性降低的原因。

消融实验

在这里插入图片描述
  表2和3显示了伪标签和说话人候选人的质量及其对说话人预测和角色识别任务准确性的影响。比较了三种关系得分。第二和第三列是伪标签的精度和召回率。第四列中列出的精度是小于阈值的伪标签的精度。第五列是最终准确度。我们可以观察到,从伪标签的准确度(第4列)到最终准确度(第5列)的解释了迭代过程的有效性。结果表明,在每个模块中使用不同的模态信息对前一步得到的结果进行了细化。通过对比关系分数,我们可以看到,通过更好的关系预测来提高伪标签的质量,结果会更好。
  表4显示了在说话人预测的过程中使用不同的LLM提示的效果,(1)ctx:关于人物和故事的上下文信息,(2)cand:说话人候选人,(3)prob:候选人的概率。
  表5展示了框架中的关系评分对关系预测和说话人预测的影响。对于每个文本区域,选择对应的关系得分最高的角色区域。然后,通过将正确匹配的区域数除以文本区域总数来计算准确率。我们的评分方法准确率达到79.8%,优于以往的方法。与之前不考虑角色标签的工作相比,该框架可以通过预测图像和文本的角色标签来更好地预测关系。
  表6展示了完全zeroshot情形下的实验结果,而不是直接使用注释,由于对象检测、OCR和字符名称提取中的错误,这个结果极大地低于表1所示的结果。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/879634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于yolov5遇到空标签导致训练暂停的解决

小编在使用yolov5进行深度学习训练的时候,训练了好几个epochs,突然报了一个empty的错误导致训练程序终止,还好小编只是在训练刚开始遇到这种问题,如果训练了好多轮以后遇到此类问题,那前面训练花费的时间全部都浪费了&…

pikachu下

CSRF(跨站请求伪造) CSRF(get) url变成了这样了,我们就可以新开个页面直接拿url去修改密码 http://pikachu-master/vul/csrf/csrfget/csrf_get_login.php?username1&password2&submitLogin CSRF(post) 这里只是请求的方式不同,…

HC-SR04超声波传感器详解(STM32)

目录 一、介绍 二、传感器原理 1.原理图 2.引脚描述 3.工作原理介绍 三、程序设计 main.c文件 ultrasonic.h文件 ultrasonic.c文件 四、实验效果 五、资料获取 项目分享 一、介绍 HC-SR04超声波传感器是通过发送和接收超声波,利用时间差和声音传播速度…

带你深入了解C语言指针(四)

目录 前言一、回调函数是什么?二、qsort使用1.什么是qsort2.qsort函数的语法解析3.回顾冒泡排序4.使用qsort函数排序整型数据4.1 思路分析4.2 完整代码:4.3 总体逻辑展现 5.使用qsort函数排序结构数据5.1 strcmp( )函数5.2 思路分析5.2.1 按名字比较5.2.…

力扣每日一题 公交站间的距离

环形公交路线上有 n 个站,按次序从 0 到 n - 1 进行编号。我们已知每一对相邻公交站之间的距离,distance[i] 表示编号为 i 的车站和编号为 (i 1) % n 的车站之间的距离。 环线上的公交车都可以按顺时针和逆时针的方向行驶。 返回乘客从出发点 start 到目…

探索人工智能的未来趋势

本文探讨了人工智能(AI)的未来趋势,包括深度学习、自然语言处理、计算机视觉和机器人技术等领域的最新进展。通过对当前技术的分析,本文预测了AI未来的发展方向,并讨论了这些技术对社会的影响。 引言 随着技术的飞速…

C# 使用Socket通信,新建WinForm服务端、客户端程序

一、新建WinForm Socket服务端程序 注:rtbReceviceMsg为RichTextBox控件 服务端程序、界面 服务端代码 public partial class Form1 : Form {public Form1(){InitializeComponent();}public virtual void TriggerOnUpdateUI(string message){if (this.InvokeRequir…

P2847 [USACO16DEC] Moocast G

P2847 [USACO16DEC] Moocast G [USACO16DEC] Moocast G 题面翻译 Farmer John 的 N N N 头牛 ( 1 ≤ N ≤ 1000 1 \leq N \leq 1000 1≤N≤1000) 为了在他们之间传播信息,想要组织一个"哞哞广播"系统。奶牛们决定去用步话机装备自己而不是在很远的距离…

Oracle发送邮件功能:配置自动化发信指南?

Oracle发送邮件服务设置方法?怎么用Oracle数据库发信? Oracle数据库作为企业级应用的核心,其内置的发送邮件功能为企业提供了强大的自动化工具。AokSend将详细介绍如何配置Oracle发送邮件功能,以实现自动化发信,从而提…

leetcode 2576.求出最多标记下标

2576.求出最多标记下标 题意: 解析: 数组长为 n n n,因为一次标记两个,所以数组中最多有 ⌊ n 2 ⌋ \lfloor \frac{n}{2}\rfloor ⌊2n​⌋ 对标记。 贪心的考虑,一个数 x 一定优先与满足 y ≥ 2 x y \ge 2x y≥2…

visual studio2015安装番茄助手

VS2015安装使用番茄助手Visual Assist_vs2015番茄助手-CSDN博客 【VS和番茄助手的安装步骤】https://www.bilibili.com/video/BV1K24y1n7Xk?vd_sourcefad0750b8c666dbeaf016e547f99a602 【番茄助手VS2019安装】https://www.bilibili.com/video/BV13p4y1v7bG?vd_sourcefad0…

[网络][CISCO]CISCO IOS升级

CISCO IOS升级-(转)2008-06-27 15:35IOS 升级 在介绍CISCO路由器IOS升级方法前,有必要对Cisco路由器的存储器的相关知识作以简单介绍。路由器与计算机相似,它也有内存和操作系统。在Cisco路由器中,其操作系统叫做互连…

【LeetCode 算法笔记】155. 最小栈

目录 问题描述单个栈实现双栈实现不开辟额外空间 问题描述 设计一个支持 push ,pop ,top 操作,并能在常数时间内检索到最小元素的栈。 实现 MinStack 类: MinStack() 初始化堆栈对象。 void push(int val) 将元素val推入堆栈。 void pop()…

上海泗博EtherNet/IP转PROFIBUS DP网关EPS-320IP成都地铁项目应用案例

背景: 地铁,作为城市的活力脉搏,不仅是衔接城市生活的关键纽带,更是现代城市交通体系中不可或缺的核心组成部分。因此,确保地铁的稳定运行对任何一座城市都至关重要。 上海泗博自动化,作为与成都地铁项目合…

使用ENVI之辐射定标

将下载好的遥感影像导入遥感影像处理软件ENVI 5.6中 使用ENVI 5.6的Toolbox中的Radiometric Calibration工具 跳出的Date Input File界面中选中要进行辐射定标的文件选中 再在跳出的Radiometric Calibration界面中将Output Interleave改为BIL再点击Apply FLAASH Settings Soale…

写作神器!推荐4款AI免费的写论文的文献网站

在当今学术研究和论文写作领域,AI技术的应用越来越广泛。为了帮助研究人员和学生提高写作效率、提升论文质量,以下推荐四款免费的AI写论文文献网站,并特别介绍千笔-AIPassPaper。 1. 千笔-AIPassPaper 千笔-AIPassPaper是一款功能强大且全面…

【iOS】push和present的区别

【iOS】push和present的区别 文章目录 【iOS】push和present的区别前言pushpop presentdismiss简单小demo来展示dismiss和presentdismiss多级 push和present的区别区别相同点 前言 在iOS开发中,我们经常性的会用到界面的一个切换的问题,这里我们需要理清…

网络(四)——HTTP协议

文章目录 认识urlurlencode和urldecodeHTTP协议格式HTTP的方法HTTP的状态码HTTP常见Header 虽然应用层的协议是由人为规定的,但是已经有大佬们定义了一些现成的,又非常好用的应用层协议,供我们直接参考使用. HTTP(超文本传输协议)就是其中之一…

适合骑行的开放式耳机哪个品牌好?四款开放式蓝牙耳机推荐

骑行时是否有必要佩戴耳机是一个需要权衡安全与便利的问题。因为虽然耳机能提供音乐、导航等功能,但也可能分散注意力,影响骑行安全。而且这也是需要看个人需求决定的,骑行戴耳机的需求是什么,我想大部分人应该就是为了接听电话&a…

C++:用类实现链表,队列,栈

用类实现链表&#xff1a; #include<iostream> using namespace std;class List {struct Node{int Nval;Node* pNext;}; private:Node* pHead NULL;Node* pEnd NULL; public:void AddNode(int n);void DelNode(int n);void walk(); }; void List::AddNode(int k) {Nod…