【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用

【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用


目录

文章目录

  • 【大语言模型】ACL2024论文-06 探索思维链COT在多模态隐喻检测中的应用
    • 目录
      • 摘要
      • 研究背景
      • 问题与挑战
      • 如何解决
      • 创新点
      • 算法模型
        • 1. 知识总结模块(Knowledge Summarization Module)
        • 2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)
        • 3. 模态特定编码(Modality-Specific Encoding)
        • 4. 模态融合(Modality Fusion)
        • 5. 分类器(Classifier)
      • 算法模型的关键特点
      • 实验效果
      • 推荐阅读指数
    • 后记


在这里插入图片描述
探索思维链(Chain-of-Thought)在多模态隐喻检测中的应用

摘要

本文探讨了在广告和互联网迷因(meme)中常见的隐喻检测问题。由于互联网迷因的自由形式,导致缺乏高质量的文本数据。隐喻检测需要对文本和视觉元素进行深入解读,并需要大量的常识知识,这对语言模型构成了挑战。为了应对这些挑战,作者提出了一个紧凑的框架C4MMD,该框架利用思维链(Chain-of-Thought, CoT)方法进行多模态隐喻检测。具体来说,该方法设计了一个三步过程,灵感来自CoT,从多模态大型语言模型(MLLMs)中提取并整合知识到较小的模型中。此外,作者还开发了一个模态融合架构,将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。在MET-MEME数据集上的实验结果表明,该方法不仅有效增强了小型模型的隐喻检测能力,而且超越了现有模型。据作者所知,这是首次系统性地利用MLLMs进行隐喻检测任务的研究。该方法的代码已在GitHub上公开。

“Metaphors” 在中文中通常被翻译为“隐喻”或“暗喻”。在文学和语言学中,隐喻是一种比喻,通过将一件事物说成另一件事物来暗示它们之间的相似性,而不是直接比较。例如,在句子“时间是金钱”中,“时间”被隐喻性地描述为“金钱”,强调了时间的宝贵和有限性。

“Memes” 在中文中通常被翻译为“迷因”或“模因”。这个词汇最初由生物学家理查德·道金斯(Richard Dawkins)在其1976年的著作《自私的基因》中提出,用于描述文化信息或行为模式的传播单位,类似于生物基因在生物进化中的角色。在互联网文化中,“迷因”通常指那些迅速在网络用户之间传播的图片、视频、文字等内容,它们往往带有幽默或讽刺的元素,能够引发共鸣并被广泛复制和分享。

研究背景

隐喻在日常生活中的表达和写作中非常普遍,对自然语言处理(NLP)中的下游任务,如语义理解、情感分析等有着广泛的影响。随着社交媒体的兴起,多模态隐喻引起了人们的兴趣。多模态隐喻检测的主要挑战在于多模态隐喻的复杂性和多样性。与单一模态检测相比,多模态隐喻检测不仅要在句子中发现隐喻,还要将其归类为图像主导、文本主导或互补型。第二个主要挑战来自于文本内容的质量差,这些文本主要来源于社交媒体上的广告和迷因。最近的努力使用OCR技术提取图像中的文本,但仅依赖OCR将它们转换为平行文本会导致文本位置信息的丢失。
在这里插入图片描述

问题与挑战

多模态隐喻检测面临的主要问题和挑战包括:

  1. 多模态隐喻的复杂性和多样性:需要识别和分类图像和文本中的隐喻,以及它们之间的相互作用。
  2. 文本内容质量差:社交媒体上的广告和迷因中的文本内容质量参差不齐,导致隐喻检测困难。
  3. 位置信息丢失:使用OCR技术提取文本时,可能会丢失文本的位置信息,这对于理解隐喻至关重要。

如何解决

为了解决上述挑战,作者提出了以下解决方案:

  1. 利用MLLMs的丰富世界知识和上下文理解能力:通过LLMs生成补充信息,而不是对它们进行微调。
  2. 设计三步CoT方法:逐步获取MLLM的信息,描述图像、分析文本以及整合两种模态的信息。
  3. 模态融合架构:将大模型中的知识转化为隐喻特征,并辅以辅助任务以提高模型性能。

创新点

本文的创新点包括:

  1. 首次系统性地利用MLLMs进行隐喻检测任务:这是首次将MLLMs应用于隐喻检测,开辟了新的研究方向。
  2. 三步CoT方法:通过设计三步CoT方法,逐步提取和整合多模态信息,提高了模型对隐喻的理解能力。
  3. 模态融合架构:开发了一种新的模态融合架构,将大模型的知识转化为隐喻特征,提高了检测的准确性。

算法模型

C4MMD框架由以下主要组件构成:

  1. 知识总结模块:通过三步CoT提示,从MLLM中提取额外的文本信息。
  2. 下游多模态融合结构:将补充信息与原始文本合并,通过特定编码器处理这些输入,以获得特征向量。
  3. 模态特定编码:使用图像编码器和文本编码器获得图像和文本的向量化编码。
  4. 模态融合:将不同模态的向量尺寸调整一致,然后进行融合,以获得最终的融合向量表示。
  5. 分类器:使用跨模态向量进行隐喻分类,并使用两个单独的分类器对图像和文本中的隐喻特征进行分类。
    在这里插入图片描述

C4MMD框架的核心在于利用多模态大型语言模型(MLLMs)来增强小型模型的隐喻检测能力,C4MMD框架中关键组件包括:

1. 知识总结模块(Knowledge Summarization Module)

该模块通过三步CoT提示从MLLM中提取额外的文本信息。这个过程包括以下三个步骤:

  • 第一步(STEP1):忽略图像中的文本,仅描述图像内容。这一步的目的是让模型集中于理解图像中的视觉元素。
  • 第二步(STEP2):分析文本的含义,注意同音异义词和双关语,并解释它们。这一步的目的是让模型集中于理解文本的深层含义。
  • 第三步(STEP3):结合前两步的结果,整合图像和文本特征,以获得更深层次的跨模态交互信息。
2. 下游多模态融合结构(Downstream Multi-modal Fusion Structure)

在获取MLLM生成的额外模态信息后,设计的下游结构旨在促进模态间的整合,并有效利用这些额外信息来增强隐喻检测能力。

3. 模态特定编码(Modality-Specific Encoding)
  • 图像编码器(Image Encoder):使用ViT-Encoder对输入图像进行编码,得到图像的特征向量。
  • 文本编码器(Text Encoder):使用XLMR-Encoder对输入文本和MLLM生成的额外文本信息进行编码。为了区分不同模态的文本,采用了类似于BERT的段编码方法,为每个模态的文本添加额外的可学习参数向量。
4. 模态融合(Modality Fusion)

在融合之前,需要确保两个编码器的向量尺寸一致。对于文本模态,计算所有词向量的平均值作为整个句子的向量表示。对于视觉模态,使用CLS标记的向量作为整个图像的表示。然后,使用线性层和GeLU激活函数将视觉模态的向量映射到与文本模态相同的特征空间。

最终,将两个模态的向量进行拼接,形成最终的融合向量表示,用于后续的分类任务。

5. 分类器(Classifier)
  • 隐喻分类:使用一个线性层和softmax分类器对融合后的跨模态向量进行隐喻分类。
  • 图像主导和文本主导分类:使用两个单独的分类器来识别图像主导和文本主导的隐喻特征,以减少最终分类器的分类复杂性。

算法模型的关键特点

  • 跨模态交互:通过三步CoT方法,模型能够理解图像和文本之间的深层次交互,这对于隐喻检测至关重要。
  • 模态融合:通过特定的编码器和融合策略,模型能够有效地整合来自不同模态的信息,提高隐喻检测的准确性。
  • 辅助任务:通过设计辅助任务,模型能够在检测图像和文本中的隐喻特征之前,先进行细粒度的分类,这有助于提高最终分类器的性能。

C4MMD框架通过这些精心设计的组件和策略,实现了对多模态隐喻的有效检测,展现了在处理复杂语言和视觉挑战方面的潜力。

实验效果

在MET-MEME数据集上的实验结果表明,C4MMD方法在多模态隐喻检测任务上取得了优异的性能。以下是一些重要的数据和结论:

  • 主要分类结果:C4MMD在多模态隐喻检测任务上取得了87.70%的准确率,83.33%的精确率,81.58%的召回率,以及82.44%的F1分数。
  • 消融研究:消融研究表明,模型的融合结构和CoT生成方法对于提高性能至关重要。
  • 不同语言和视觉模型组合的影响:ViT和XLM-R的组合在模态融合中表现最佳。
  • 模型大小的影响:随着模型大小的增加,特别是当模型最初较小时,性能提升越来越明显。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数

4.5


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/59510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Android】时区规则库tzdata更新

1 背景: 最近我遇到墨西哥城时区,会出现夏令时,而墨西哥城在2022年底都已经取消夏令时了。 看起来是要更新RK3588上的时区库,我的还是2021a,而现在都已经2024年了 这样能看版本号: cat /system/usr/sha…

【论文速看】DL最新进展20241106-图像分类、图像分割、时间序列预测

目录 【图像分类】【图像分割】【时间序列预测】 【图像分类】 [2024 解耦数据增强] Decoupled Data Augmentation for Improving Image Classification 机构:腾讯优图 论文链接:https://arxiv.org/pdf/2411.02592v1 代码链接:无 最近在图…

[MRCTF2020]PYWebsite1

如果输入的密钥是对的那么我们就直接跳转到flag.php页面 那么我们直接访问😎,他不带我们去我们自己去. 那就用XFF呗. 知识点: 定义:X-Forwarded-For是一个HTTP请求头字段,用于识别通过HTTP代理或负载均衡方式连接到W…

穿越文化与时空的回响——从廖问洁《红豆诗词选》看当代人文情怀

穿越文化与时空的回响 ——从廖问洁《红豆诗词选》看当代人文情怀 在快节奏的现代生活中,我们时常感到身心的疲惫,渴望找到一种能够洗涤内心的方式。而廖问洁的《红豆诗词选》就如同一股清泉,为我们带来了心灵的洗礼和慰藉。 这位来自94年的…

01 Oracle 数据库存储结构深度解析:从数据文件到性能优化的全链路探究

文章目录 Oracle 数据库存储结构深度解析:从数据文件到性能优化的全链路探究一、Oracle存储结构的物理层次1.1 控制文件(Control File)1.2 联机重做日志文件(Online Redo Log File)1.3 数据文件(Data File&…

练习LabVIEW第四十二题

学习目标: 使用labview编写一个用户确认界面: 我们在程序中赋予5个人的账号密码,账号使用人名,密码随便,并规定相关权限。访问权限要在前面板显示,并且访问成功与否也要有显示。 开始编写: 前…

如何安装QT(linux/windows)

1. linux 1.1 下载安装程序 进入QT官网,点击右上角下载 Qt | Tools for Each Stage of Software Development Lifecycle​www.qt.io/ 然后选择下载linux版本,这里你需要填写一些信息,注册一些即可 填写之后会出现下面这个网页,…

数组和指针的复杂关系

C语言中指针和数组的关系似乎很“纠结”,让人爱恨交织。本文试图帮助读者理清它们之间的复杂关系! 数组名的理解 数组元素在内存中是连续存放的,在C语言中,数组名有特殊的含义,它表示数组首元素的地址。因此&#xf…

前后端分离,Jackson,Long精度丢失

案例:后端接口放回一个Long数据 GetMapping("/testForLong")public Map<String, Object> testForLong() {Map<String, Object> map new HashMap<>();map.put("aaa", 1234567890123456789L);return map;}实际前端接收的数据 前后端数据…

1.3 自然语言处理的应用

自然语言处理&#xff08;NLP&#xff09;在多个领域有广泛应用&#xff0c;如自动文摘、机器翻译、情感分析等。本实战将通过NLTK库&#xff0c;演示文本预处理的关键技术&#xff0c;包括小写转换、去噪、文本规范化、词干提取、词形还原、标记化以及删除停止词。这些技术为构…

深度学习经典模型之LeNet-5

1 LeNet-5 1.1 模型介绍 ​ LeNet-5是由 L e C u n LeCun LeCun 提出的一种用于识别手写数字和机器印刷字符的卷积神经网络&#xff08;Convolutional Neural Network&#xff0c;CNN&#xff09; [ 1 ] ^{[1]} [1]&#xff0c;其命名来源于作者 L e C u n LeCun LeCun的名字…

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01 目录 文章目录 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-11-01目录1. A Perspective for Adapting Generalist AI to Specialized Medical AI Applications and Their Challenges2. Synergi…

D60【python 接口自动化学习】- python基础之数据库

day60 数据库定义 学习日期&#xff1a;20241106 学习目标&#xff1a;MySQL数据库-- 128&#xff1a;数据库定义 学习笔记&#xff1a; 无处不在的数据库 数据库如何存储数据 数据库管理系统&#xff08;数据库软件&#xff09; 数据库和SQL的关系 总结 数据库就是指数据…

mysql error:1449权限问题 及 用户授权

一、权限问题 Got error: 1449: The user specified as a definer (skip-grants userskip-grants host) does not exist when using LOCK TABLES 在迁移数据库时&#xff0c;定义的definer&#xff0c;在两个数据库之间不同步时&#xff0c;要将不存在的definer改成数据库中已…

HTB:Grandpa[WriteUP]

目录 连接至HTB服务器并启动靶机 1.Which version of Microsoft IIS is running on TCP port 80? 2.Which 2017 CVE abuses a Buffer overflow in the ScStoragePathFromUrl function in that specific IIS version, allowing remote attackers to execute arbitrary code?…

AI笔筒操作说明及应用场景

AI笔筒由来&#xff1a; 在快节奏的现代办公环境中&#xff0c;我们一直在寻找既能提升效率、增添便利&#xff0c;又能融入企业文化、展现个人品味的桌面伙伴。为此&#xff0c;我们特推出专为追求卓越、注重细节的您设计的AI笔筒礼品版&#xff0c;它集高科技与实用性于一身…

ssm+vue684基于WEB技术的在线商品交易平台的设计

博主介绍&#xff1a;专注于Java&#xff08;springboot ssm 等开发框架&#xff09; vue .net php phython node.js uniapp 微信小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设&#xff0c;从业十五余年开发设计教学工作 ☆☆☆ 精彩专栏推荐订阅☆☆☆☆☆不…

【青牛科技】GC8549替代LV8549/ONSEMI在摇头机、舞台灯、打印机和白色家电等产品上的应用分析

引言 在现代电子产品中&#xff0c;控制芯片的性能直接影响到设备的功能和用户体验。摇头机、舞台灯、打印机和白色家电等领域对控制精度、功耗和成本等方面的要求日益提高。LV8549/ONSEMI等国际品牌的芯片曾是这些产品的主要选择&#xff0c;但随着国内半导体技术的进步&…

【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,2-15

文件下载与邀请翻译者 学习英特尔开发手册&#xff0c;最好手里这个手册文件。原版是PDF文件。点击下方链接了解下载方法。 讲解下载英特尔开发手册的文章 翻译英特尔开发手册&#xff0c;会是一件耗时费力的工作。如果有愿意和我一起来做这件事的&#xff0c;那么&#xff…

[SAP ABAP] 面向对象程序设计-类和对象

面向对象开发的特点&#xff1a;封装、继承和多态 什么是类和对象&#xff1f; 类(CLASS)是创建对象的模板&#xff0c;对象(OBJECT)是类的实例 一个类可以创建多个对象 类 > 类型 对象 > 个体 在ABAP语言中&#xff0c;定义一个类&#xff0c;需要包含定义(defin…