ToxVidLLM:一个用于检测有害视频的多模态多任务框架

      在一个社交媒体平台赋予用户成为内容创作者力量的时代,数字领域见证了前所未有的信息传播激增到2023年,82%的互联网流量是视频内容。因此,像抖音和YouTub这样的平台已经成为主要的信息来源。一个显著的统计数据凸显了这些平台的巨大影响:仅在YouTube上,用户每天就共同观看超过十亿小时的视频内容。视频内容的病毒性质是一把双刃剑:它促进了新闻的快速传播,同时也加速了有害言论的传播。

     我们推荐一个先进的多模态多任务框架,用于视频内容中的毒性检测,利用大型语言模型(LLMs),并结合了进行情感和严重性分析的附加任务。ToxVidLLM结合了三个关键模块——编码器模块、跨模态同步模块和多任务模块——构建了一个为复杂视频分类任务定制的通用多模态LLM。

1 有害代码混合多模态(ToxCMM)数据集

    选择YouTube作为主要数据源重点是代码混合语言对话,主要是印地语和英语。为了收集相关内容,我们使用YouTube API抓取印度网络系列和印地语"烤"视频将下载的视频细分为更小的子视频,以便在句子级别进行注释,并最大化包含有害内容。数据集包含931个视频,采用印地语-英语代码混合格式。

    使用了配置有OpenAI库中单词时间戳的Whisper转录模型为每个视频生成文字转录。然后我们通过手动删除由于语音中断或结巴导致不清楚的单词和符号来提高文字转录的质量。从视频中提取单个话语涉及记录它们的开始和结束时间。

1.1 数据注释

     为了更好地阐明注释过程,我们将注释部分分为两个子部分:(i) 注释培训和(ii) 主要注释。注释培训:三位博士学者监督注释过程,他们精通有害和冒犯内容,实际注释由三位精通印地语和英语的本科生进行。

     数据集考虑了两个毒性类别(非毒性/毒性)、三个情感类别(积极/中立/消极)以及每个视频样本的严重性得分在三点量表上(0、1、2)。得分0表示没有毒性迹象,1表示帖子包含毒性迹象,但并不严重,2分表示帖子包含强有力的毒性证据(例如,身体威胁或兴奋自杀)。

1.2 数据集统计

数据集总共包含4021个话语,其中1697个被归类为有害,其余2324个被标记为非有害。ToxCMM数据集的类别统计数据如表1所示。该数据集中的每个话语平均包含8.68个单词,平均持续时间为8.89秒。平均而言,数据集中的每个话语包含约68.20%的印地语单词,这意味着超过三分之二的单词是印地语,其余的单词是英语。

2 方法论

       给定一个表示为V的话语视频片段,我们的任务基本上是一个分类问题目标是确定视频是否包含有害内容,以及为其分配情感和严重性标签。每个视频V表示为一系列帧F = {f1, f2, ... fn},附带相关的音频A,以及视频的文字转录T = {w1, w2, ... wm},由一系列单词组成构建一个基于深度学习的视频分类器,表示为C:C(T; F; A) → y,其中y表示给定任务的视频的实际标签。我们将基于LLM的多模态多任务框架ToxVidLLM划分为三个不同的组件:即编码器模块、跨模态同步模块和多任务模块。

2.1 编码器模块

2.1.1 文本编码器

模型选择: 在 HingBERT 模型系列中进行实验,包括 HingMBERT、HingRoBERTa、HingGPT 和 IndicBERT。HingBERT 系列模型专门针对印地语和英语混合语(Hinglish)进行预训练,能够有效地处理混合语言文本。

作用: 将视频字幕中的文本转换为嵌入表示,捕捉文本内容的语义信息。

2.1.2 音频编码器

模型选择: 使用两个最先进的(SOTA)模型,即Whisper和MMS

  • Whisper: 由 OpenAI 开发,是一个多语言语音识别模型,在大型音频数据集上进行训练,能够有效地识别和理解语音内容。
  • MMS (Massively Multilingual Speech): 由 Facebook AI 开发,是一个用于语音识别的预训练模型,能够在多种语言上进行训练和使用。

作用: 将视频中的音频信号转换为嵌入表示,捕捉语音内容的信息,例如说话人的语气、语调等。

2.1.3 视频编码器

模型选择: 使用了两个基于 Transformer 的视频模型:VideoMAE 和 Timesformer。

  • VideoMAE: 使用掩码自编码器进行自监督视频预训练,能够有效地捕捉视频中的时空信息。
  • Timesformer: 将 Transformer 架构扩展到视频理解任务,能够有效地捕捉视频中的时间关系。

作用: 将视频帧转换为嵌入表示,捕捉视频内容的信息,例如场景、动作、表情等。

2.2 跨模态同步模块

跨模态同步模块是 ToxVidLLM 模型中至关重要的一环,它负责将来自不同模态(视频、音频、文本)的特征进行对齐,以便更好地融合信息并提升毒性检测的性能。

2.2.1 编码阶段

首先,使用预训练模型分别对视频和音频进行编码,提取其特征表示:

  • 视频编码: 使用 VideoMAE 或 Timesformer 等模型,捕捉视频中的空间和时间信息。
  • 音频编码: 使用 Whisper 或 MMS 等模型,提取音频信号中的语义信息。

经过编码后,视频和音频的特征表示分别记为 Zv 和 Za。

2.2.2 抽象特征提取

为了降低计算成本并限制前缀中的 token 数量,使用 1 维卷积层 (Conv) 对 Zv 和 Za 进行压缩,使其长度缩短到固定的值 SL’。

接着,使用全连接层 (FC) 调整特征维度,使其与 LLM 的 token 嵌入矩阵维度 dt 相匹配。

经过抽象特征提取后,视频和音频的特征表示分别记为 Cv 和 Ca。

2.2.3 多头交叉注意力 (MHCA)

为了将视频和音频的特征表示与文本特征表示对齐,使用 MHCA 机制。

MHCA 机制将 Cv 和 Ca 作为 Query (Q),将文本特征表示 Et 作为 Key (K) 和 Value (V)。

通过比较 Q 和 K,计算注意力权重,并使用加权求和的方式更新 Q,从而将视频和音频的特征表示映射到文本嵌入空间。

经过 MHCA 处理后,视频和音频的特征表示分别记为 Csv 和 Csa。

2.2.4 门控融合

为了更好地融合视频和音频的特征,使用门控融合策略。

门控融合通过学习权重矩阵 Pv 和 Pa,以及标量偏置 bg,将 Csa 和 Csv 进行线性组合。

2.3 多任务模块

任务模块是 ToxVidLLM 模型中的核心部分,它负责同时进行毒性检测、严重程度分析和情感分析三个任务

2.3.1 输入

多任务模块的输入包括来自跨模态同步模块的融合特征表示 Jva,以及文本特征表示 Et。

为了更好地融合文本和融合特征,将 Jva 和 Et 通过特殊 token [SEP] 进行连接,形成一个多模态输入序列。

2.3.2 LLM 处理

使用预训练的 LLM 模型(如 HingRoberta 或 HingGPT)对多模态输入序列进行处理。

LLM 模型会生成一个序列输出,每个 token 对应一个向量表示。

2.3.3 任务特定层

将 LLM 的序列输出进行平均池化,得到一个全局特征表示。

将全局特征表示分别输入到三个任务特定的全连接层,每个层对应一个任务(毒性检测、严重程度分析、情感分析)。

每个任务特定层会输出一个向量表示,该向量包含了该任务所需的信息。

2.3.4 输出层

将三个任务特定层的输出分别输入到输出层,进行 softmax 操作,得到三个任务的预测概率分布。

最终,根据预测概率分布,可以得到每个视频的毒性标签、严重程度标签和情感标签。

2.4 加权交叉熵损失函数

ToxVidLLM 模型进行了多任务学习,同时进行毒性检测、严重程度分析和情感分析三个任务。为了平衡不同任务之间的权重,使用了加权交叉熵损失函数:Loss_f = ∑(β_k * Loss_k)

  • Loss_f 表示最终的损失值。
  • Loss_k 表示第 k 个任务的交叉熵损失值。
  • β_k 表示第 k 个任务的权重,由模型在训练过程中学习得到。用于控制不同任务对最终损失的贡献程度。例如,如果毒性检测任务比其他任务更重要,可以将 β_k 设置得更高,从而使模型在训练过程中更加关注毒性检测任务的预测精度。

3 结论

3.1 模态编码器选择

在音频编码器方面Whisper 模型在所有实验设置中均优于 MMS 模型,证明了其在处理音频数据方面的优越性能。

在视频编码器方面,VideoMAE 模型在所有实验设置中均优于 TimeSformer 模型,证明了其在提取视频特征方面的有效性。

在文本编码器方面,HingRoBERTa 模型在所有实验设置中均优于其他模型,证明了其在处理 Hindi-English 混合代码文本方面的优势。

3.2 单模态、双模态和三模态的比较

  • 单模态实验表明,文本模态在毒性检测任务中始终优于视频和音频模态,突出了文本信息在视频毒性检测中的重要性。
  • 双模态实验表明,文本+音频配置始终优于其他两种组合,证明了音频信息对毒性检测任务的补充作用。
  • 三模态实验表明,三模态配置在所有任务中都取得了最佳性能,证明了文本、音频和视频信息在视频毒性检测中的互补作用。

3.3 ToxVidLLM 模型的优势

  • ToxVidLLM 模型在所有实验中都显著优于基线模型,证明了其有效性。
  • ToxVidLLM 模型的多任务学习机制能够有效提升毒性检测任务的性能。
  • ToxVidLLM 模型的 MHCA 和门控融合机制能够有效地融合不同模态的特征,从而提升模型的性能。

4 相关知识

4.1 MHCA 进行跨模态同步

ToxVidLLM 模型选择使用 MHCA 进行跨模态同步,而不是其他方法,主要基于以下几个原因:

4.1.1 文本信息的重要性

在视频内容中,文本信息往往比音频和视频信息更能直接反映说话者的意图和情绪。

MHCA 可以有效地将文本信息作为引导,帮助模型理解和融合其他模态的信息。

4.1.2 统一表示空间

MHCA 可以通过计算不同模态之间的注意力权重,将它们映射到一个统一的表示空间中。

这有助于模型在不同模态之间建立关联,并更准确地识别毒性内容。

4.1.3 优于其他方法

与简单的拼接方法相比,MHCA 可以避免模态信息之间的冲突,并赋予不同模态不同的权重。

与其他注意力机制相比,MHCA 可以更有效地捕获不同模态之间的长期依赖关系。

4.1.4 实验验证

在 ToxVidLLM 的消融研究中,移除 MHCA 模块会导致模型性能显著下降,这进一步证明了 MHCA 在跨模态同步中的重要性。

4.2 ToxVidLLM 模型码和数据集下载 

GitHub - justaguyalways/ToxVidLM_ACL_2024: Code and Datasets for our accepted long paper at ACL 2024, regarding toxicity detection in code-mixed hinglish video content

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大泽动力30KW静音汽油发电机

安全操作: 在使用前,确保发电机放置在通风良好、干燥、无易燃物品的地方。 避免在发电机运行时触摸其热表面或运转部件,以免烫伤或受伤。 遵循发电机的启动和停机程序,不要随意操作。 燃油管理: 使用高质量的汽油&…

Spring boot项目

一. Spring boot 安装地址 https://start.spring.io/ 二. 选择 三. idea配置 找到下载的文件解压缩,打开pom.xml(选择从idea打开)

ROS基础学习-ROS通信机制进阶

ROS通信机制进阶 目录 0.简介1.常用API1.1 节点初始化函数1.1.1 C++1.1.2 Python1.2 话题与服务相关函数1.2.1 对象获取相关1.2.1.1 C++1.2.1.2 Python1.2.2 订阅对象相关1.2.2.1 C++1.2.2.2 Python1.2.3 服务对象相关函数1.2.3.1 C++1.2.3.2 Python1.2.4 客户端对象相关1.2.4.…

常见机器学习概念

信息熵 信息熵(information entropy)是信息论的基本概念。描述信息源各可能事件发生的不确定性。20世纪40年代,香农(C.E.Shannon)借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”&…

Python的Pillow(图像处理库)的一些学习笔记

Python的Pillow库是一个非常强大的图像处理库。 安装Pillow库: 在终端或命令行中输入以下命令来安装Pillow: pip install pillow 升级库: pip install pillow --upgrade 一些基础的应用 1、图像文件方面的: 打开文件 …

LVS负载均衡群集+NAT部署

目录 1.企业群集应用概述 1.1 群集的含义 1.2 企业群集分类 2.LVS负载均衡群集运用理论 2.1 负载均衡的架构 2.2 LVS负载均衡群集工作的三种模式 3.LVS虚拟服务器(Linux Virtual Server) 3.1 ip_vs通用模块 3.2 LVS调度器用的调度方法 4.ipvs…

【CS.DB】深度解析:ClickHouse与Elasticsearch在大数据分析中的应用与优化

文章目录 《深入对比:在大数据分析中的 ClickHouse和Elasticsearch》 1 介绍 2 深入非关系型数据库的世界2.1 非关系型数据库的种类2.2 列存储数据库(如ClickHouse)2.3 搜索引擎(如Elasticsearch)2.4 核心优势的归纳 3…

01_基于人脸的常见表情识别实战_深度学习基础知识

1. 感知机 感知机通常情况下指单层的人工神经网络,其结构与 MP 模型类似(按照生物神经元的结构和工作原理造出来的一个抽象和简化了模型,也称为神经网络的一个处理单元) 假设由一个 n 维的单层感知机,则: x 1 x_1 x1​ 至 x n x_n xn​ 为 n 维输入向量的各个分量w 1 j…

《C++避坑神器·二十七》VS中release打断点方法,#undef作用

1、release打断点方式 2、#undef作用 #undef指令用于”取消“已定义的#define指令 案例:

UiPath发送邮件给多人时需要注意哪些限制?

UiPath发送邮件给多人的步骤?如何使用UiPath发信? 尽管UiPath提供了强大的邮件发送功能,但在批量发送邮件时,有一些限制和注意事项是我们必须了解的。AokSend将详细介绍这些限制,并提供一些优化建议。 UiPath发送邮件…

【SQLAlChemy】如何定义ORM模型,如何映射到数据库?

定义ORM模型并映射到数据库 创建 ORM 基类 使用 declarative_base 根据 engine 来创建一个 ORM 基类。 from SqlAIchemy.LinkDB.main import engineBase declarative_base()创建自定义类 用上边定义的 Base 类来实现自己的 ORM 类。 __tablename__ 类属性,可以…

Electron qt开发教程

模块安装打包 npm install -g electron-forge electron-forge init my-project --templatevue npm start //进入目录启动 //打包成一个目录到out目录下,注意这种打包一般用于调试,并不是用于分发 npm run package //打出真正的分发包,放在o…

Swift 序列(Sequence)排序面面俱到 - 从过去到现在(二)

概览 在上篇 Swift 序列(Sequence)排序面面俱到 - 从过去到现在(一)博文中,我们讨论了 Swift 语言中序列和集合元素排序的一些基本知识,我们还给出了以自定义类型中任意属性排序的“康庄大道”。 不过在实际的撸码场景中,我们往往需要的是“多属性”同时参与到排序的考…

工业楼控暖通组态恒温检测控制大屏前端UI案例

工业楼控暖通组态恒温检测控制大屏前端UI案例

U盘文件系统结构损坏的应对与预防

在数字化时代,U盘作为便携式存储设备,其重要性不言而喻。然而,当U盘文件系统结构损坏时,我们可能会面临数据丢失的风险。本文将深入探讨U盘文件系统结构损坏的问题,分析其产生的原因,并给出相应的数据恢复方…

SpringBoot 的多配置文件

文章目录 SpringBoot 的多配置文件spring.profiles.active 配置Profile 和 ActiveProfiles 注解 SpringBoot 的多配置文件 spring.profiles.active 配置 默认情况下,当你启动 SpringBoot 项目时,会在日志中看到如下一条 INFO 信息: No act…

vue2 中如何使用 render 函数编写组件

vue2 中如何使用 render 函数编写组件 render 基础语法createElement返回值:VNode参数处理样式和类组件 propsHTML 特性和 DOM 属性处理事件插槽指令v-model 指令其他属性 使用 render 封装一个输入框其他问题参考 vue 提供了声明式编写 UI 的方式,即 vu…

VL830 USB4 最高支持40Gbps芯片功能阐述以及原理图分享

前文斥巨资拆了一个扩展坞供大家参考。其中核心即为本文要说的这个VL830,USB4的HUB芯片。 拆解报告传送门:USB4 Gen3x2 最高40Gbps传输速率的HUB扩展坞拆解分析 OK,闲话少叙。直接进入主题,我就直接翻译规格书了。 VL830是一款USB4端点设备…

C++笔试强训day41

目录 1.棋子翻转 2.宵暗的妖怪 3.过桥 1.棋子翻转 链接https://www.nowcoder.com/practice/a8c89dc768c84ec29cbf9ca065e3f6b4?tpId128&tqId33769&ru/exam/oj (简单题)对题意进行简单模拟即可: class Solution { public:int dx[…

设计模式-中介者(调停者)模式(行为型)

中介者模式 中介者模式是一种行为型模式,又叫调停者模式,它是为了解决多个对象之间,多个类之间通信的复杂性,定义一个中介者对象来封装一些列对象之间的交互,使各个对象之间不同持有对方的引用就可以实现交互&#xf…