ToxVidLLM:一个用于检测有害视频的多模态多任务框架

      在一个社交媒体平台赋予用户成为内容创作者力量的时代,数字领域见证了前所未有的信息传播激增到2023年,82%的互联网流量是视频内容。因此,像抖音和YouTub这样的平台已经成为主要的信息来源。一个显著的统计数据凸显了这些平台的巨大影响:仅在YouTube上,用户每天就共同观看超过十亿小时的视频内容。视频内容的病毒性质是一把双刃剑:它促进了新闻的快速传播,同时也加速了有害言论的传播。

     我们推荐一个先进的多模态多任务框架,用于视频内容中的毒性检测,利用大型语言模型(LLMs),并结合了进行情感和严重性分析的附加任务。ToxVidLLM结合了三个关键模块——编码器模块、跨模态同步模块和多任务模块——构建了一个为复杂视频分类任务定制的通用多模态LLM。

1 有害代码混合多模态(ToxCMM)数据集

    选择YouTube作为主要数据源重点是代码混合语言对话,主要是印地语和英语。为了收集相关内容,我们使用YouTube API抓取印度网络系列和印地语"烤"视频将下载的视频细分为更小的子视频,以便在句子级别进行注释,并最大化包含有害内容。数据集包含931个视频,采用印地语-英语代码混合格式。

    使用了配置有OpenAI库中单词时间戳的Whisper转录模型为每个视频生成文字转录。然后我们通过手动删除由于语音中断或结巴导致不清楚的单词和符号来提高文字转录的质量。从视频中提取单个话语涉及记录它们的开始和结束时间。

1.1 数据注释

     为了更好地阐明注释过程,我们将注释部分分为两个子部分:(i) 注释培训和(ii) 主要注释。注释培训:三位博士学者监督注释过程,他们精通有害和冒犯内容,实际注释由三位精通印地语和英语的本科生进行。

     数据集考虑了两个毒性类别(非毒性/毒性)、三个情感类别(积极/中立/消极)以及每个视频样本的严重性得分在三点量表上(0、1、2)。得分0表示没有毒性迹象,1表示帖子包含毒性迹象,但并不严重,2分表示帖子包含强有力的毒性证据(例如,身体威胁或兴奋自杀)。

1.2 数据集统计

数据集总共包含4021个话语,其中1697个被归类为有害,其余2324个被标记为非有害。ToxCMM数据集的类别统计数据如表1所示。该数据集中的每个话语平均包含8.68个单词,平均持续时间为8.89秒。平均而言,数据集中的每个话语包含约68.20%的印地语单词,这意味着超过三分之二的单词是印地语,其余的单词是英语。

2 方法论

       给定一个表示为V的话语视频片段,我们的任务基本上是一个分类问题目标是确定视频是否包含有害内容,以及为其分配情感和严重性标签。每个视频V表示为一系列帧F = {f1, f2, ... fn},附带相关的音频A,以及视频的文字转录T = {w1, w2, ... wm},由一系列单词组成构建一个基于深度学习的视频分类器,表示为C:C(T; F; A) → y,其中y表示给定任务的视频的实际标签。我们将基于LLM的多模态多任务框架ToxVidLLM划分为三个不同的组件:即编码器模块、跨模态同步模块和多任务模块。

2.1 编码器模块

2.1.1 文本编码器

模型选择: 在 HingBERT 模型系列中进行实验,包括 HingMBERT、HingRoBERTa、HingGPT 和 IndicBERT。HingBERT 系列模型专门针对印地语和英语混合语(Hinglish)进行预训练,能够有效地处理混合语言文本。

作用: 将视频字幕中的文本转换为嵌入表示,捕捉文本内容的语义信息。

2.1.2 音频编码器

模型选择: 使用两个最先进的(SOTA)模型,即Whisper和MMS

  • Whisper: 由 OpenAI 开发,是一个多语言语音识别模型,在大型音频数据集上进行训练,能够有效地识别和理解语音内容。
  • MMS (Massively Multilingual Speech): 由 Facebook AI 开发,是一个用于语音识别的预训练模型,能够在多种语言上进行训练和使用。

作用: 将视频中的音频信号转换为嵌入表示,捕捉语音内容的信息,例如说话人的语气、语调等。

2.1.3 视频编码器

模型选择: 使用了两个基于 Transformer 的视频模型:VideoMAE 和 Timesformer。

  • VideoMAE: 使用掩码自编码器进行自监督视频预训练,能够有效地捕捉视频中的时空信息。
  • Timesformer: 将 Transformer 架构扩展到视频理解任务,能够有效地捕捉视频中的时间关系。

作用: 将视频帧转换为嵌入表示,捕捉视频内容的信息,例如场景、动作、表情等。

2.2 跨模态同步模块

跨模态同步模块是 ToxVidLLM 模型中至关重要的一环,它负责将来自不同模态(视频、音频、文本)的特征进行对齐,以便更好地融合信息并提升毒性检测的性能。

2.2.1 编码阶段

首先,使用预训练模型分别对视频和音频进行编码,提取其特征表示:

  • 视频编码: 使用 VideoMAE 或 Timesformer 等模型,捕捉视频中的空间和时间信息。
  • 音频编码: 使用 Whisper 或 MMS 等模型,提取音频信号中的语义信息。

经过编码后,视频和音频的特征表示分别记为 Zv 和 Za。

2.2.2 抽象特征提取

为了降低计算成本并限制前缀中的 token 数量,使用 1 维卷积层 (Conv) 对 Zv 和 Za 进行压缩,使其长度缩短到固定的值 SL’。

接着,使用全连接层 (FC) 调整特征维度,使其与 LLM 的 token 嵌入矩阵维度 dt 相匹配。

经过抽象特征提取后,视频和音频的特征表示分别记为 Cv 和 Ca。

2.2.3 多头交叉注意力 (MHCA)

为了将视频和音频的特征表示与文本特征表示对齐,使用 MHCA 机制。

MHCA 机制将 Cv 和 Ca 作为 Query (Q),将文本特征表示 Et 作为 Key (K) 和 Value (V)。

通过比较 Q 和 K,计算注意力权重,并使用加权求和的方式更新 Q,从而将视频和音频的特征表示映射到文本嵌入空间。

经过 MHCA 处理后,视频和音频的特征表示分别记为 Csv 和 Csa。

2.2.4 门控融合

为了更好地融合视频和音频的特征,使用门控融合策略。

门控融合通过学习权重矩阵 Pv 和 Pa,以及标量偏置 bg,将 Csa 和 Csv 进行线性组合。

2.3 多任务模块

任务模块是 ToxVidLLM 模型中的核心部分,它负责同时进行毒性检测、严重程度分析和情感分析三个任务

2.3.1 输入

多任务模块的输入包括来自跨模态同步模块的融合特征表示 Jva,以及文本特征表示 Et。

为了更好地融合文本和融合特征,将 Jva 和 Et 通过特殊 token [SEP] 进行连接,形成一个多模态输入序列。

2.3.2 LLM 处理

使用预训练的 LLM 模型(如 HingRoberta 或 HingGPT)对多模态输入序列进行处理。

LLM 模型会生成一个序列输出,每个 token 对应一个向量表示。

2.3.3 任务特定层

将 LLM 的序列输出进行平均池化,得到一个全局特征表示。

将全局特征表示分别输入到三个任务特定的全连接层,每个层对应一个任务(毒性检测、严重程度分析、情感分析)。

每个任务特定层会输出一个向量表示,该向量包含了该任务所需的信息。

2.3.4 输出层

将三个任务特定层的输出分别输入到输出层,进行 softmax 操作,得到三个任务的预测概率分布。

最终,根据预测概率分布,可以得到每个视频的毒性标签、严重程度标签和情感标签。

2.4 加权交叉熵损失函数

ToxVidLLM 模型进行了多任务学习,同时进行毒性检测、严重程度分析和情感分析三个任务。为了平衡不同任务之间的权重,使用了加权交叉熵损失函数:Loss_f = ∑(β_k * Loss_k)

  • Loss_f 表示最终的损失值。
  • Loss_k 表示第 k 个任务的交叉熵损失值。
  • β_k 表示第 k 个任务的权重,由模型在训练过程中学习得到。用于控制不同任务对最终损失的贡献程度。例如,如果毒性检测任务比其他任务更重要,可以将 β_k 设置得更高,从而使模型在训练过程中更加关注毒性检测任务的预测精度。

3 结论

3.1 模态编码器选择

在音频编码器方面Whisper 模型在所有实验设置中均优于 MMS 模型,证明了其在处理音频数据方面的优越性能。

在视频编码器方面,VideoMAE 模型在所有实验设置中均优于 TimeSformer 模型,证明了其在提取视频特征方面的有效性。

在文本编码器方面,HingRoBERTa 模型在所有实验设置中均优于其他模型,证明了其在处理 Hindi-English 混合代码文本方面的优势。

3.2 单模态、双模态和三模态的比较

  • 单模态实验表明,文本模态在毒性检测任务中始终优于视频和音频模态,突出了文本信息在视频毒性检测中的重要性。
  • 双模态实验表明,文本+音频配置始终优于其他两种组合,证明了音频信息对毒性检测任务的补充作用。
  • 三模态实验表明,三模态配置在所有任务中都取得了最佳性能,证明了文本、音频和视频信息在视频毒性检测中的互补作用。

3.3 ToxVidLLM 模型的优势

  • ToxVidLLM 模型在所有实验中都显著优于基线模型,证明了其有效性。
  • ToxVidLLM 模型的多任务学习机制能够有效提升毒性检测任务的性能。
  • ToxVidLLM 模型的 MHCA 和门控融合机制能够有效地融合不同模态的特征,从而提升模型的性能。

4 相关知识

4.1 MHCA 进行跨模态同步

ToxVidLLM 模型选择使用 MHCA 进行跨模态同步,而不是其他方法,主要基于以下几个原因:

4.1.1 文本信息的重要性

在视频内容中,文本信息往往比音频和视频信息更能直接反映说话者的意图和情绪。

MHCA 可以有效地将文本信息作为引导,帮助模型理解和融合其他模态的信息。

4.1.2 统一表示空间

MHCA 可以通过计算不同模态之间的注意力权重,将它们映射到一个统一的表示空间中。

这有助于模型在不同模态之间建立关联,并更准确地识别毒性内容。

4.1.3 优于其他方法

与简单的拼接方法相比,MHCA 可以避免模态信息之间的冲突,并赋予不同模态不同的权重。

与其他注意力机制相比,MHCA 可以更有效地捕获不同模态之间的长期依赖关系。

4.1.4 实验验证

在 ToxVidLLM 的消融研究中,移除 MHCA 模块会导致模型性能显著下降,这进一步证明了 MHCA 在跨模态同步中的重要性。

4.2 ToxVidLLM 模型码和数据集下载 

GitHub - justaguyalways/ToxVidLM_ACL_2024: Code and Datasets for our accepted long paper at ACL 2024, regarding toxicity detection in code-mixed hinglish video content

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/24730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【java并发】知识框架

文章目录 一. 并发基础1.多线程基础2. 线程安全性3. 同步机制4. 线程间通信5. 并发集合 二. java 进阶1. 并发工具类2. 原子操作和 CAS3. 线程池 三、并发架构1. 并发设计模式2. 性能调优与高级主题3. 并发框架与实践4. 线程分析 一. 并发基础 1.多线程基础 学习 Java 中如何…

线段树模板

0、基本模板 0.1单点修改 class Node:def __init__(self,l,r,s):self.llself.rrself.ss def pushup(u,l,r):u.s l.s r.s def build(u,l,r):if lr:tr[u]Node(l,r,a[l])else:mid lr>>1tr[u]Node(l,r,0)build(u<<1,l,mid); build(u<<1|1,mid1,r)pushup(tr[…

发布处理方案 —— 前台项目构建与发布处理

目录 01: 前言 02: 域名、DNS、公网IP、服务器、Nginx之间的关系 03: 阿里云服务器购买指南 04: 服务器连接方式 05: Nginx 环境处理 06: 项目发布 07: 小结 01: 前言 现在我们来看一下项目的打包和发布功能&#xff0c;这两个功能也就是我们本篇文章的主要功能。 对…

大泽动力30KW静音汽油发电机

安全操作&#xff1a; 在使用前&#xff0c;确保发电机放置在通风良好、干燥、无易燃物品的地方。 避免在发电机运行时触摸其热表面或运转部件&#xff0c;以免烫伤或受伤。 遵循发电机的启动和停机程序&#xff0c;不要随意操作。 燃油管理&#xff1a; 使用高质量的汽油&…

关于Redis的持久化

Redis与MySQL的不同 MySQL的事务&#xff0c;有四个核心特性&#xff1a;原子性、一致性、持久性和隔离性 把数据存储在磁盘上就是持久化的&#xff0c;把数据存储在内存上则是不持久化的。区别在于重启进程/主机后&#xff0c;数据是否存在。 而Redis是一个内存数据库&#x…

Avalonia TreeView 示例代码

参考文档 https://docs.avaloniaui.net/docs/reference/controls/detailed-reference/treeview-1 新建一个avalonia MVVM工程AvaloniaAppTreeview&#xff0c;删掉MainWindow.xaml里的<TextBlock Text"{Binding Greeting}" HorizontalAlignment"Center"…

数据可视化:Matplotlib 与 Seaborn

数据可视化是数据分析中至关重要的一部分&#xff0c;它能帮助我们直观地理解数据的分布、趋势和关系。Python 中&#xff0c;Matplotlib 和 Seaborn 是两个最常用的可视化库。本文将详细介绍如何使用 Matplotlib 和 Seaborn 进行数据可视化&#xff0c;包括基本图形、图形定制…

Spring boot项目

一. Spring boot 安装地址 https://start.spring.io/ 二. 选择 三. idea配置 找到下载的文件解压缩&#xff0c;打开pom.xml(选择从idea打开)

ROS基础学习-ROS通信机制进阶

ROS通信机制进阶 目录 0.简介1.常用API1.1 节点初始化函数1.1.1 C++1.1.2 Python1.2 话题与服务相关函数1.2.1 对象获取相关1.2.1.1 C++1.2.1.2 Python1.2.2 订阅对象相关1.2.2.1 C++1.2.2.2 Python1.2.3 服务对象相关函数1.2.3.1 C++1.2.3.2 Python1.2.4 客户端对象相关1.2.4.…

推荐一个网安资源学习网站

渗透师 网络安全从业者安全导航 工具 wireshark metasploit namp sqlmap 国外安全论坛 hack forums Форум АНТИЧАТ Tuts 4 You 安全帮网址导航 | 让网络安全资源更有序&#xff01; src挖掘

常见机器学习概念

信息熵 信息熵&#xff08;information entropy&#xff09;是信息论的基本概念。描述信息源各可能事件发生的不确定性。20世纪40年代&#xff0c;香农&#xff08;C.E.Shannon&#xff09;借鉴了热力学的概念&#xff0c;把信息中排除了冗余后的平均信息量称为“信息熵”&…

Python的Pillow(图像处理库)的一些学习笔记

Python的Pillow库是一个非常强大的图像处理库。 安装Pillow库&#xff1a; 在终端或命令行中输入以下命令来安装Pillow&#xff1a; pip install pillow 升级库&#xff1a; pip install pillow --upgrade 一些基础的应用 1、图像文件方面的&#xff1a; 打开文件 …

LVS负载均衡群集+NAT部署

目录 1.企业群集应用概述 1.1 群集的含义 1.2 企业群集分类 2.LVS负载均衡群集运用理论 2.1 负载均衡的架构 2.2 LVS负载均衡群集工作的三种模式 3.LVS虚拟服务器&#xff08;Linux Virtual Server&#xff09; 3.1 ip_vs通用模块 3.2 LVS调度器用的调度方法 4.ipvs…

【CS.DB】深度解析:ClickHouse与Elasticsearch在大数据分析中的应用与优化

文章目录 《深入对比&#xff1a;在大数据分析中的 ClickHouse和Elasticsearch》 1 介绍 2 深入非关系型数据库的世界2.1 非关系型数据库的种类2.2 列存储数据库&#xff08;如ClickHouse&#xff09;2.3 搜索引擎&#xff08;如Elasticsearch&#xff09;2.4 核心优势的归纳 3…

面试高频问题----5

一、线程池参数的执行顺序 1.如果线程池中的线程数量小于核心线程数&#xff0c;则创建新的线程来处理任务 2.如果线程池中的线程数量等于核心线程数&#xff0c;但工作队列未满&#xff0c;将任务放入工作队列中执行 3.如果工作队列已满&#xff0c;但线程数小于最大线程数…

01_基于人脸的常见表情识别实战_深度学习基础知识

1. 感知机 感知机通常情况下指单层的人工神经网络,其结构与 MP 模型类似(按照生物神经元的结构和工作原理造出来的一个抽象和简化了模型,也称为神经网络的一个处理单元) 假设由一个 n 维的单层感知机,则: x 1 x_1 x1​ 至 x n x_n xn​ 为 n 维输入向量的各个分量w 1 j…

《C++避坑神器·二十七》VS中release打断点方法,#undef作用

1、release打断点方式 2、#undef作用 #undef指令用于”取消“已定义的#define指令 案例&#xff1a;

UiPath发送邮件给多人时需要注意哪些限制?

UiPath发送邮件给多人的步骤&#xff1f;如何使用UiPath发信&#xff1f; 尽管UiPath提供了强大的邮件发送功能&#xff0c;但在批量发送邮件时&#xff0c;有一些限制和注意事项是我们必须了解的。AokSend将详细介绍这些限制&#xff0c;并提供一些优化建议。 UiPath发送邮件…

深度解析:全流量分析与IP会话回溯在IT运维中的应用

目录 什么是全流量分析&#xff1f; 全流量分析的优势 实际应用案例 IP会话回溯&#xff1a;精准故障排除的利器 IP会话回溯的工作原理 案例分享&#xff1a;快速解决网络故障 全流量分析与IP会话回溯的结合 IT运维中的实用技巧 总结 在现代IT运维中&#xff0c;网络的…

dependencies?devDependencies?peerDependencies

之前使用的npm包中&#xff0c;我用到了sass包。我当时没有在packagejson中添加依赖项&#xff0c;而是另外install的。这就引起了我的一个思考 初步想法&#xff1a; 我的npm包需要使用sass&#xff0c;那么我应该放在dependencies中&#xff0c;当使用的时候会直接下载 问题…