面向社交网络语言隐写分析

论文:Linguistic Steganalysis Toward Social Network

发表在:IEEE Transactions on Information Forensics & Security是网络与信息安全领域的国际两大顶级期刊之一,中国计算机学会(CCF)推荐的A类期刊,SCI一区TOP期刊,影响因子为6.013,在信息安全、信息科学和计算机网络等领域具有很高的影响力。

摘要

随着互联网和社交媒体的迅猛发展,语言隐写术在社交网络中容易被滥用,对个人隐私、网络病毒和国防等各个方面造成重大损害。目前,已经提出了大量的语言隐写分析方法来检测有害的隐写载体。然而,几乎所有现有的方法在真实的社交网络中都失败了因为它们只致力于语言特征,这些特征由于真实社交网络的极度稀疏和极度分散的挑战而极度不足。在本文中,我们试图填补一个长期存在的空白,即在社交网络场景中缺乏用于检测隐写文本的数据集和有效方法。具体而言,我们构建了一个名为Stego-Sandbox的数据集,以模拟真实的社交网络场景,其中包含文本及其关系。我们提出了一种有效的语言隐写分析框架,该框架整合了文本中包含的语言特征和由这些连接表示的上下文特征。广泛的实验结果表明,由于捕获到的上下文特征,我们提出的框架可以有效弥补这些现有方法的缺陷,并在真实社交网络场景中极大地提高它们的检测能力。
关键词—语言隐写分析,社交网络,数据集,隐写分析框架。

I. 引言

生活在互联网时代的人们要求有保护的个人通信。加密和隐蔽系统是满足这一需求的主要技术。与加密系统不同,加密系统中传输信息的存在可以被暴露,而隐蔽系统旨在在确保消息对恶意监视者不可感知的同时传递消息 [1]。由于这一优势,隐蔽系统可以在避免拦截和破解等攻击的同时有效传输重要信息。隐写术是隐蔽系统的最重要技术。该技术将传输的消息嵌入到一些普通的信息载体中,同时通过使嵌入消息的载体(通常称为“隐写”或“隐写载体”)与没有嵌入消息的普通载体(通常称为“封面”或“非隐写载体”)之间的差异尽可能小来追求不可察觉性。由于其高度的隐蔽性,隐写术在过去的几十年里引起了许多研究者的兴趣,并在许多实际场景中发挥了重要作用,如隐私保护 [2],[3]。此外,在互联网时代,社交网络和媒体已经成为人们几乎无法分离的一部分。根据Statista的数据,截至2022年4月,社交网络中有46.5亿用户积极发布、评论和发送私人消息。因此,社交网络的便利性和社交媒体的信息冗余产生了许多基于社交媒体的强大的隐写方法 [2],[4],[5],[6],[7],[8],[9],[10],[11],[12]。

然而,社交网络和社交媒体的特性也使人们面临滥用隐写术的风险。一旦在社交网络中非法滥用,隐写术可以对个人隐私、网络安全甚至社会安全造成可怕的破坏。因此,迫切需要设计技术(称为“隐写分析”)来自动检测社交网络中这些隐写媒体载体。社交媒体载体有许多种类,如图像 [4]、音频 [5] 和文本 [2],[6],[7],[8],[9],[10],[11],[12]。在这些载体中,文本是社交平台中最广泛使用的隐写媒体,这是因为它们具有特殊的特征。首先,文本是最常用的信息载体,在几乎所有情况下,人们使用文本进行发布、评论、回复、传播等。这些互动创建了大量的社交文本。其次,文本是强大且稳定的,这确保了它们可以在传输时不丢失机密信息。第三,与发送单个图像或音频相比,发送单个文本只需要非常低的带宽,这使通信参与者能够传输大量的机密信息。因此,在本文中,我们将全力检测文本隐写(也称为“语言隐写”)。

检测语言隐写是一项艰巨的任务。强大的语言隐写方法不断涌现 [2], [6], [7], [8], [9], [10], [11], [12]。近年来,研究人员尝试了先进的语言模型 [6], [7], [11] 和增强安全性的文本生成算法 [2], [8], [9], [12],以使隐写和封面之间的统计差异尽量小。

为了对抗这些强大的语言隐写技术的潜在恶意用途,近几十年出现了大量语言隐写分析方法。总的来说,它们总是尽最大努力找到隐写和封面之间的不同统计特征,从早期的手工设计特征 [15], [16], [17], [18] 到最近的深度学习特征 [19], [20], [21], [22], [23], [24], [25]。利用手工特征 [15], [16], [17], [18],如词频 [15] 的传统方法只能获得有限的性能,因为它们只能处理浅层次的统计信息。随着神经网络和自然语言处理技术的发展,已经尝试了各种深度学习特征用于语言隐写分析,从本地单词级相关性 [19], [22] 到全局共享单词之间的信息 [24],从单一尺寸的隐藏特征 [19], [20], [23] 到多尺度表示 [21], [22],从孤立的文本内语义特征 [22], [25] 到涉及语义和句法信息 [26]。此外,一些工作 [23] 和 [26] 采用预训练方法,为检测机器提供了更强的理解语言差异的能力。

然而,即使当前的语言隐写分析方法取得了令人瞩目的改进,它们在现实世界的社交网络场景中可能仍然无法获得足够有效的性能。由于社交文本的独特特性,语言隐写分析面临社交网络的两个显著挑战。首先,隐写信息可能极度稀疏。在许多真实的社交网络中,大量的人们创建了无数的社交文本。因此,即使社交网络中的极小比例的文本携带机密消息,传输的消息总量也足够庞大。在这种实际情况下,语言隐写分析器需要从大量封面中挑选极少数的隐写,这严重挑战了现有方法 [19], [20], [21], [22], [23], [24], [25]。其次,社交网络中的文本极度分散。在许多真实的社交网络中,人们通常创建短文本,只有在获得上下文时才能完全理解。因此,这些现有方法 [19], [20], [21], [22], [23], [24], [25],它们严重依赖于个体文本的语言特征,如图1所示,很难从这些分散的社交文本中获取足够的统计信息以做出正确的决策。由于这两个挑战,几乎所有这些现有的所谓最先进的方法几乎无法在真实社交网络场景中有效地检测到隐写。从第III-A节的结果可以看出,在我们模拟的社交网络中,这些方法只能获得较差的性能,甚至在稀疏比例减少到10%时无法检测到隐写。

一般来说,社交文本并不是孤立的实例,而是通过各种互动活动如评论、回复、转发等相互连接,这表明存在潜在的上下文信息可用于帮助检测隐写。遗憾的是,即使一些现有的文本隐写分析方法被应用于社交平台语料库 [23], [25], [26],据我们所知,它们仍然将这些语料库视为孤立的个体,并忽略了这些相互连接的社交文本的连接信息。我们相信我们并不是第一个发现这一遗憾的团体,但在这些先前的工作中仍存在巨大的差距,包括没有模拟具有复杂连接的社交网络的发展。

为了抵消这一领域现有工作的不足,在本文中,我们发布了一个名为Stego-Sandbox的新数据集,用于模拟社交网络情景进行语言隐写分析。该数据集包括从三个主流社交网络(Reddit、Twitter和新浪微博)收集的文本及其连接信息。在每个社交网络中,我们模拟使用不同的语言隐写算法和不同的机密信息负载在社交网络中发送不同比例的隐写文本。

我们在模拟的情景中测试了许多现有的语言隐写分析方法,并令人惊讶地发现这些方法几乎无法取得令人满意的性能。然后,我们提出了一个面向真实社交网络的新型语言隐写分析框架。这个提议的框架可以基于文本本身包含的语言特征和社交文本之间连接中隐藏的上下文特征做出决策。语言特征提取器可以作为许多现有方法的基础,而为了捕捉上下文特征,我们采用图形来建模文本及其连接的拓扑结构。广泛的实验证明,由于捕捉到的上下文特征,我们提出的框架可以有效弥补这些现有方法的不足。

本文的其余部分组织如下:
- 第二部分对语言隐写分析和社交网络情景中的语言隐写分析的相关工作进行了解释;
- 第三部分展示了我们如何构建新的社交网络隐写分析数据集,同时也展示了这些现有方法在社交网络情景中是否能够表现良好;
- 第四部分描述了我们如何处理文本及其连接信息;
- 第五部分提供了实验设置和对结果的分析;
- 第六部分总结了本文。

2. 相关工作

A. 语言隐写分析
随着语言隐写学的不断发展,隐写和非隐写文本之间的差异越来越小,这给语言隐写分析方法带来了挑战。为了检测隐写文本,近年来涌现出许多先进的语言隐写分析方法。研究人员尝试了丰富的方法来找到隐写和封面之间的统计差异,从早期的手动特征方法 [15],[16],[17] 到最近的深度学习特征方法 [19],[20],[21],[22],[23],[24]。早期的手动特征方法仅根据手动设计的语言特征 [15],[16],[17],如词频 [15] 和同义词频率 [17],做出决策。这些手动设计的特征可以表示一些浅层次的统计特征,但不能触及文本的复杂特征,而且这些浅层次的统计差异很容易被当前强大的隐写方法降低。此外,设计这些特征需要深奥的专业知识和不可负担的成本,使得这些方法 [15],[16],[17] 难以实现精确的检测性能。

随着深度神经网络(DNNs)和自然语言处理技术的发展,已经成功利用了大量的深度学习语言特征来检测文本隐写,从局部词级相关性 [19],[22] 到全局共享词际信息 [24],从单一大小的隐藏特征 [19],[20],[23] 到多尺度表示 [21],[22],从孤立的文本语义特征 [23] 到涉及的语义和句法信息 [26]。其中,在2019年,Yang等人 [19] 首次提出了一种快速高效的DNN模型,利用词嵌入技术获取词级表示,然后利用DNN获取单词之间的相关性。同样在2019年,一些研究人员 [20] 发现嵌入机密信息将损害条件概率分布,因此他们提出利用循环神经网络(RNNs)语言模型捕捉条件概率分布特征的差异。在2020年,受到词关联性随着词之间距离变化而改变的启发,卷积神经网络(CNNs)被用于利用滑动多尺寸窗口捕捉多尺度的统计关联特征 [22]。与CNN方法不同,Niu等人 [21] 提出使用RNN模块基于精细的词表示捕捉多尺度的关联特征。在2021年,Wu等人 [24] 提出使用图神经网络(GNNs)捕捉单词的全局统计特征。基于多尺度的统计关联特征,Peng等人 [25] 提出捕捉条件概率分布差异的额外特征,类似于Yang等人 [6]所做的。总体而言,这些提出的方法旨在学习文本语义表面上的统计语言特征。最近,一些研究人员发现,当隐藏消息时,隐写的句法特征可能偏离封面的句法特征,基于此提出了一个框架,以处理语义和句法表面上的语言特征 [26]。

此外,一些工作采用预训练方法,例如BERT [27],以增强对隐写和封面之间语言差异的理解能力。Yang等人 [26],Zou等人 [23] 和Peng等人 [25] 分别采用预训练语言模型,以提高对隐写和封面之间语言理解能力,获得了对词在隐写文本中的精细表示。Peng等人 [25] 使用预训练的语言特征提取器在训练新的隐写分析模型的初始阶段增强了歧视能力。这些方法可以帮助模型更快地找到优化。

尽管当前语言隐写分析方法取得了显著的进展,几乎所有这些方法都将其范围限定在文本中包含的语言统计特征中,并忽略了隐藏在社交文本之间连接信息中的文本上下文特征。尽管社交文本之间的连接在检测隐写文本方面可能起着至关重要的作用,但利用连接的研究仍然是空白的。

B. 面向社交网络的隐写分析
随着互联网和社交网络的发展,社交媒体的巨大潜力和可能的滥用风险引起了广泛研究人员的关注 [13]。社交媒体之间的连接,例如文本和图像,已被用来增强许多任务的性能。例如,Xu等人 [28]通过媒体连接的帮助实现了增强的图像情感分析。

尽管社交媒体及其连接的潜力已经受到关注,但只有极少数文献提出了为社交网络情景设计的有效隐写分析方法。除文本外,其他基于媒体的隐写分析方法受到媒体的极端碎片化和隐写媒体的极端稀疏性的挑战。为了解决隐写媒体的稀疏性,研究人员尝试构建多个伪样本 [29],[30]。为了解决媒体的碎片化,已经研究了媒体的连接信息 [31],[32]。例如,李等人 [31] 利用由同一用户发布的图像之间的内部连接来帮助检测谁在社交网络中传递隐写图像。然而,大多数这些方法仍然忽略了连接信息,并试图从媒体本身找到更多的特征。尽管一些工作 [31] 和 [32] 注意到媒体连接的有益性,但所使用的方法相当简单,只能触及浅层的连接信息。媒体之间的复杂连接仍然待开发。此外,尽管社交文本之间的复杂连接结构在面向真实场景的语言隐写分析中可能发挥重要作用,但相关文献仍然是空白的。

克服上述挑战不仅需要精湛的检测方法,还需要模拟在真实社交网络环境中传输隐写文本的数据集,例如Reddit、Twitter、新浪微博等。目前,有几个广泛使用的语言隐写分析数据集,这些数据集要么不是自然语言,例如T-Steg [22],它包含具有固定格式的文本,要么将社交网络中的文本视为孤立的个体 [33]。据我所知,没有现有的语言隐写分析数据集满足模拟需求。

III. STEGO-SANDBOX构建


A. 数据集构建


缺乏模拟真实社交网络的数据集阻碍了实际社交语言隐写分析的发展。为了填补这一空白并开发实用的社交语言隐写分析器,在本文中,我们构建了一个新的数据集,模拟真实社交网络环境,称之为Stego-Sandbox。Stego-Sandbox可以模拟不同的真实社交平台,并能模拟使用不同的语言隐写算法、不同的嵌入负载和不同的隐写文本稀疏比的不同情境。
数据集构建过程包括三个步骤:
1) 获取数据和预处理。
2) 生成隐写文本。
3) 模拟发送隐写文本。
在第1步中,我们调查了三个非常著名和流行的社交平台,分别是Reddit、Twitter和新浪微博。它们都具有显著的特点,包括实时性和丰富的人际互动。为了获取原始文本及其连接提示,我们通过Twitter应用程序接口收集Twitter数据,从第三方网站采用Reddit数据,5 并采用Wang等人[34]收集的微博数据。然后,对于获取的数据,我们采用常规处理方法去噪,例如删除http链接,删除主题标签,并用相应的文本描述替换表情符号。之后,我们需要找出文本之间的连接。在这项工作中,我们考虑最常见的连接方式,即评论和回复。对于任何被其他文本评论或回复的文本,我们记录它们是连接的。
在第2步中,我们旨在生成与社交网络情景一致的隐写文本。为此,我们在预处理的语料库上训练隐写模型,然后基于训练过的模型和最先进的生成型语言隐写算法生成隐写文本。在本文中,我们采用了由Yang等人[6]提出的模型,该模型广泛用于在语言隐写分析社区生成隐写文本[22],[23],[24],[26]。该模型捕捉文本的序列表示,并自回归生成隐写文本,该模型与许多语言隐写算法兼容,例如定长编码[6]和Patient Huffman[12]。在这项工作中,我们使用三种语言隐写算法生成文本隐写,包括可变长度编码(VLC)[6],算术编码(AC)[8]和自适应动态分组(ADG)[9],所有这些算法旨在最小化隐写和非隐写文本之间的条件概率差异。具体而言,VLC [6] 和 AC [8] 使用Huffman编码和算术编码将秘密位映射到条件概率以将隐写和封面之间的差异减小到微小值,ADG [9] 将条件概率分组到尽可能相等的几个桶中,数学上证明可以达到理论最小差异。此外,对于VLC [6] 和 AC [8],我们使用不同的嵌入负载生成文本(见表.I)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/647289.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

​用技术的视角,去看一台家用 MPV 该有的水准

「MPV」一个在 2023 年之前都属于「小众」车型的品类。 但从 2023 年初开始,MPV 却变成了新能源,特别是高端新能源品牌必争的细分产品。 从岚图推梦想家开始,到腾势 D9,再到极氪 009,最后到魏牌高山,标志…

【开源】基于JAVA语言的智慧社区业务综合平台

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 业务类型模块2.2 基础业务模块2.3 预约业务模块2.4 反馈管理模块2.5 社区新闻模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 业务类型表3.2.2 基础业务表3.2.3 预约业务表3.2.4 反馈表3.2.5 社区新闻表 四、系统展…

Java中的this和super

①this 在Java中,this关键字代表当前对象的引用。它可以用于以下几个方面: 引用当前对象的成员变量:使用this关键字可以引用当前对象的成员变量,以区分成员变量和方法参数或局部变量之间的命名冲突。例如,如果一个方法…

LeetCode做题总结 226. 翻转二叉树

226. 翻转二叉树 代码1 报错代码2 报错代码3 正确。 代码1 报错 class Solution {public TreeNode invertTree(TreeNode root) {// TreeNode _root root; // 这是在保证// _root preOrderTree(root);// return root;root preOrderTree(root);return root;}public TreeNode …

【机器学习300问】15、什么是逻辑回归模型?

一、逻辑回归模型是为了解决什么问题? 逻辑回归(Logistic Regression)是一种广义线性回归分析模型,尤其适用于解决二分类问题(输出为两个类别)。 (1)二分类举例 邮件过滤&#xff…

Java Web(五)--DOM

介绍 DOM 全称是 Document Object Model 文档对象模型; DOM 是 W3C(万维网联盟)的标准。 DOM 定义了访问 HTML 和 XML 文档的标准: "W3C 文档对象模型 (DOM) 是中立于平台和语言的接口&#xff0…

pdf怎么转换成jpg图片?pdf转图片工具用它就够了

有时候,我们可能需要将pdf文档转换为图片格式,以便于文档的处理和管理。通过将pdf转换为图片,可以将每一页pdf转换为独立的图片文件,便于整理、存储和管理,如果您有多个PDF文件需要转换成图片,可以批量pdf转…

Modern C++ std::bind的实现原理

1. 前言 前面写过《std::function从实践到原理》,管中规豹了std::function的一点点原理,不过还有一个与std::function密切相关的函数std::bind, 允许编程者绑定几个参数,本文着重介绍它的实现原理。不介绍一下它,有点吃肉不吃蒜味…

npm安装卡住问题(最新版)

npm安装卡住问题(最新版) 背景: ​ 最近这两天用npm安装一些包的时候,发现一直卡住: 报错: idealTree:npm: sill idealTree buildDeps之前能用的现在不能用了,我一想,是不是源头的问题,还真是…

C语言每日一题(48)回文链表

力扣 234 回文链表 题目描述 给你一个单链表的头节点 head ,请你判断该链表是否为回文链表。如果是,返回 true ;否则,返回 false 。 示例 1: 输入:head [1,2,2,1] 输出:true示例 2&#xff1…

Redis性能运行参数的监测工具 - WGCLOUD

WGCLOUD是一款开源免费的运维监控平台,可以监测Redis的运行情况,比如redis的Key数量,过期Key数量,Redis的端口号,Redis的版本,同步状态,集群模式,使用内存等等数据 中间件Redis监测…

FinBert模型:金融领域的预训练模型

文章目录 模型及预训练方式模型结构训练语料预训练方式 下游任务实验结果实验一:金融短讯类型分类实验任务数据集实验结果 实验二:金融短讯行业分类实验任务数据集实验结果 实验三:金融情绪分类实验任务数据集实验结果 实验四:金融…

瑞_数据结构与算法_二叉搜索树

文章目录 1 什么是二叉搜索树1.1 二叉搜索树的特征1.2 前驱后继 2 二叉搜索树的Java实现2.1 定义二叉搜索树节点类BSTNode泛型key改进 2.2 实现查找方法get(int key)递归实现非递归实现 ★非递归实现 泛型key版本 2.3 实现查找最小方法min()递归实现非递归实现 ★ 2.4 实现查找…

Django从入门到精通(三)

目录 七、ORM操作 7.1、表结构 常见字段 参数 示例 7.2、表关系 一对多 多对多 第一种方式 第二种方式 7.3、连接MYSQL 7.4、数据库连接池 7.5、多数据库 读写分离 分库(多个app ->多数据库) 分库(单app) 注意…

狗东云搭建幻兽帕鲁(奶妈级别)

使用狗东云搭建幻兽帕鲁 同配置狗东云比腾讯云便宜,2核2G服务器仅50元1年,4核8G服务器458元1年,点击链接直达. 进入页面会跳转到注册,先注册账户,注册好后页面跳转,没有跳转点这里,选择页面左侧…

[AIGC 大数据基础] 浅谈hdfs

HDFS介绍 什么是HDFS? HDFS(Hadoop Distributed File System)是Apache Hadoop生态系统的一部分,是一个分布式文件系统。它被设计用于存储和处理大规模数据集,并且能够容错、高可靠和高性能地处理文件。 HDFS是为了支…

2024转行程序员的请注意:均月薪在40-70k

前言 2023年,对大多数行业来说都是不太好过的一年。 对程序员来说也是如此,很多粉丝朋友都在说android工作特别难找,一个岗位都是几千份简历........大家心里都是特别的焦虑,本以为2024年就业情况会有好转,但实际上并…

PHP - Yii2 异步队列

1. 前言使用场景 在 PHP Yii2 中,队列是一种特殊的数据结构,用于处理和管理后台任务。队列允许我们将耗时的任务(如发送电子邮件、push通知等)放入队列中,然后在后台异步执行。这样可以避免在处理大量请求时阻塞主应用…

[GXYCTF2019]BabySQli1

单引号闭合,列数为三列,但是没有期待的1 2 3回显,而是显示wrong pass。 尝试报错注入时发现过滤了圆括号,网上搜索似乎也没找到能绕过使用圆括号的方法,那么按以往爆库爆表爆字段的方法似乎无法使用了 在响应报文找到一…

ORM-07-querydsl 入门介绍

拓展阅读 The jdbc pool for java.(java 手写 jdbc 数据库连接池实现) The simple mybatis.(手写简易版 mybatis) 1. 介绍 1.1 背景 Querydsl的诞生源于以类型安全的方式维护HQL查询的需求。逐步构建HQL查询需要进行字符串连接,导致代码难以…