合合信息:探索视觉内容安全新前沿

2024年12月13日-15日,中国图象图形学学会在杭州召开。大会期间,来自合合信息的图像算法研发总监郭丰俊进行了主题为“视觉内容安全技术的前沿进展与应用”的演讲,介绍了视觉内容安全问题,并总结了现今的技术发展,对我很有启发。

近年来视觉技术的大幅发展,为我们工作生活带来便利的同时,也产生了一系列安全问题。由于AI技术导致伪造更容易,黑灰产引起许多社会问题以及企业或政府的刚性需求,视觉安全需求急剧增加。目前视觉内容安全技术分为主动鉴别和被动鉴别两种。主动鉴别可以鉴别无横机篡改和溯源,主要应用于产权保护、伪造检测和伪造溯源。而被动鉴别则可以不借助数字水印进行工作,支持更多的图像类型,主要应用于卡证防伪、文档票据伪造检测、AIGC图判别和伪造人脸检测。、

目前市面上的视觉安全产品也有很多,比如英特尔实验室的FakeCatcher、微软的Azure AI Face X-Ray、亚马逊的Amazon Rekognition,它们都在特定领域获得了一定的影响力。虽然技术有巨大突破,但视觉安全算法仍然存在一些挑战。比如跨域泛化问题,它会让知识成本和维护成本大幅提高。又比如纯色背景图篡改且无明显视觉异常的检测,它比普通图像更难以检测。再比如图象质量退化的场合,它会造成篡改痕迹不可逆损失。还有检出精度与误检率矛盾,如何保证高检出,极低误判率是设计模型中的一大难点。

合合信息也推出了自研的AI安全产品,它支持常见卡证、票据等伪造检测,也支持AIGC人脸伪造鉴别,并且能定位篡改区域。

合合内容安全系统不仅在通用类PS检测模型技术想当成熟,已在证券、保险、银行、零售等多个行业落地,而且在人脸鉴伪上也有很好的效果。

在ICDAR23-DTT比赛和全球AI攻防挑战赛——AI核身之金融场景凭证篡改检测上获得第一名好成绩。

不仅如此,合合信息还深度参与到产业发展之中。2024年10月,合合信息发起和参与编制的《文本图像篡改检测系统技术要求》发布,它标准围绕伪造图像鉴别、生成式图像判别等议题,凝聚行业共识,为行业提供有效指引。

目前内容安全系统还存在许多的需求方向,比如图像篡改检测,主要指利用PS加工图像或AI生成图片,包括身份证照造假、业务合同造假、资质证明造假、财务票据造假、其他材料造假等场景。以及人脸伪造检测,主要指利用照片活化、AI换脸或局部替换伪造人脸,包括身份认证、远程银行、在线开户、资金划拨、贷款申请和信用卡申请等场景。还有声纹伪造,主要指利用语音合成、语音转换、对抗攻击或重放攻击伪造声音,包括电话银行欺诈、APP资金划拨和伪造身份骗贷等场景。合合信息也一直在跟进这些需求,并积极将相关技术落地。

CVPR 23上,有文章利用频率感知头来弥补视觉特征不显著时的问题,并采用多视图迭代解码器MID来利用不同尺度的特征信息,基于ViT+DCT实现了篡改检测,可以检测部分无痕篡改。

AAAI 25上有论文利用Texture Jitter 提升细粒度感知,同时轻微抖动图像纹理,增广训练数据,引导引擎检测纹理的异常而不是具体的篡改表现。并且提出学习和分析特征之间的差异,而不仅是输入内容的特征的框架,提高对未见过篡改的检测性能。这个模型能够提升open-set中泛化能力,即训练集未见过种类样本,测试性能不显著下降。

尽管模型的性能有了很大的提升,但它依然面临诸多挑战。首先它易受攻击,比如缩放,传输过程可能会导致模型性能下降。其次它的泛化能力待提高,在特定场景和数据集上表现优异,但面对未知的伪造手段或多样化的应用场景时无法保持较高的检测精度。再者,由于伪造手段变化很快快,模型的维护成本很高。最后,数据获取与标注成本十分高昂,高质量的标注可能涉及隐私保护,进一步增加了获取难度。所以合合信息选择了基于大模型技术的探索方向。一方面可利用多模态信息提高准确率。并且,大模型适用于处理未见过新类别,性能下降少,提供了很好的泛化能力。其次,使多场景、类别共用一个系统能够降低使用门槛。同时,可通过交互注入知识,优化结果,便于知识注入。

基于这种理念诞生的ForgeryGPT模型,通过将伪造图像真假二分类及篡改区域的定位交给小模型处理。当小模型确定篡改位置后,将结果提示给大模型,再利用大模型自然语言解释异常区域。这种混合模型获得了更好的性能和更广泛的适应性。

在视觉内容安全日益受到重视的未来,含文字的视觉内容仍然有不少问题待解决,值得研究。同时视觉内容安全防护还应进行整体规划,做到从业务各环节考虑和协同,使方案更高效,更经济。整个行业内要去制定一套标准,以促进内容安全系统的更好落地。而厂家可以考虑主动、被动融合,增加内容系统有效性。在这之中,大模型等新技术的应用具有很大的潜力。合合信息会继续优化产品,为全球企业和个人用户提供创新的数字化、智能化服务。目前合合信息通用篡改检测平台和人脸伪造检测平台已登录TextIn开放平台并开放体验,感兴趣的小伙伴不妨亲自试用一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/65031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【JetPack】Navigation知识点总结

Navigation的主要元素&#xff1a; 1、Navigation Graph&#xff1a; 一种新的XML资源文件,包含应用程序所有的页面&#xff0c;以及页面间的关系。 <?xml version"1.0" encoding"utf-8"?> <navigation xmlns:android"http://schemas.a…

教师如何打造专属私密成绩查询系统?

期末的校园&#xff0c;被一种特殊的氛围所笼罩。老师们如同辛勤的工匠&#xff0c;精心打磨着每一个教学环节。复习阶段&#xff0c;他们在知识的宝库中精挑细选&#xff0c;把一学期的重点内容一一梳理&#xff0c;为学生们打造出系统的复习框架。课堂上&#xff0c;他们激情…

专栏二十三:Python读取和分析空间数据的经验杂谈

部分情况同样适合单细胞的分析结果 读取数据阶段 1.错误的library_id 包括sc和sq的两种读取方式&#xff0c;大同小异。 理论上有h5数据和spatial文件夹就可以读取成功&#xff0c;并且自动赋予和文件名一样的library_id&#xff0c;例如 slide sq.read.visium("/ho…

如何在谷歌浏览器中启用语音搜索

想象一下&#xff0c;你正在拥挤的地铁上&#xff0c;双手都拿着沉重的购物袋&#xff0c;突然你想搜索附近的咖啡馆。此时如果你能通过语音而不是打字来进行搜索&#xff0c;那将多么的便利&#xff01;在谷歌浏览器中&#xff0c;启用语音搜索功能就是这么简单而高效&#xf…

GCP GCA认证考试Case错题库1(JenciMart+Helicopter+EHR)

GCP GCA认证考试Case错题库1(JenciMartHelicopterEHR) 整理by Moshow郑锴https://zhengkai.blog.csdn.net/ JenciMart 在生产和开发资源之间进行管理职责分离的最小权限模型中&#xff0c;最佳实践是每个应用程序的每个阶段都有自己的项目。这种设置确保权限是细化的&#xf…

MySQL HA 方案 MMM、MHA、MGR、PXC 对比

MySQL高可用架构 MMM (Multi Master Replication Manager) 资源数量说明主DB2用于主备模式的主主复制从DB0~N台可以根据需要配置N台从服务器IP地址2n1N为MySQL服务器的数量监控用户1用户监控数据库状态的MySQL用户(replication)代理用户1用于MMM代理端改变read_only状态 故障…

java12.24日记

运算符&#xff1a; 算术运算符&#xff1a; 顾名思义进行算数运算的 多为&#xff1a;四则运算&#xff0c;加一个取余 &#xff0c;-&#xff0c;*&#xff0c;/以及 %&#xff08;取余&#xff09; 而外的&#xff1a;自增 以及自减--&#xff0c;对原数进行1或者-1 i…

SAP SD销售订单处理流程

本篇博文中的流程&#xff1a; 创建销售订单→依据销售订单创建交货单→依据销售订单开票 一、VA01创建销售订单 1、填入必填项&#xff0c;回车。可点击左上角的依照参考创建按钮。 依照参考创建可以参考以下6个。其中询价单、报价单、订单、合同和计划协议可以理解为特殊的…

怎么设置电脑密码?Windows和Mac设置密码的方法

为电脑设置密码是保护个人信息安全的重要措施。无论是Windows系统还是MacOS系统&#xff0c;设置密码的步骤都相对简单&#xff0c;但需要根据不同的操作系统选择不同的方法。 一、Windows系统电脑密码设置 方法一&#xff1a;通过控制面板设置账户密码 点击桌面左下角的“开…

机器学习DAY3 : 线性回归与最小二乘法与sklearn实现 (线性回归完)

线性回归 线性回归是一种较为简单&#xff0c;但十分重要的机器学习方法。掌握线性的原理及求解方法&#xff0c;是深入了解线性回归的基本要求。除此之外&#xff0c;线性回归也是监督学习回归部分的基石&#xff0c;希望你能通过本文掌握机器学习的一些重要的思想。 知识点…

Linux下编译安装Kokkos

本文记录在Linux下编译安装Kokkos的流程。 零、环境 操作系统Ubuntu 22.04.4 LTSVS Code1.92.1Git2.34.1GCC11.4.0CMake3.22.1oneAPI2024.2.1 一、安装依赖 二、编译安装 参考文献 Mills R T. PETSc/TAO Developments for Early Exascale Systems[J]. 2024.Josef R. A Stud…

eMMC 存储分区结构解析

一、eMMC 存储分区结构图 分区 用途 Boot Area Partitions 存储引导加载程序&#xff0c;支持安全启动和恢复模式 RPMB Partition 存储安全关键数据&#xff0c;防止重放攻击 General Purpose Partitions OEM 自定义数据分区&#xff0c;用于特定功能或镜像存储 User D…

攻防世界web第一题

最近开始学习网络安全的相关知识&#xff0c;开启刷题&#xff0c;当前第一题 题目为攻防世界web新手题 这是题目 翻译&#xff1a;在这个训练挑战中&#xff0c;您将了解 Robots_exclusion_standard。网络爬虫使用 robots.txt 文件来检查是否允许它们对您的网站或仅网站的一部…

大恒相机开发(2)—Python软触发调用采集图像

大恒相机开发&#xff08;2&#xff09;—Python软触发调用采集图像 完整代码详细解读和功能说明扩展学习 这段代码是一个Python程序&#xff0c;用于从大恒相机采集图像&#xff0c;通过软件触发来采集图像。 完整代码 咱们直接上python的完整代码&#xff1a; # version:…

记一次某企业管理系统通用SQL注入挖掘

更多视频教程可看主页和专栏 目录: 一、资产发现 二、通用漏洞挖掘 三、通用漏洞经验总结 一、资产发现 通过漏洞挖掘过程中发现该系统存在sql注入 1.二话不说先来个单引号显示 ‘011111111111111’’) ) 再来一个单号试一试可不可以把他闭合掉 换成报错注入的poc 发现右边…

Mybatis 如何复用 SQL

比如你的Mapper是这样写的&#xff1a; 但这个接口是没有分页的&#xff0c;你还想再写一个有分页的查询接口&#xff0c;两个接口SQL一模一样&#xff0c;只是多了分页特性。你可以直接重载一个方法&#xff0c;增加分页参数&#xff0c;即可复用该SQL。如下&#xff1a;

Redis 介绍和安装

个人主页&#xff1a;C忠实粉丝 欢迎 点赞&#x1f44d; 收藏✨ 留言✉ 加关注&#x1f493;本文由 C忠实粉丝 原创 Redis 入门介绍 收录于专栏[redis] 本专栏旨在分享学习Linux的一点学习笔记&#xff0c;欢迎大家在评论区交流讨论&#x1f48c; 本章将带领读者进入 Redis 的世…

快速解决VRay渲染慢问题

在3D设计与渲染领域&#xff0c;VRay渲染器无疑是一款强大且广泛使用的工具&#xff0c;但很多小伙伴在使用它进行 CPU 渲染时&#xff0c;都遇到过速度慢得让人抓狂的情况。今天&#xff0c;我就来给大家分享两套切实可行的解决方案。 当我们将 VRay渲染器与 DMAX或Maya搭配使…

《庐山派从入门到...》PWM板载蜂鸣器

《庐山派从入门到...》PWM板载蜂鸣器 配置PWM模块控制板载无源蜂鸣器播放【一闪一闪亮晶晶】播放do re mi 《庐山派从入门到...》PWM控制无源蜂鸣器 PWM&#xff08;Pulse Width Modulation&#xff0c;脉宽调制&#xff09;是一种在嵌入式系统中常用的技术&#xff0c;它可以用…

2024-12-24 NO1. XR Interaction ToolKit 环境配置

文章目录 1 软件配置2 安装 XRToolKit3 配置 OpenXR4 安装示例场景5 运行测试 1 软件配置 Unity 版本&#xff1a;Unity6000.0.26 ​ 2 安装 XRToolKit 创建新项目&#xff08;URP 3D&#xff09;&#xff0c;点击进入 Asset Store。 进入“Unity Registry”页签&#xff0…