论文学习_An Empirical Study of Deep Learning Models for Vulnerability Detection

1. 引言

研究背景:近年来,深度学习漏洞检测工具取得了可喜的成果。最先进的模型报告了 0.9 的 F1 分数,并且优于静态分析器。结果令人兴奋,因为深度学习可能会给软件保障带来革命性的变化。因此,IBM、谷歌和亚马逊等行业公司非常感兴趣,并投入巨资开发此类工具和数据集。

现存问题:尽管深度学习漏洞检测在前景上很有潜力,但目前尚未达到计算机视觉和自然语言处理的水平。目前大部分研究重点是尝试新兴的深度学习模型,并将其应用于类似 Devign 或 MSR 数据集的数据集。然而,对于模型本身,我们了解甚少,例如,模型能否有效处理哪种类型的程序,我们是否应为每种漏洞类型建立模型,或者应该为所有漏洞类型构建一个统一模型,好的训练数据集是什么样的,以及模型在做出决策时使用了哪些信息。了解这些问题的答案可以帮助我们更好地开发、调试和应用模型。然而,考虑到深度学习的黑盒特性,这些问题很难回答。论文的目的不是提供这些问题的完整解决方案,而是探讨这些目标。

科学问题:在本文中,论文对一系列最先进的深度学习漏洞检测模型进行了调查和重现,并建立了研究问题,以便理解这些模型,旨在从中汲取经验教训和指导,以更好地设计和调试未来的模型。论文构建了研究问题,并将其分为三个领域,即模型能力训练数据模型解释。具体来说,论文的首要目标是了解深度学习在漏洞检测问题中的处理能力,特别关注以下研究问题:

  • 问题 1:不同模型在漏洞检测上是否能达成共识?不同模型之间存在哪些差异?
  • 问题 2:某些类型的漏洞是否更容易检测? 应该为每种类型的漏洞构建模型,还是应该构建一个可以检测所有漏洞的模型?
  • 问题 3:是否存在一些模型难以预测的代码模式?如果存在这种代码模式,这是怎样的一种代码模式?

论文的第二项研究重点是训练数据。论文的目标是了解训练数据的规模和组成是否以及如何影响模型性能。具体来说,论文构建了以下研究问题:

  • 问题 4:增加数据集大小是否有助于提高漏洞检测的模型性能?
  • 问题 5:训练数据集中的项目组成如何影响模型的性能?

最后,论文的第三个研究领域是模型解释。 论文使用SOTA模型解释工具来调查:

  • 问题 6:模型用于预测的源代码信息是什么? 模型对重要特征是否一致?

研究内容:为了回答上述问题,论文调查了最先进的深度学习模型,并在它们的原始数据集上成功重现了 11 个模型。这些模型采用了不同的深度学习架构,例如 GNN、RNN、LSTM、CNN 和 Transformers。为了比较这些模型,论文设法让 9 个模型与 Devign 和 MSR 这两个流行的数据集一起运行。论文选择这两个数据集的原因是:(1) 这两个数据集都包含真实世界的项目和漏洞;(2) 大多数论文中的模型都是使用 Devign 数据集进行评估和调优的;(3) MSR 数据集包含 310 个项目,其中数据有漏洞类型的注释,这对我们的研究问题至关重要。通过精心设计的实验和对威胁的考虑,论文发现了 6 个研究问题的结果。总的来说,论文的研究贡献包括:

  • 贡献 1:论文对深度学习漏洞检测模型进行了全面调查。
  • 贡献 2:论文提供了一个代码仓库,其中包含 11 个具有各种研究设置的 SOTA 深度学习框架的训练模型和数据集。
  • 贡献 3:论文设计了 6 个科学问题来理解模型能力、训练数据和模型解释。
  • 贡献 4:论文构建了研究并通过实验获得了所提科学问题的结果。
  • 贡献 5:论文准备了有趣的例子和数据,以进一步研究模型的可解释性。

2. 模型复现

为了收集最先进的深度学习模型,论文研究了 2018 年至 2022 年的论文,并参考了微软的 CodeXGLUE 排行榜以及 IBM 的缺陷检测 D2A 排行榜。论文使用了所有可获取的开源模型,并成功复现了 11 个模型。论文的数据复制包中包含了完整的模型列表,以及我们未能重现某些模型的原因。

如上表所示,复现的模型涵盖了各种深度学习架构。Devign 和 ReVeal 在属性图上使用了 GNN,融合了控制流、数据依赖性和 AST。ReGVD 在 token 上采用了 GNN。Code2Vec 在 AST 上使用了多层感知器 (MLP)。VulDeeLocator 和 SySeVR 则是基于 RNN 和 Bi-LSTM 的序列模型。最近的深度学习检测采用了预训练的 Transformer,包括 CodeBERT、VulBERTa-CNN、VulBERTa-MLP、PLBART 和 LineVul。

针对论文的研究问题,论文选用了 Devign 和 MSR 数据集。论文研究了这 11 个模型在其原始论文中使用的数据集,这些数据集如上表所示。论文发现 Devign 数据集已被用于对 8 个模型进行评估和调整。该数据集是一个平衡数据集,包含大致相同数量的易受攻击和非易受攻击的示例,总共有 27,318 个数据点(每个示例也被称为一个数据点)。LineVul 使用了 MSR 数据集,这是一个近期可用的数据集。该数据集是不平衡的,包含 10,900 个易受攻击的示例和 177,736 个非易受攻击的示例。这些示例具有它们的源项目以及常见弱点枚举(CWE)条目,显示了漏洞的类型。论文利用这些数据集特征来制定一些研究问题。

论文根据原始数据集和设置复现了模型的结果,如上表所示。其中,A、P、R、F 列代表深度学习漏洞检测中常用的指标,包括准确率、精确率、召回率和 F1 分数。论文的复现结果与原始论文相比,通常计算误差在 2% 以内。特殊情况是 ReVeal,作者确认我们的结果纠正了原始论文中的数据泄漏错误,以及 Devign,论文使用了第三方复现代码(Chakaborthy 等人发布的),因为原始 Devign 代码并未开源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/45022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

(8)揭示Python编程精髓:深潜继承与多态的奇幻之旅

目录 1. 命名空间与作用域1.1 命名空间概述1.2 作用域1.2.1 局部作用域1.2.2 全局作用域1.2.3 修改全局变量1.2.4 嵌套作用域 2. 继承3. 多态(Polymorphism) 1. 命名空间与作用域 1.1 命名空间概述 命名空间是一个从名字到对象的映射,它在P…

Qt:19.浮动窗口/子窗口(子窗口介绍、代码方式创建子窗口、设置子窗口标题、为子窗口添加控件、设置子窗口停靠位置)

目录 1.子窗口介绍: 2.代码方式创建子窗口: 3.设置子窗口标题: 4.为子窗口添加控件: 5.设置子窗口停靠位置。 1.子窗口介绍: 在 Qt 中,可以创建和管理子窗口(子窗口体)以实现多窗…

图片怎么制作成长期可用的活码?扫码提供图片预览的制作技巧

现在图片的尺寸和清晰度的质量越来越高,相对应的会占用更多的存储空间,现在很多人会将图片存入云端后,通过生成二维码的方式,扫码来查看图片内容。图片转换二维码有利于将图片分享给其他人查看,还能够节省更多的空间&a…

SpringBoot自己开发一个starter

提示:本文主要讲述如何自行开发一个SpringBoot的starter 文章目录 目录 文章目录 前言 一、Starter是什么 二、创建一个SpringBoot项目 1.创建一个基本的SpringBoot项目 2.选择要下载的库 三、设置项目 1.提示 2.配置pom.xml 3.重点代码 1.创建一个User类…

16.x86游戏实战-汇编指令push pop pushad popad

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 工具下载: 链接:https://pan.baidu.com/s/1rEEJnt85npn7N38Ai0_F2Q?pwd6tw3 提…

【第29章】MyBatis-Plus之分页插件

文章目录 前言一、支持的数据库二、配置方法三、属性介绍四、自定义 Mapper 方法中使用分页五、其他注意事项六、Page 类七、实战1. 配置类2. 分页类3. 测试 总结 前言 MyBatis-Plus 的分页插件 PaginationInnerInterceptor 提供了强大的分页功能,支持多种数据库&a…

Windows电脑安装Python结合内网穿透轻松搭建可公网访问私有网盘

文章目录 前言1.本地文件服务器搭建1.1.Python的安装和设置1.2.cpolar的安装和注册 2.本地文件服务器的发布2.1.Cpolar云端设置2.2.Cpolar本地设置 3.公网访问测试4.结语 前言 本文主要介绍如何在Windows系统电脑上使用python这样的简单程序语言,在自己的电脑上搭建…

电力需求预测挑战赛笔记 Taks1 跑通baseline

#AI夏令营 #Datawhale #夏令营 赛题 一句话介绍赛题任务可以这样理解赛题: 【训练时序预测模型助力电力需求预测】 电力需求的准确预测对于电网的稳定运行、能源的有效管理以及可再生能源的整合至关重要。 赛题任务 给定多个房屋对应电力消耗历史 N 天的相关序列数…

09.AOP-尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解)

现有代码缺陷 针对带日志功能的实现类,我们发现有如下缺陷: 对核心业务功能有干扰,导致程序员在开发核心业务功能时分散了精力附加功能分散在各个业务功能方法中,不利于统一维护 解决思路 解决核心:解耦。把附加功能从…

从零开始读RocketMq源码(三)Broker存储Message流程解析

目录 前言 准备 消息载体CommitLog 文件持久化位置 源码解析 broker消息对象MessageExtBrokerInner 异步存储message CommitLog的真相 创建MappedFile文件 加入异步刷盘队列 Message异步存储MappedByteBuffer 总结 前言 在面试中我们经常会听到这样的回答&#x…

国产化趋势下源代码数据防泄密的信创沙盒的方案分享

随着国产化的大力推进,越来越多的企事业单位在逐步替换Windows、Linux等操作系统的使用。那么什是国产化了?国产化是指在产品或服务中采用国内自主研发的技术和标注,替代过去依赖的他国的产品和服务,国产化又被称之为“信创”&…

GitLab CI/CD实现项目自动化部署

1 GitLab CI/CD介绍 GitLab CI/CD 是 GitLab 中集成的一套用于软件开发的持续集成(Continuous Integration)、持续交付(Continuous Delivery)和持续部署(Continuous Deployment)工具。这套系统允许开发团队…

vue里实现点击按钮回到页面顶部功能,博客必备!

效果 步骤 1-标签结构 动态绑定样式style&#xff0c;监听点击事件&#xff0c;后续控制opacity透明度。和滚动距离 <div class"toTop" :style"dynamicStyles" click"toTop"><!--<i class"fa fa-arrow-up"></i>…

超简单的通配证书签发工具,免费,无需安装任何插件到本地

常见的acme.sh 或者 lego等工具需要配置&#xff0c;安装不灵活&#xff0c;续签需要配置计划任务&#xff0c;签发单域名证书或者通配证书需要不同的指令和配置&#xff0c;繁琐&#xff0c;如果自己程序想要对接签发证书的api有的不支持&#xff0c;有的用起来繁琐。 最近发…

【VIVADO SDK调试遇到DataAbortHandler】

问题 SDK调试遇到DataAbortHandler问题。 运行后不显示结果&#xff0c;debug模式下发现进入DataAbortHandler异常函数。程序中存在大数组。 原因:SDK默认的堆栈为1024bytes,需要将堆栈调大。 修改方法&#xff1a; 解决:对application中src下的lscript.ld双击&#xff0c;…

Linux 程序卡死的特殊处理

一、前言 Linux环境。 我们在日常编写的程序中&#xff0c;可能会出现一些细节问题&#xff0c;导致程序卡死&#xff0c;即程序没法正常运行&#xff0c;界面卡住&#xff0c;也不会闪退... 当这种问题出现在客户现场&#xff0c;那就是大问题了。。。 当我们暂时还无法排…

如何定量选择孔销基准?-DTAS来帮你!

在当今快速发展的工程领域&#xff0c;公差仿真的作用日渐重要&#xff0c;在公差仿真中&#xff0c;基准体系的选择对于最终结果更是至关重要。基准体系不同可能导致仿真过程中的参数计算、误差分析以及最终的工程设计都有所不同。基准体系作为评估和比较的参照&#xff0c;直…

Suricata引擎二次开发之命中规则定位

二开背景 suricata是一款高性能的开源网络入侵检测防御引擎&#xff0c;旨在检测、预防和应对网络中的恶意活动和攻击。suricata引擎使用多线程技术&#xff0c;能够快速、准确地分析网络流量并识别潜在的安全威胁&#xff0c;是众多IDS和IPS厂商的底层规则检测模块。 前段时间…

强制升级最新系统,微软全面淘汰Win10和部分11用户

说出来可能不信&#xff0c;距离 Windows 11 正式发布已过去整整三年时间&#xff0c;按理说现在怎么也得人均 Win 11 水平了吧&#xff1f; 然而事实却是&#xff0c;三年时间过去 Win 11 占有率仅仅突破到 29%&#xff0c;也就跳起来摸 Win 10 屁股的程度。 2024 年 6 月 Wi…

【Linux】磁盘性能压测-FIO工具

一、FIO工具介绍 fio&#xff08;Flexible I/O Tester&#xff09;是一个用于评估计算机系统中 I/O 性能的强大工具。 官网&#xff1a;fio - fio - Flexible IO Tester 注意事项&#xff01; 1、不要指定文件系统名称&#xff08;如/dev/mapper/centos-root)&#xff0c;避…