论文阅读-Transformer-based language models for software vulnerability detection

 「分享了一批文献给你,请您通过浏览器打开
https://www.ivysci.com/web/share/biblios/D2xqz52xQJ4RKceFXAFaDU/
您还可以一键导入到 ivySCI 文献管理软件阅读,并在论文中引用 」

本文主旨:本文提出了一个系统的框架来利用基于Transformer的语言模型来检测软件漏洞。该框架包括以下几个步骤:

1. 源代码翻译:将C/C++高级编程语言的源代码转换为能输入transformer的格式。这样做是为了利用自然语言与高级编程语言之间的相似性。

2. 模型准备:使用大规模的基于Transformer的语言模型进行训练和微调。其中,本文主要考虑了BERT (Bidirectional Encoder Representations from Transformers) 模型和GPT (Generative Pre-trained Transformer) 模型。

3. 推断:将经过翻译的源代码注释片段输入到训练好的语言模型中,以进行软件漏洞的检测。语言模型将根据上下文理解注释和代码的关系,并判断是否存在潜在的漏洞。

通过这个框架,可以利用Transformer-based语言模型来自动检测软件漏洞,并且相比传统的基于RNN的模型,语言模型在漏洞检测方面具有更好的性能表现。

本文的创新点

简而言之就是,将软件的源代码转换成自然语言,通过transformer来推断源代码有没有漏洞。


本文的行文结构是以回答以下问题展开的:

RQ1:利用基于转换器的语言模型进行软件漏洞检测的系统框架是什么?

RQ2:与其他当代基于rnn的模型相比,现有的基于transformer的语言模型在检测软件漏洞方面表现如何?

RQ3:哪个平台能高效运行这些模型?

我比较关心数据转换,即源代码是怎么一步步转换成可以输入到transformer的word embedding模式的

数据转换:

第一步是将源代码转换为代码gadget。


 

1. 数据清洗:由于代码gadgets来自多个来源,数据集中可能存在重复的代码gadgets。数据清洗阶段会处理两个问题:

(i) 相同标签下的重复代码gadgets,这些重复的数据可能会影响测试集的泄露;

(ii) 不同标签下的重复代码gadgets,这些数据可能会对模型的训练和测试产生负面影响。为了清理数据集,首先使用SHA256哈希算法将所有的代码gadgets映射为哈希值,以便找到重复的代码gadgets。采用哈希方法查找重复数据的速度比正则表达式或简单字符串比较方法更快。对于存在标签冲突的代码gadgets,将其全部移除;对于相同标签下的重复代码gadgets,只保留其中的一份。清洗后的数据集详见论文中的表格。

2. 数据预处理:首先,将代码gadgets中的注释移除。其次,将用户自定义的名称替换为符号等价物。例如,将用户自定义的函数名称替换为"FUNC"(或者使用连续的自然数作为后缀,如"FUNC_1"、"FUNC_2"等,以区分多个函数);将用户赋值的变量名称替换为"VAR"(或者使用连续的自然数作为后缀,如"VAR_1"、"VAR_2"等,以区分多个变量)。通过这种方式使代码gadgets标准化。最后,根据可用的漏洞创建数据子集。例如,从数据集中创建包含缓冲区错误(BE)及其非易受攻击版本,以及资源管理错误(RME)及其非易受攻击版本的两个数据集。针对二分类和多分类实验,分别按以下方式分配标签: - 对于二分类标签,分别针对每一种漏洞进行实验,如BE和RME数据集。如果代码gadgets具有漏洞,则标签为"1",否则为"0"。 - 对于多分类标签,针对多个漏洞的并集进行实验。将"0"标签分配给非易受攻击的数据,其余标签依次递增,根据数据中可用的漏洞类型进行标记。例如,在VulDeePecker数据集中,具有BE、RME和非易受攻击的代码gadgets分别标记为"1"、"2"和"0"。

3. 数据集划分:在数据预处理步骤之后,将数据集划分为多个组进行实验。例如,VulDeePecker数据集划分为三个组:

Group 1 包含BE及其非易受攻击的代码gadgets,Group 2 包含RME及其非易受攻击的代码gadgets,Group 3 包含BE、RME及其非易受攻击的代码gadgets。对于二分类实验,分别使用 Group 1 和 Group 2 的数据集;对于三分类实验,使用 Group 3 的数据集。数据集按照 80:20 的比例划分为训练集和测试集。并采用三折交叉验证的方式,在测试集上呈现综合结果。 

第二步是将文本将处理过的代码gadgets用来做词嵌入

​​​​​​​将代码中的单词映射到预先定义的词向量空间,从而捕捉单词在代码中的含义和上下文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/670431.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kubernetes实战(二十五)-快速下载k8s.gcr.io,gcr.io,quay.io镜像

1 背景 在云计算和云原生的环境下,不可避免的会使用很多镜像创建容器,其中有些镜像只有谷歌镜像仓库才有,但是国内不可以直接下载谷歌仓库的镜像,下面推荐几种方法, k8s.gcr.io/gcr.io 是谷歌的镜像仓库,…

LaTeX基本公式语法

Markdown支持通过LaTeX插入复杂的数学公式。 行内公式与块级公式 行内公式:使用一对美元符号$...$标记: 欧拉公式可以表示为 e i π 1 0 e^{i\pi} 1 0 eiπ10,这是一个著名的等式。 块级公式:使用一对双美元符号$$...$$标记…

宠物空气净化器适合养猫家庭吗?除猫毛好的猫用空气净化器推荐

宠物掉毛是一个普遍存在的问题,尤其在脱毛季节,毛发似乎无处不在。这给家中的小孩和老人带来了很多麻烦,他们容易流鼻涕、过敏等不适。此外,宠物有时还会不规矩地拉扯和撒尿,这股气味实在是难以忍受。家人们对宠物的存…

Java——Arrays常用方法

Arrays常用方法 Java 中的 Arrays 类提供了一系列静态方法,可以用来操作数组。 1. sort() 方法——默认升序排序 Arrays.sort() 方法用于对数组进行排序。该方法有多个重载版本,可以对不同类型的数组进行排序。 public static void sort(int[] arr) …

算法学习——LeetCode力扣哈希表篇2

算法学习——LeetCode力扣哈希表篇2 454. 四数相加 II 454. 四数相加 II - 力扣(LeetCode) 描述 给你四个整数数组 nums1、nums2、nums3 和 nums4 ,数组长度都是 n ,请你计算有多少个元组 (i, j, k, l) 能满足: 0 …

Springboot启动出现Waiting for changelog lock...问题

今天在开发的时候,Springboot启动的时候出现Waiting for changelog lock…问题. 问题原因:该问题就是发生了数据库的死锁问题,可能是由于一个杀死的liquibase进程没有释放它对DATABASECHANGELOGLOCK表的锁定,导致服务启动失败&…

我的世界Java版服务器如何搭建并实现与好友远程联机Minecarft教程

文章目录 1. 安装JAVA2. MCSManager安装3.局域网访问MCSM4.创建我的世界服务器5.局域网联机测试6.安装cpolar内网穿透7. 配置公网访问地址8.远程联机测试9. 配置固定远程联机端口地址9.1 保留一个固定tcp地址9.2 配置固定公网TCP地址9.3 使用固定公网地址远程联机 本教程主要介…

项目中日志采集实践:技术、工具与最佳实践

目录 引言 一. 选择合适的日志框架 二. 配置日志框架 三. 使用适当的日志级别 1、日志级别概述 2、选择适当的日志级别 (这里以logbkck为例) 3、动态调整日志级别 四、 结合日志上下文信息 1. 使用 SLF4J MDC 2. 使用 Log4j 2 的 ThreadContext…

「深度学习」循环神经网络RNN

一、序列模型的例子 二、数学符号定义 X^{(i)<t>}&#xff1a;训练样本 i 的输入序列的第 t 个元素。 T_{X}^{i}&#xff1a;训练样本 i 的输入序列的长度。 Y^{(i)<t>}&#xff1a;训练样本 i 的输出序列的第 t 个元素。 T_{Y}^{i}&#xff1a;训练样本 i 的输…

Error: Unable to authenticate using the provided code. Please try again.

今天弄这个firebase cli的时候一直登陆不进去 都到了最后一步了&#xff0c;但是输入完code还是不成功 原来是因为开了梯子&#xff0c;代理不成功&#xff0c;要在 复制命令到对应的窗口粘贴就行&#xff0c;然后重复之前的命令就行 我复制出来的命令是 set http_proxyhttp…

leetcode-移动零

283. 移动零 题解&#xff1a; 使用双指针法&#xff08;快慢指针&#xff09;&#xff0c;快指针指向的数字不为0的时候&#xff0c;将这个数字移到慢指针的地方&#xff0c;最后在后面补0即可 class Solution:def moveZeroes(self, nums: List[int]) -> None:"&qu…

C++枚举算法(3)

我家的门牌号 题目描述&#xff1a; 我家住在一条短胡同里&#xff0c;这条胡同的门牌号从1开始顺序编号。 若所有的门牌号之和减去我家门牌号的两倍&#xff0c;恰好等于n&#xff0c;求 我家的门牌号及总共有多少家。 数据保证有唯一解。 输入 一个正整数n。n < 100000。…

如何创建一个微服务项目(maven聚合)

如何创建一个微服务项目 1.创建一个仓库&#xff08;推荐gitee&#xff09; 2.clone到本地 3.打开项目 4.创建module&#xff0c;将模块分别创建 5.复制其中一个pom.xml文件到总目录下 6.在总pom.xml文件中进行maven聚合 <?xml version"1.0" encoding&quo…

MySQL 表的设计

1.设计一个考勤系统 考勤系统&#xff0c;包含员工表&#xff0c;考勤记录表 create table emp(id int primary key,name varchar(20) );create table info(id int primary key,emp_id int,info_date timestamp,foreign key (emp_id) references emp(id) ); 设计一个学校宿舍…

Spring MVC跨域设置

简介 出于安全方面考虑&#xff0c;浏览器发起请求时&#xff0c;会先检查同源策略&#xff08;协议、主机、端口是否与当前页面相同&#xff09;&#xff0c;不匹配则认为是跨域请求。 CORS (Cross-Origin Resource Sharing) CORS是一种机制&#xff0c;允许服务器声明哪些…

解决hive表新增的字段查询为空null问题

Hive分区表新增字段&#xff0c;查询时数据为NULL的解决方案 由于业务拓展&#xff0c;需要往hive分区表新增新的字段&#xff0c;hive版本为2点多。 于是利用 alter table table_name add columns (col_name string )新增字段&#xff0c;然后向已存在分区中插入数据&#x…

代码解析:list.stream().filter(Objects::nonNull).collect(Collectors.toList())

这段Java代码是使用了Java 8引入的流(Stream) API来处理集合&#xff08;比如List&#xff09;。这个特定的例子展示了如何从一个列表中过滤掉所有的null值&#xff0c;并返回一个新的列表&#xff0c;其中不包含任何null元素。下面是对这段代码的逐步解析&#xff1a; 代码解…

2024 年十大 Vue.js UI 库

Vue.js 是一个流行的 JavaScript 框架&#xff0c;它在前端开发者中越来越受欢迎&#xff0c;以其简单、灵活和易用性而闻名。 Vue.js 如此受欢迎的原因之一是它拥有庞大的 UI 库生态系统。 这些库为开发人员提供了预构建的组件和工具&#xff0c;帮助他们快速高效地构建漂亮…

Canny边缘检测

开发环境&#xff1a; Windows 11 家庭中文版Microsoft Visual Studio Community 2019VTK-9.3.0.rc0vtk-example demo解决问题&#xff1a;实现了Canny边缘检测算法的图像处理过程。 图像处理过程&#xff1a; 亮度提取&#xff08;vtkImageLuminance&#xff09;图像类型转换…

RFID手持终端_智能pda手持终端设备定制方案

手持终端是一款多功能、适用范围广泛的安卓产品&#xff0c;具有高性能、大容量存储、高端扫描头和全网通数据连接能力。它能够快速平稳地运行&#xff0c;并提供稳定的连接表现和快速的响应时&#xff0c;适用于医院、物流运输、零售配送、资产盘点等苛刻的环境。通过快速采集…