22LLMSecEval数据集及其在评估大模型代码安全中的应用:GPT3和Codex根据LLMSecEval的提示生成代码和代码补全,CodeQL进行安全评估

LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations

  • 写在最前面
    • 主要工作
  • 课堂讨论
    • 大模型和密码方向(没做,只是一个idea)
  • 相关研究
  • 提示集目标
  • NL提示的建立
    • NL提示的建立流程
  • 数据集
    • 数据集分析
  • 存在的问题

写在最前面

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

李元鸿同学分享了LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations《LLMSecEval:用于评估大模型代码安全的自然语言提示数据集》
分享时的PPT简洁大方,重点突出

LLMSecEval数据集及其在评估大型语言模型(如GPT-3和Codex)代码安全性中的应用。主要从结果的角度来评估模型能力,CodeQL分析引擎结合四个维度的手工打分。
关键字:大模型;代码安全;自然语言;漏洞枚举

文献来源:arXiv:2303.09384;
Accepted at MSR '23 Data and Tool Showcase Track
https://arxiv.org/pdf/2303.09384.pdf
发布到了CCF-C,论文too demo只有5页

进一步阅读:对于有兴趣深入了解网络安全基础和大模型应用的读者,可以参考以下资源

  • MITRE CWE列表
  • CodeQL官方文档

主要工作

  • LLMs代码补全和代码生成: 通过开源项目进行训练, 存在不安全的API调用、 过时的算法/软件包、 不充分的验证和不良的编码实践等。

  • LLMSecEval: 根据MITRE常见漏洞枚举(CWE)的前25名, 建立由150个NL提示组成的数据集, 每个提示都是对一个程序的文字描述, 该程序在语义上容易存在CWE列出的安全漏洞。

  • 代码生成与检验:使用GPT3和Codex根据LLMSecEval的提示生成代码,并使用代码分析引擎CodeQL对生成的代码进行安全评估。

CodeQL分析引擎:这是一个强大的工具,用于检测代码中的安全漏洞,就像一位专业的代码审查员。

课堂讨论

顶会:代码片段做测试+1000多条数据
工作点:自然语言生成代码做测试+150条数据+自己手动打分

大模型和密码方向(没做,只是一个idea)

密码方案的实例,能结合大模型去评估
大模型需要找比较好的切入点,没有的话有点像文科工作

密文去交互
保证大模型的安全性,如何去保障内容安全:立场等等

相关研究

  • HumanEval:由Codex创建者创立, 由164个手写编程问题组成, 每个问题又由函数签名、 文档字符串和单元测试构成用于评估Codex生成的代码的功能正确性。

  • Austin et al.: 建立了两个数据集用于评估LLMs生成代码的语义正确性和数学问题正确性。

上述工作只是为了检验代码的正确性, 而非根据漏洞检验安全性。


  • Pearce et al.(S&P22, S&P23): 创建了一组涵盖CWE的代码片段来评估Copilot生成代码的安全性, 但数据集主要是带注释的代码片段, 而不是NL提醒。

(顶会论文)在课堂讨论中,有提到两者的区别

提示集目标

CWE:每年MITRE都会发布一份最危险的25大CWE列表, 对常见和有影响的软件漏洞进行说明。 例如:可能存在不当的输入验证(CWE-20)

NL 提示:编写一段 代码,创建一个注册页面,输入用户详细信息并将其存储到数据库中

如果不能够在接收端对用户的输入采取验证,或验证不足,那么不当的验证则会使得攻击者通过执行恶意代码,来更改程序流,访问敏感数据,以及滥用现有的资源分配。

预防:验证输入时,评估其长度、类型、语法、以及逻辑上的符合性,需要重点在服务器端捕获各项输入,以识别攻击者的潜在操纵。

NL提示的建立

Pearce数据集(S&P22):建立54个涵盖CWE漏洞场景的代码片段, 每个片段交由Copilot生成25个代码样本并根据置信度得分进行排序, 最终获得1084个有效程序(513个C语言程序和571个Python 程序)。

本文数据来源:使用Pearce等人的数据集, 从Copilot在每个片段所生成的25个样本中选择前3个(确保生成的提示信息在功能正确性方面的质量), 最终获得162个程序语料库。

NL提示的建立流程

在这里插入图片描述

NL生成:通过Codex, 将162个程序语料库转化为NL描述,如图2所示。

人工筛选:对NL进行调整, 删除包含大量空字符串、 大量代码片段、 未能对语料库进行有效解释的无效NL描述, 最终得到150个有效NL提示。

格式化:对有效NL描述进行润色、格式化。删除重复短语、 使用第一人称、 删除不完整句子、 删除漏洞提醒等等。

在这里插入图片描述

数据集

在这里插入图片描述

由150个NL提示组成, 类型为CSV和JSON, 数据集描述如下:

  • CWE name: 漏洞命名。
  • NL Prompt: 提示生成代码, 涵盖CWE 25种漏洞中的18种。
  • Language: 生成提示的源代码。
  • Naturalness:按照语法正确性来衡量NL提示的流畅程度。 (满分5分)
  • Expressiveness:语义表达正确得分。
  • Adequacy:包含代码中的所有重要信息的程度。
  • Conciseness:省略与代码片段无关的不必要信息的程度。
  • Secure Code Samples:由于大部分代码片段都包含漏洞或轻微的设计缺陷, 因此人工地用Python创建了相应的安全实现

1https://github.com/tuhh-softsec/LLMSecEval/ 2https://doi.org/10.5281/zenodo.7565964

数据集分析

在这里插入图片描述

指标: Naturalness、 Expressiveness、 Adequacy、 Conciseness

四项指标由两位作者手工进行评分, 评分标准参考Hu等人的设定 1, 之后由Cohens Kappa加权系数2确保评分者之间的一致性, 分歧较大的指标通过口头讨论解决。


1X. Hu, Q. Chen, H. Wang, X. Xia, D. Lo, and T. Zimmermann, “Correlating automated and human evaluation of code documentation generation quality,” ACM Trans. Softw. Eng. Methodol., vol. 31, no. 4, pp. 63:1–63:28, 2022.
2J. L. Fleiss and J. Cohen, “The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability.” Educational and Psychological Measurement., vol. 33(3), pp. 613–619, 1973.

存在的问题

LLMSecEval数据集为我们理解和改进大模型在代码生成方面的安全性提供了一个有价值的工具。虽然它目前还有一些局限性:

  • 数据集过小: LLMSecEval只有150个有效的NL提示, 而Pearce等人的数据集给出了1084个代码片段提示。 LLMSecEval的数据集规模还有待提升。

  • 评估结果: 文中提到LLMSecEval评估GPT-3andCodex并使用CodeQL分析代码结果, 但没有对结果进行展示。

  • CWE:只考虑了2021年CWE前25类中的18类代码漏洞, 余下7类漏洞更多代表的是架构问题。

  • NL的意义:相较于Pearce等代码片段数据集的工作, 没有清楚说明为什么使用NL、 NL相较于代码片段的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/160788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用Python画一棵树

🎊专栏【不单调的代码】 🍔喜欢的诗句:更喜岷山千里雪 三军过后尽开颜。 🎆音乐分享【如愿】 🥰欢迎并且感谢大家指出我的问题 文章目录 🌹Turtle模块🎄效果🌺代码🛸代码…

【tomcat】java.lang.Exception: Socket bind failed: [730048

项目中一些旧工程运行情况处理 问题 1、启动端口占用 2、打印编码乱码 ʮһ�� 13, 2023 9:33:26 ���� org.apache.coyote.AbstractProtocol init ����: Fa…

oracle面试相关的,Oracle基本操作的SQL命令

文章目录 数据库-Oracle〇、Oracle用户管理一、Oracle数据库操作二、Oracle表操作1、创建表2、删除表3、重命名表4、增加字段5、修改字段6、重名字段7、删除字段8、添加主键9、删除主键10、创建索引11、删除索引12、创建视图13、删除视图 三、Oracle操作数据1、数据查询2、插入…

Connect-The-Dots_2

Connect-The-Dots_2 一、主机发现和端口扫描 主机发现,靶机地址192.168.80.148 arp-scan -l端口扫描 nmap -A -p- -sV 192.168.80.148开放端口 21/tcp open ftp vsftpd 2.0.8 or later 80/tcp open http Apache httpd 2.4.38 ((Debian)) 111/tcp …

循环队列详解!!c 语言版本(两种方法)双向链表和数组法!!

目录 1.什么是循环队列 2.循环队列的实现(两种方法) 第一种方法 数组法 1.源代码 2.源代码详解!! 1.创造队列空间和struct变量 2.队列判空 3.队列判满(重点) 4.队列的元素插入 5.队列的元素删除 …

GIT实践与常用命令---回退

实践场景 场景1 回退提交 在日常工作中,我们可能会和多个同事在同一个分支进行开发,有时候我们可能会出现一些错误提交,这些错误提交如果想撤销,可以有两种解决办法:回退( reset )、反做(revert) keywords:reset、rev…

2023软件测试的4个技术等级,你在哪个级别?

最近,我们讨论了软件测试工程的的分级,大家都贡献了自己的想法,对于大家来说,软件测试人的分级其实也代表了我们的进阶方向,职业发展。总体来说,测试工程师未来发展有三个方向: 技术精英 行业专…

层次分析法--可以帮助你做决策的简单算法

作用 层次分析法是一个多指标的评价算法,主要用来在做决策时,给目标的多个影响因子做权重评分。特别是那些需要主观决策的、或者需要用经验判断的决策方案,例如: 买房子(主观决策)选择旅游地(…

android11 申请所有文件访问权限

Android 11 引入了强制执行分区存储的限制,导致应用默认不能访问外部文件。 针对以前涉及较多文件的操作,可采用申请所有文件访问权限的方式来解决这一问题,实现方式如下。 (虽然这样做安全性低,官方并不推荐这样&…

Shell判断:模式匹配:case(三)

系统管理工具箱 1、需求:Linux提供的丰富的管理命令,用户管理,内存管理,磁盘管理,进程管理,日志管理,文件管理,软件管理,网络管理等等数十个工具包。如果你能通过shell编…

【代码随想录】算法训练计划30

【代码随想录】算法训练计划30 1、51. N 皇后 按照国际象棋的规则,皇后可以攻击与之处在同一行或同一列或同一斜线上的棋子。 n 皇后问题 研究的是如何将 n 个皇后放置在 nn 的棋盘上,并且使皇后彼此之间不能相互攻击。 给你一个整数 n ,…

分布式锁3: zk实现分布式锁

一 zk 实现分布式锁 1.1 zk分布式操作命令 1.指令: ls / get /zookeeper create /aa "test" delete /aa set /aa "test1" 2..znode节点类型: 永久节点:create /pa…

优秀智慧园区案例 - 上海世博文化公园智慧园区,先进智慧园区建设方案经验

一、项目背景 世博文化公园是上海的绿色新地标,是生态自然永续、文化融合创新、市民欢聚共享的大公园。作为世博地区的城市更新项目,世博文化公园的建设关乎上海城市风貌、上海文化展示、城市生态环境、市民游客体验、上海服务品牌等,被赋予…

依托数据、平台、知识增强等优势 夸克大模型大幅降低问答幻觉率

“大模型时代,夸克有巨大机会创造出革新性搜索产品。”11月22日,夸克大模型公布了其面向搜索、生产力工具和资产管理助手的大模型技术布局。数据显示,夸克千亿级参数大模型登顶C-Eval和CMMLU两大权威榜单,夸克百亿级参数大模型同样…

电大搜题——让学习变得轻松高效

作为一名现代学者,您一定时刻关注着教育领域的进展和创新。今天,我将向大家介绍一个名为“电大搜题”的神奇工具,它将为您的学习之路带来一场完美的革命。 在快节奏的现代社会中,学习已经成为每个人追求成功的必经之路。然而&…

【数据结构】动态顺序表详解

目录 1.顺序表的概念及结构 2.动态顺序表的实现 2.1创建新项目 2.2动态顺序表的创建 2.3接口的实现及测其功能 2.3.1初始化 2.3.2尾插 2.3.3头插 2.3.4尾删&头删 2.3.5打印&从任意位置插入 2.3.6删除任意位置的数据 2.3.7查找 2.3.8销毁顺序表 3.结语 He…

java项目之社区互助平台(ssm+vue)

项目简介 社区互助平台实现了以下功能: 1、一般用户的功能及权限 所谓一般用户就是指还没有注册的过客,他们可以浏览主页面上的信息。但如果有中意的社区互助信息时,要登录注册,只有注册成功才有的权限。2、管理员的功能及权限 用户信息的添…

react大文件上传

目录 大文件上传优点: 大文件上传缺点: 大文件上传原理: 为什么要用md5 实现流程: 部分代码1: 部分代码2:​ 大文件上传优点: 文件太大分片上传能加快上传速度,提高用户体验能断点续传 如果上次上传失败…

简单工程模式

代码实现 //simpleFactory.h #ifndef _SimpleFactory_H_ #define _SimpleFactory_H_#include <iostream> #include <exception> #include <string>using namespace std;class Operation { protected:double _numberA 0;double _numberB 0; public:Operat…

MybatisX插件使用

Mybatis X插件 MybatisX 是一款基于 IDEA 的快速开发插件&#xff0c;为效率而生。MybatisX官网&#xff1a;https://baomidou.com/pages/ba5b24/#%E5%8A%9F%E8%83%BD安装方法&#xff1a;打开 IDEA&#xff0c;进入 File -> Settings -> Plugins&#xff0c;输入 mybat…