【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总

网安AIGC专题

  • 写在最前面
    • 一些碎碎念
    • 课程简介
  • 0、课程导论
  • 1、应用 - 代码生成
  • 2、应用 - 漏洞检测
  • 3、应用 - 程序修复
  • 4、应用 - 生成测试
  • 5、应用 - 其他
  • 6、模型介绍
  • 7、模型增强
  • 8、数据集
  • 9、模型安全

请添加图片描述

🌈你好呀!我是 是Yu欸
🌌 2024每日百字篆刻时光,感谢你的陪伴与支持 ~
🚀 欢迎一起踏上探险之旅,挖掘无限可能,共同成长!

写在最前面

请添加图片描述

本文为邹德清教授的《网络安全专题》课堂笔记系列的文章,本次专题主题为大模型。

本系列文章不仅涵盖了46篇关于前沿代码大模型的论文,还包含了24篇深度论文阅读笔记,全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向,深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时,本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据集,以及与网络安全紧密相关的模型安全问题。

本篇博客旨在整理这些宝贵的笔记,方便未来的阅读和研究,同时也希望能够对广大读者产生启发和帮助。让我们一起踏上这场网络安全的未来探索之旅,共同在这个不断变化的领域中寻找属于我们的立足点。

一些碎碎念

纯散养、跨方向的直博开局,幸运的遇到了网络安全专题这门课,于是像每周组会一样在上课。
感谢邹德清、李珍、文明老师的授课,感谢课堂每一位同学的交流,受益匪浅。
带我打开一个全新视角,领略AIGC与大模型技术的革新之旅。同时理解最新的技术成就,发现它们的不足之处,并培养出创新能力。还有一些全英文PPT,“被迫”学了很多英文名词hh
对于我来说,这不仅仅是学术上的成长之旅,更是一次思维和视角的重大转变。通过课堂汇报、论文阅读和交流讨论,我逐渐培养了阅读论文的习惯,并学会了如何形成自己的思路。

这是2023秋季的三个月,也是积极的开始。希望之后的自己能延续每周阅读文献,积极推进科研进度,争取早日毕业!

课程简介

网络安全专题是针对当前热点安全问题进行研讨,通常分成四类热门主题进行介绍和研讨,包括的热门主题有:攻击行为与漏洞分析,分享最新的攻防进展;下一代网络安全,分享物联网、工控网络等相关协议安全、网络防御等技术;动态行为分析,分享内存相关安全以及动态污点技术等;人工智能安全,分享人工智能,人工智能安全应用,以及联邦学习安全等最新知识。

围绕着几个热门主题,在最近五年的信息安全顶尖会议上挑选一些代表性论文,组织学生研讨,启发他们理解最新成果,并发现最新成果的不足,从而达到培养创新能力的目的;另外也提高他们用英文介绍知识,以及进行讨论的能力。

0、课程导论

【网安AIGC专题10.11】软件安全+安全代码大模型
【网安AIGC专题10.11】①代码大模型的应用:检测、修复②其安全性研究:模型窃取攻击(API和网页接口) 数据窃取攻击 对抗攻击(用途:漏洞隐藏) 后门攻击(加触发器+标签翻转)

1、应用 - 代码生成

主题论文出处及时间论文笔记
Enabling Programming Thinking in Large Language Models Toward Code GenerationarXiv 2023.5.11
Self-Edit: Fault-Aware Code Editor for Code GenerationarXiv 2023.5.6
Improving Code Example Recommendations on Informal Documentation Using BERT and Query-Aware LSH: A Comparative StudyarXiv 2023.5.4
自动程序修复Is Your Code Generated by ChatGPT Really Correct? Rigorous Evaluation of Large Language Models for Code GenerationarXiv 2023.5.2论文1:生成式模型GPT\CodeX填充式模型CodeT5\INCODER+大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)
代码生成Self-collaboration Code Generation via ChatGPTarXiv 2023.4.15论文3代码生成:ChatGPT+自协作代码生成+角色扮演(分析员、程序员、测试员)+消融实验、用于MBPP+HumanEval数据集
代码生成Improving Code Generation by Training with Natural Language FeedbackarXiv 2023.3.282 ILF利用人类编写的 自然语言反馈 来训练代码生成模型:自动化反馈生成+多步反馈合并+处理多错误反馈+CODEGEN -M ONO 6.1 B model
Learning Performance-Improving Code EditsarXiv 2023.2.15

2、应用 - 漏洞检测

论文出处及时间
Large Language Models of Code Fail at Completing Code with Potential BugsarXiv
Large Language Models and Simple, Stupid BugsarXiv 2023.3.20
Prompting Is All Your Need: Automated Android Bug Replay with Large Language ModelsarXiv
When GPT Meets Program Analysis: Towards Intelligent Detection of Smart Contract Logic Vulnerabilities in GPTScanarXiv

3、应用 - 程序修复

主题论文出处及时间论文笔记
Towards Generating Functionally Correct Code Edits from Natural Language Issue DescriptionsarXiv 2023.4.7
自动程序修复Keep the Conversation Going: Fixing 162 out of 337 bugs for $0.42 each using ChatGPTarXiv 2023.4.15 ChatRepair:ChatGPT+漏洞定位+补丁生成+补丁验证+APR方法+ChatRepair+不同修复场景+修复效果(韦恩图展示)
CCTEST: Testing and Repairing Code Completion SystemsICSE 2023
Examining Zero-Shot Vulnerability Repair with Large Language ModelsS&P 2023
自动程序修复Automated Program Repair in the Era of Large Pre-trained Language ModelsICSE 2023大模型自动程序修复(生成整个修复函数、修复代码填充、单行代码生产、生成的修复代码排序和过滤)+生成式模型GPT\CodeX填充式模型CodeT5\INCODER
漏洞修复How Effective Are Neural Networks for Fixing Security VulnerabilitiesarXiv论文6(顶会ISSTA 2023):提出新Java漏洞自动修复数据集:数据集 VJBench+大语言模型、APR技术+代码转换方法+LLM和DL-APR模型的挑战与机会
自动程序修复Conversational Automated Program RepairarXiv 2023.1.30论文7:Chatgpt/CodeX引入会话式 APR 范例+利用验证反馈+LLM 长期上下文窗口:更智能的反馈机制、更有效的信息合并策略、更复杂的模型结构、鼓励生成多样性
静默漏洞修复识别CoLeFunDa-Explainable Silent Vulnerability Fix IdentificationICSE 20238 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)

4、应用 - 生成测试

主题论文出处及时间论文笔记
No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test GenerationarXiv 2023.5.9
Finding Failure-Inducing Test Cases with ChatGPTarXiv 2023.4.30
Large Language Models are Edge-Case Fuzzers: Testing Deep Learning Libraries via FuzzGPTarXiv 2023.4.4
自动化测试Large Language Models are Few-shot Testers: Exploring LLM-based General Bug ReproductionarXiv 2022.9.239 LIBRO方法(ICSE2023顶会自动化测试生成):提示工程+查询LLM+选择、排序、后处理(测试用例函数放入对应测试类中,并解决执行该测试用例所需的依赖)
模糊测试Large Language Models are Zero-Shot Fuzzers: Fuzzing Deep-Learning Libraries via Large Language ModelsISSTA 202310 TitanFuzz完全自动化执行基于变异的模糊测试:生成式(如Codex)生成种子程序,逐步提示工程+第一个应用LLM填充模型(如InCoder)+差分测试

5、应用 - 其他

主题论文出处及时间论文笔记
信息提取CODEIE: Large Code Generation Models are Better Few-Shot Information ExtractorsarXiv 2023.5.1112 CODEIE用于NER和RE:顶刊OpenAI API调用、CodeX比chatgpt更好:提示工程设计+控制变量对比实验(格式一致性、模型忠实度、细粒度性能)
代码搜索On Contrastive Learning of Semantic Similarity for Code to Code SearcharXiv 2023.5.514Cosco跨语言代码搜索代码: (a) 训练阶段 相关程度的对比学习 对源代码(查询+目标代码)和动态运行信息进行编码 (b) 在线查询嵌入与搜索:不必计算相似性
生成知识图谱CodeKGC: Code Language Model for Generative Knowledge Graph ConstructionarXiv 2023.4.18
软件工程The Scope of ChatGPT in Software Engineering: A Thorough InvestigationarXiv15 ChatGPT在软件工程中的全面作用:程序语法(AST生成、表达式匹配) 静态行为、动态分析(数据依赖和污点分析、指针分析) 提示设计(角色提示、指令提示)
代码摘要Improving Few-shot Prompts with Relevant Static Analysis ProductsarXiv17ASAP如何更好地改进少样本提示:在LLMs的prompt中添加语义信息,来提高代码摘要生成+代码补全任务的性能。CodeSearchNet数据集
代码解释Comparing Code Explanations Created by Students and Large Language ModelsarXiv 2023.4.13论文13:理解和解释代码,GPT-3大型语言模型&学生创建的代码解释比较+错误代码的解释(是否可以发现并改正)
代码学习Active Code Learning: Benchmarking Sample-Efficient Training of Code ModelsarXiv 2023.4.811 Coreset-C 主动学习:特征选择+11种采样方法+CodeBERT、GraphCodeBERT+多分类(问题分类)二元分类(克隆检测)非分类任务(代码总结)
许可证版权保护CODEIPPROMPT: Intellectual Property Infringement Assessment of Code Language ModelsICML 202316CODEIPPROMPT:顶会ICML’23 从GitHub到AI,探索代码生成的侵权风险与缓解策略的最新进展:训练数据`有限制性许可;模型微调+动态Token过滤
LLM4SE综述Large Language Models for Software Engineering: A Systematic Literature ReviewarXiv 2023.9.1218LLM4SE革命性技术揭秘:大型语言模型LLM在软件工程SE领域的全景解析与未来展望 - 探索LLM的多维应用、优化策略与软件管理新视角

6、模型介绍

论文出处及时间
StarCoder: may the source be with you!arXiv 2023.5.9
Textbooks Are All You NeedarXiv 2023.6.20
Analysis of ChatGPT on Source CodearXiv

7、模型增强

主题论文出处及时间论文笔记
代码预训练ContraBERT: Enhancing Code Pre-trained Models via Contrastive LearningICSE 202319ContraBERT:顶会ICSE23 数据增强+对比学习+代码预训练模型,提升NLP模型性能与鲁棒性:处理程序变异(变量重命名)
持续学习Keeping Pace with Ever-Increasing Data: Towards Continual Learning of Code Intelligence ModelsICSE 202323REPEAT方法:软工顶会ICSE ‘23 大模型在代码智能领域持续学习 代表性样本重放(选择信息丰富且多样化的示例) + 基于可塑权重巩固EWC的自适应参数正则化 【网安AIGC专题11.22】
TRACED: Execution-aware Pre-training for Source CodearXiv
Symmetry-Preserving Program Representations for Learning Code SemanticsarXiv

8、数据集

主题论文出处及时间论文笔记
The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and GenerationarXiv 2023.5.9
错误代码补全Large Language Models of Code Fail at Completing Code with Potential BugsNeurIPS 202324 LLM错误代码补全:机器学习顶会NeurIPS‘23 智能体评估:自行构建数据集Buggy-HumanEval、Buggy-FixEval+错误代码补全+修复模型【网安AIGC专题11.22】
CCF CLLMSecEval: A Dataset of Natural Language Prompts for Security EvaluationsarXiv 2023.3.1622LLMSecEval数据集及其在评估大模型代码安全中的应用:GPT3和Codex根据LLMSecEval的提示生成代码和代码补全,CodeQL进行安全评估【网安AIGC专题11.22】
CrossCodeBench: Benchmarking Cross-Task Generalization of Source Code ModelsICSE 2023
数据增强Data Augmentation Approaches for Source Code Models: A Survey arXiv20源代码模型的数据增强方法:克隆检测、缺陷检测和修复、代码摘要、代码搜索、代码补全、代码翻译、代码问答、问题分类、方法名称预测和类型预测对论文进行分组【网安AIGC专题11.15】

9、模型安全

主题论文出处及时间
Multi-target Backdoor Attacks for Code Pre-trained ModelsarXiv
对抗攻击Discrete Adversarial Attack to Models of CodePLDI 2023

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/852922.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

EasyGBS服务器和终端配置

服务器配置 修改easygbs.ini sip/host为本机IP,否则终端能登录,无法视频。 [sip] host192.168.3.190 终端用于登录的用户名和密码 default_usertest default_passwordtest1234 default_guest_userguest default_guest_passwordtest1234终端配置 关…

【Postman的接口测试工具介绍】

🌈个人主页: 程序员不想敲代码啊 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提出指正,让我们共…

Excel最基本的常用函数

最基本最常用的函数,掌握了可以解决大部分问题。 (笔记模板由python脚本于2024年06月11日 19:05:56创建,本篇笔记适合熟悉excel的coder翻阅) 【学习的细节是欢悦的历程】 Python 官网:https://www.python.org/ Free:大咖免费“圣…

OpenCV之cv::Scalar

在 OpenCV 中,cv::Scalar 是一个模板类,用于表示多通道的值。常用来表示颜色或其他具有多个分量的数据。在图像处理中,cv::Scalar 经常用于指定颜色。 cv::Scalar(255, 255, 255) 具体如何理解,取决于图像的颜色空间:…

前端开发之HTTP3

上一篇👉: 前端开发之HTTP协议 HTTP3 介绍及其与 HTTP2 的区别 特性HTTP/2HTTP/3协议层TCPUDP (基于QUIC)连接复用多路复用 (Stream Multiplexing)多路复用 (Stream and Connection Multiplexing)错误恢复依赖TCP重传内置重传和拥塞控制首部压缩HPACKQPACK安全性可…

原型模式(大话设计模式)C/C++版本

原型模式 C 参考&#xff1a;https://www.cnblogs.com/Galesaur-wcy/p/15924300.html #include <iostream> #include <string> using namespace std;class WorkExprerience { private:string workDate;string company;public:WorkExprerience() {}~WorkExprerie…

14.基于人类反馈的强化学习(RLHF)技术详解

基于人类反馈的强化学习&#xff08;RLHF&#xff09;技术详解 RLHF 技术拆解 RLHF 是一项涉及多个模型和不同训练阶段的复杂概念&#xff0c;我们按三个步骤分解&#xff1a; 预训练一个语言模型 (LM) &#xff1b;训练一个奖励模型 (Reward Model&#xff0c;RM) &#xf…

主题切换之CSS文件篇

动态加载CSS: 利用HTML的标签&#xff0c;可以通过JavaScript动态改变其href属性来加载不同的CSS文件。这意味着我们可以在运行时切换整个页面的样式表&#xff0c;从而实现主题的变化。 分离样式: 将不同主题的样式分别放在不同的CSS文件中。例如&#xff0c;default_styles.…

React小记——如何理解 props 单向数据流?

通俗来讲&#xff0c;就是 props 传递的数据只能由父组件流向子组件&#xff0c;子组件对接收到的 props 数据不可以直接修改 &#xff01; 但是可以由父组件传递 状态 的同时传递 修改状态的方法&#xff0c;然后由子组件调用该方法&#xff0c;达到修改 props 的目的&#xf…

Non-zero exit code pycharm

目录 windows 设置conda代理&#xff1a; linux Conda 使用代理 4. 修改 Conda SSL 验证 pycharm 报错 exceted command pip 设置代理 Non-zero exit code 科学上网后&#xff0c;pip安装时警告报错 WARNING: Retrying (Retry(total0, connectNone, readNone, redirectNo…

Spark 面试题(九)

1. 简述Spark的DAG以及它的生成过程 &#xff1f; 在Spark中&#xff0c;DAG&#xff08;有向无环图&#xff09;是描述作业中所有RDD转换操作依赖关系的图。DAG的生成过程是Spark作业调度的关键步骤之一。以下是对Spark DAG的简述以及它的生成过程&#xff1a; DAG的概念 节…

RabbitMQ实践——利用一致性Hash交换器做带权重的调度

在《RabbitMQ实践——利用一致性Hash交换器做负载均衡》一文中&#xff0c;我们介绍了如何开启一致性hash交换器&#xff0c;并实现了消息的负载均衡&#xff0c;以达到横向扩展消费者数量的能力。 但是现实中&#xff0c;可能存在这样的场景&#xff1a;一些队列所在的机器配置…

编程入门教育游戏教案:打造互动式学习体验

编程入门教育游戏教案&#xff1a;打造互动式学习体验 在当今数字化时代&#xff0c;编程技能已成为一项重要的素养。为了帮助初学者轻松入门编程&#xff0c;本文设计了一款编程入门教育游戏教案&#xff0c;旨在通过互动式学习体验&#xff0c;提升学生的编程兴趣和技能水平…

交易文本数据:情感分析 -另类数据交易- 舆情数据

交易文本数据:情感分析 这是三章中的第一章,专门介绍使用自然语言处理(NLP)和机器学习从文本数据中提取交易策略信号。 文本数据内容丰富但高度非结构化,因此需要更多预处理才能使ML算法提取相关信息。一个关键挑战是在不丢失其含义的情况下将文本转换为数值格式。我们将介绍…

第J7周:对于ResNeXt-50算法的思考

本文为&#x1f517;365天深度学习训练营中的学习记录博客 &#x1f356; 原作者&#xff1a;K同学啊 | 接辅导、项目定制 &#x1f680; 文章来源&#xff1a;K同学的学习圈子深度学习第J6周&#xff1a;ResNeXt-50实战解析K同学的学习圈子 在 ResNeXt 网络中&#xff0c;如果…

LeRobot——Hugging Face打造的机器人领域的Transformer架构

前言 如友人邓博士所说&#xff0c;“用 Stanford aloha 课题组提供的训练数据&#xff0c;训练他们研发的 Action Chunking Transformer 动作规划模型&#xff0c;训练结果&#xff0c;能用&#xff0c;但是稳定性有待提高 要提高稳定性&#xff0c;看来必须修改 Stanford a…

STM32学习笔记(三)--EXTI外部中断详解

&#xff08;1&#xff09;配置步骤1.配置RCC 打开外设时钟2.配置GPIO 选择端口输入模式3.配置AFIO 选择要用的一路GPIO 连接至EXTI 4.配置EXTI 选择边沿触发方式 上升沿 下降沿 双边沿 选择触发响应方式 中断响应 事件响应 5.配置NVIC 选择一个合适的优先…

喜讯:NetMarvel 深度合作伙伴「点金石」斩获2024·MAMA 营销增长奖

全球市场瞬息万变&#xff0c;如何让增长做到有迹可循&#xff1f; 5月20日&#xff0c;由 AppsFlyer 举办的「2024 MAMA 移动互联网高层峰会」在三亚拉开序幕。在本届颁奖典礼上&#xff0c;NetMarvel 深度合作伙伴——点金石&#xff08;GameGoing&#xff09; 荣获「营销增长…

java技术专家面试指南80问【java学习+面试宝典】(七)

Dubbo需要 Web 容器吗&#xff1f; 不需要&#xff0c;如果硬要用 Web 容器&#xff0c;只会增加复杂性&#xff0c;也浪费资源。 PrintStream、BufferedWriter、PrintWriter的比较? PrintStream类的输出功能非常强大&#xff0c;通常如果需要输出文本内容&#xff0c;都应…

PyQt5学习系列之新项目创建并使用widget

PyQt5学习系列之新项目创建并使用widget 前言报错新建项目程序完整程序总结 前言 新建项目&#xff0c;再使用ui转py&#xff0c;无论怎么样都打不开py文件&#xff0c;直接报错。 报错 Connected to pydev debugger (build 233.11799.298)新建项目程序 # Press ShiftF10 to…