大模型在应用开发安全左移实践

1.应用开发安全左移势在必行

近年来，应用系统被入侵或敏感信息泄漏类的安全事件时有发生，大部分安全事件的根本原因是应用软件设计或实现中存在安全漏洞。由于软件安全性问题导致各种信息泄密、信息被篡改、网络服务中断的事件频发，给企业和政府的社会形象和经济效益造成难以挽回的损失。这暴露了软件在其生命周期从设计、编码、测试到安全响应等不同阶段的安全管控缺失，以及需求提供者、软件开发者、测试人员、系统用户和运维人员等不同项目干系人的安全能力不足。目前的各种软件开发方法并不能保证生产出安全的软件，解决软件安全问题不是个独立的过程，应贯穿于整个软件开发和维护过程，需要一个系统性的安全解决方案，与软件开发生命周期有机结合进行实施，才能有效减少软件安全漏洞和降低其风险。

为了提升我国软件信息系统安全，《信息安全技术网络安全等级保护基本要求》GB/T 22239-2019针对第二级系统和第三级系统均提出了应用系统安全检测相关要求。与其事后亡羊补牢不如未雨绸缪，为减少应用系统漏洞带来的攻击威胁和损失，需要开展各项合规检测和安全防护工作，需从软件供应链源头抓起，从立项到下线全生命周期进行安全管理。通过把体系流程、人和工具相结合，在软件开发生命周期中把安全相关的内容提炼成系统性的方法论，提高软件的安全成熟度，从软件源头上解决应用程序的安全问题。应用开发安全左移是一种将安全措施和实践提前到应用开发早期阶段的策略。

传统上，安全往往在应用开发的后期阶段，如测试或部署时才被重点关注。然而，这种方式可能导致发现问题后的修复成本高昂，甚至可能需要对应用架构进行重大修改。应用开发安全左移的主要目标是在开发流程的一开始就将安全纳入考虑，包括需求分析、设计、编码等阶段。其优点包括：

1. 降低成本：早期发现和解决安全问题，避免后期大规模的返工和修复。

2. 提高效率：减少开发周期中的安全阻碍，使开发过程更加顺畅。

3. 增强安全性：从源头设计安全的应用，而不是事后补救。

2.采用大模型助力安全需求左移

大语言模型（Large Language Models，简称LLM）是一种基于深度学习的自然语言处理（NLP）模型，旨在理解和生成自然语言文本。大语言模型被用于文本分类、情感分析、机器翻译等任务。应用系统开发人员由于存在编码安全知识薄弱、组件引用来源管控不严，给应用开发带来潜在风险。

1. 代码漏洞风险

开发人员可能因不了解常见的安全漏洞类型，如 SQL 注入、跨站脚本攻击（XSS）、缓冲区溢出等，而在编写代码时引入安全隐患。

2. 错误的安全配置

在应用的配置环节，如服务器配置、数据库配置等，由于缺乏安全知识，可能设置了不安全的参数，导致应用易受攻击。

3. 忽视数据保护

不了解数据隐私法规和最佳实践，可能导致用户数据的不当收集、存储和传输，引发数据泄露风险。

4. 难以满足安全要求

在面对安全审计和合规检查时，无法提供符合安全标准的开发文档和安全管控代码，导致应用无法通过审核。

为了确保网络系统的安全性和可靠性，各种安全标准规范应运而生。应用系统开发建设同样需要符合众多政策法规、标准制度要求，需要理解融合众多的标准规范，以指导应用系统安全架构设计和信息系统安全保护。开发人员和相关管理人员需要知悉、遵守众多法律法规、标准规范。众多安全标准规范进行对标和融合，有利于指导建设和提升工作效率。传统的安全标准融合方法靠人工将每个标准规范逐条映射到对应的框架，例如COBIT、ISO27001等。然而当前技术方法存在以下问题。

1）由于人工理解不同，对安全需求归类产生差异。

2）由于人工操作局限性，对条款映射出现错误操作。

3）由于条款众多融合条款的相关性、相斥性，难以整体把控。

4）条款和实施措施的映射关系缺乏对照和参考。

针对上述问题，可以采用基于大模型应用开发安全标准规范多标融合方法，旨在整合不同的标准规范，提供统一、准确的指导。通过引入自然语言处理（NLP）和人工智能（AI）技术进行标注和融合，训练自动融合算法，减少人工工作量。大语言模型经过大量文本数据训练的语言模型，由于参数量巨大，这些模型可以更好地捕获文本的语义信息，从而在多种任务上取得更好的效果。大语言模型可以存储更多的词汇和短语，可以更好地理解文本的含义，从而在问答、摘要生成等任务上取得更好的效果。大语言模型在开发安全标规范对标融合方面的应用，体现了其在促进自然语言处理技术、跨学科融合、特定领域应用以及资源高效化等方面的重要作用。大模型的发展得益于计算能力的提升和大规模数据集的可用性。通过增加模型的参数量和层数，大模型能够提高模型的表达能力，并在更广泛的领域中取得出色的性能。将大模型技术用于软件系统安全开发，可以大大提高开发效率，形成行业安全开发标准和知识库。

开发者在日常工作中面临着诸多繁重的开发工作，如撰写业务或功能代码、分析优化代码、识别修复代码安全漏洞、查询学习技术文档等。这些工作不仅耗时多，且很难避免人为产生的疏漏。采用先进AIGC技术和机器学习算法，能够快速准确地完成代码预测补全、图片生成代码、代码翻译、生成接口文档、代码优化、生成单侧、安全漏洞识别及修复等功能，助力开发者高效、流畅编码。利用在烟草行业业务场景下积累的内容安全数据，基于历史敏感词，使用内容生成算法形成特有的检测问题库。同时结合团队在大模型安全领域攻防经验形成的衍生问题库，形成了特有的面向大模型内容安全的检测能力。

3.大模型助力应用安全开发

“安全左移”实践过程中遇到的问题，具体而言主要涉及安全工具和人员技能两大方面。首先，在工具层面，现有代码安全工具在准确性、漏洞成因描述及修复方案适配等方面均存在不足，不能满足安全左移至研发的场景；另一方面，研发人员在安全意识和技能水平方面存在较大差异，初、中级研发人员安全编码能力相对较弱，通常难以脱离安全人员支持来独立修复漏洞。鉴于上述两点，将安全左移理念成功应用于开发者场景的成功案例少之又少。例如，传统的代码安全产品，普遍都没有帮助开发者解决好“快速定位问题代码”的问题，难以将代码与特定开发者相对应。导致开发人员必须在拿到整体代码包的安全检测报告后，在大量问题中筛选出自身负责的部分，再进行修复，这种模式很影响安全响应的效率。在实际的项目过程也发现，很多客户在devsecops的建设方面已经有所成绩，但是devsecops的建立并不意味着能实践好开发安全左移，在devsecops的流程中可能是在上线前设置安全检测卡点，漏洞的发现和修复一般是在系统发布阶段，这并没有降低漏洞的修复成本。当然相对于以往的devops流程，安全性很大的提高，但是距离我们认为的真正的开发安全左移，还有比较大的差距。

如上图所示，海云安公司的开发者安全智能助手D10系统基于大模型技术助力应用安全开发。D10系统如下图所示，分为IDE客户端、SAST（静态应用程序安全测试）&SCA（软件成分分析）检测管理端和LLM服务器三部分。IDE客户端面向开发者，通过对接调用SAST&SCA检测管理端和LLM服务器为开发者提供代码组件安全检测和AI缺陷解释修复等功能。SAST&SCA检测管理端主要面向管理人员，负责统计管理代码项目和代码组件检测等。LLM服务器主要为IDE客户端和SAST&SCA检测管理端提供AI智能技术支持。