计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

计算机前沿技术-人工智能算法-大语言模型-最新论文阅读-2024-09-23

本期,我们对大语言模型在表情推荐, 软件安全和 自动化软件漏洞检测等方面如何应用,提供几篇最新的参考文章。

1 Semantics Preserving Emoji Recommendation with Large Language Models

Z Qiu, K Qiu, H Lyu, W Xiong, J Luo - arXiv preprint arXiv:2409.10760, 2024
在这里插入图片描述

使用大型语言模型进行语义保持的 Emoji 推荐

摘要
Emoji 已经成为数字通信中不可或缺的一部分,通过传达情感、语气和意图来丰富文本。现有的 Emoji 推荐方法主要基于它们与用户原始文本中选择的确切 Emoji 匹配的能力进行评估。然而,它们忽略了社交媒体上用户行为的本质,即每段文本都可以对应多个合理的 Emoji。为了更好地评估模型与现实世界 Emoji 使用的一致性,我们提出了一个新的语义保持评估框架,用于 Emoji 推荐,该框架衡量模型推荐与用户文本保持语义一致性的 Emoji 的能力。为了评估模型保持语义的能力,我们评估预测的情感状态、人口统计特征和态度立场是否保持不变。如果这些属性得以保留,我们认为推荐的 Emoji 保持了原始语义。大型语言模型(LLMs)在理解和生成细微、相关上下文输出方面的高级能力使它们非常适合处理语义保持 Emoji 推荐的复杂性。为此,我们构建了一个全面的基准测试,系统地评估了六种专有和开源 LLMs 使用不同提示技术在我们的任务上的性能。我们的实验表明,GPT-4o 在其他 LLMs 中表现最佳,达到了 79.23% 的语义保持分数。此外,我们进行了案例研究,分析了模型在下游分类任务中的偏见,并评估了推荐的 Emoji 的多样性。

创新点

  1. 提出了一个新的语义保持评估框架,用于评估 Emoji 推荐模型。
  2. 利用大型语言模型(LLMs)进行 Emoji 推荐,考虑了模型在理解和生成相关上下文输出方面的能力。
  3. 开发了一套全面的基准测试,评估了多种 LLMs 在 Emoji 推荐任务上的性能。

算法模型

  • 使用了六种不同的专有和开源大型语言模型(LLMs),包括 GPT-4o。
  • 构建了基于不同提示技术(zero-shot, few-shot, conditional generation)的评估方法。
  • 利用五个下游分类任务(情感分析、情绪分类、立场检测、年龄预测、性别预测)来评估语义保持能力。
    在这里插入图片描述

实验效果

  • GPT-4o 在所有模型中表现最佳,达到了 79.23% 的语义保持分数。
  • 通过条件推荐方法(考虑用户画像信息),所有模型的推荐性能都有显著提升。
  • 案例研究显示,模型在特定类别(如性别分类中的“女性”类别)中存在偏差。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由
这篇论文在自然语言处理和用户交互领域具有创新性,特别是在利用大型语言模型进行 Emoji 推荐方面。它提出的语义保持评估框架对于评估和改进未来的 Emoji 推荐系统具有重要意义。此外,论文中关于模型偏见的分析也为理解和改进 AI 模型的公平性和无偏见性提供了有价值的见解。对于研究 Emoji 使用、推荐系统或大型语言模型的学者和从业者来说,这是一篇值得一读的论文。

2. Detection Made Easy: Potentials of Large Language Models for Solidity Vulnerabilities

MT Alam, R Halder, A Maiti - arXiv preprint arXiv:2409.10574, 2024
在这里插入图片描述
在这里插入图片描述

简化检测:大型语言模型在 Solidity 漏洞检测中的潜力

摘要
随着以太坊主网上 Solidity 智能合约的大规模部署,近年来吸引了越来越多出于财务动机的攻击者。本文介绍了如何使用大型语言模型(LLMs)检测 Solidity 中的 OWASP 十大漏洞。作者提出了一个新颖的、类别平衡的、结构化且标记的数据集 VulSmart,用于基准测试和比较多个开源和闭源 LLMs 的性能。通过自动化和手动评估,使用 BLEU 和 ROUGE 指标评估漏洞检测的有效性。研究发现,经过微调的闭源模型 GPT-3.5 Turbo 和 GPT-4o Mini 在漏洞检测、确定漏洞类型和严重性的准确性上达到了 99%、94% 和 98%。SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。

创新点

  1. 提出了一个新的数据集 VulSmart,用于智能合约漏洞检测。
  2. 开发了 SmartVD 框架,利用 LLMs 进行漏洞类型和严重性的多类分类及生成。
  3. 对比了多种开源和闭源 LLMs 在漏洞检测任务上的性能。
  4. 探索了不同的提示策略(零样本、少样本、思维链)对 LLMs 漏洞检测能力的影响。

算法模型

  • 使用了包括 CodeLlama、Llama2、CodeT5、Falcon 等开源 LLMs,以及 GPT-3.5 Turbo 和 GPT-4o Mini 等闭源模型。
  • SmartVD 框架通过微调预训练的 Codelama 模型构建,包括输入层、标记化层、嵌入层、注意力层、LoRA 单元、归一化层和输出层。
  • 采用了二元分类和多类分类及生成的方法来评估模型。
    在这里插入图片描述

实验效果

  • GPT-3.5 在漏洞分类任务中表现最佳,准确率达到 78%,经过微调后准确率提升至 99%。
  • SmartVD 框架在“思维链”提示技术下表现最佳,而微调后的闭源模型在“零样本”提示方法下表现优异。
  • 在对抗性攻击测试中,闭源 LLMs 显示出完全的抵抗力,而开源 LLMs 的表现有所下降。
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由
这篇论文针对智能合约安全领域,特别是 Solidity 语言的漏洞检测问题,提出了创新的数据集和基于 LLMs 的检测框架。研究不仅提供了深入的分析和实验验证,还探讨了不同的提示策略对模型性能的影响,这对于理解 LLMs 在代码分析任务中的应用具有重要意义。此外,论文还考虑了对抗性攻击对模型鲁棒性的影响,为未来在这一领域的研究提供了有价值的见解和方向。对于对智能合约安全、漏洞检测和 LLMs 应用感兴趣的研究人员和从业者来说,这是一篇值得阅读的论文。

3. Prompt Obfuscation for Large Language Models

D Pape, T Eisenhofer, L Schönherr - arXiv preprint arXiv:2409.11026, 2024
在这里插入图片描述
在这里插入图片描述

大型语言模型的提示模糊化

摘要
系统提示,包括详细说明底层大型语言模型(LLM)执行的任务的指令,可以轻松地将基础模型转变为工具和服务,而开销极小。由于它们对实用性的重要影响,通常被视为知识产权,类似于软件产品的代码。然而,通过使用提示注入,可以轻易提取系统提示。迄今为止,还没有有效的对策来防止系统提示的窃取,所有保护努力都可能被精心制作的提示注入所绕过,从而避开所有保护机制。在这项工作中,我们提出了一种传统系统提示的替代方案。我们引入了提示模糊化,以防止提取系统提示,同时保持系统的实用性,几乎没有开销。核心思想是找到原始系统提示的表示,它具有相同的功能,而模糊化的系统提示不包含任何允许对原始系统提示得出结论的信息。我们实现了一种基于优化的方法来找到模糊化的提示表示,同时保持功能。为了评估我们的方法,我们调查了八种不同的指标,比较使用原始和模糊化系统提示的系统的性能,我们表明模糊化版本始终与原始版本相当。我们进一步进行了三种不同的去模糊化攻击,涵盖了不同攻击者知识,包括黑盒和白盒攻击,并表明即使在访问模糊化提示和LLM本身的情况下,我们也无法始终如一地提取有意义的信息,尽管模型有时可以从其自身输出中识别系统提示的含义。总体而言,我们展示了提示模糊化可以是保护知识产权的有效方法,同时保持与原始系统提示相同的实用性。

创新点

  1. 提出了一种新的系统提示模糊化方法,以防止系统提示被提取,同时保持系统本身的实用性。
  2. 开发了一种基于优化的方法来找到模糊化的提示表示,该方法在不牺牲功能的情况下保护了提示。
  3. 对比了使用原始和模糊化系统提示的系统性能,并展示了模糊化版本与原始版本相当。
  4. 进行了包括黑盒和白盒在内的不同去模糊化攻击,证明了模糊化提示的有效性。

算法模型

  • 提出了在软提示空间中进行模糊化的优化方法,通过梯度下降算法直接优化软提示。
  • 使用了Adam优化器,并设置了学习率、迭代次数和令牌数量等参数。
  • 实现了一种基于贪心坐标梯度(GCG)技术的离散优化方法,用于硬提示模糊化。
    在这里插入图片描述

实验效果

  • 在不同的数据集上评估了模糊化提示的有效性,包括TruthfulQA、TriviaQA、CNN dailymail和samsum。
  • 使用了多种文本相似度指标来评估模糊化提示与原始提示之间的相似度。
  • 进行了黑盒和白盒攻击,以评估攻击者从模糊化提示中提取原始提示信息的能力。
  • 实验结果表明,模糊化提示在保持与原始提示相同功能的同时,能够有效抵抗去模糊化攻击。

推荐阅读指数
★★★★☆

推荐理由
这篇论文针对大型语言模型中系统提示的安全性问题提出了创新的解决方案。通过引入提示模糊化技术,有效地保护了模型的知识产权,防止了提示注入攻击。论文中的实验设计严谨,涵盖了多种评估指标和攻击场景,为理解和防御LLMs中的安全威胁提供了有价值的见解。

4. Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization

J Wang, Y Zhou, X Zhang, M Bao, P Yan - arXiv preprint arXiv:2409.11212, 2024
在这里插入图片描述
通过不确定性增强的偏好优化实现自我进化的大型语言模型

摘要
大型语言模型(LLMs)在以太坊主网上的广泛部署近年来吸引了越来越多的财务驱动攻击者。本文提出了一种新的不确定性增强偏好优化(UPO)框架,以提高LLMs在Solidity漏洞检测中的性能。该框架通过执行成对不确定性估计和可靠反馈抽样来减少当前策略和奖励模型产生的噪声偏好数据。研究者引入了一个估计器模型,该模型结合了贝叶斯神经网络(BNN)中的蒙特卡洛(MC)dropout技术,以对LLM策略产生的偏好数据进行不确定性估计。与现有方法直接基于奖励分数过滤生成的响应不同,估计器专注于成对的模型不确定性,并有效绕过了奖励模型的确认偏差问题。此外,研究者还提出了一种不确定性增强的自我进化算法,以提高偏好优化的鲁棒性,并鼓励LLM生成具有高奖励和高确定性的响应。在多个基准测试上的广泛实验表明,该框架显著减轻了噪声问题,并提高了迭代偏好优化的性能。

创新点

  1. 提出了不确定性增强偏好优化(UPO)框架,用于提高LLMs在偏好优化中的性能。
  2. 引入了估计器模型,使用贝叶斯神经网络中的蒙特卡洛dropout技术来估计偏好数据的不确定性。
  3. 提出了不确定性增强的自我进化算法,以提高LLMs在迭代更新参数时的鲁棒性。

算法模型
在这里插入图片描述

  • 不确定性增强偏好优化(UPO)框架:该框架通过减少由当前策略和奖励模型产生的噪声偏好数据来提高LLMs的自我进化能力。
  • 估计器模型:结合了贝叶斯神经网络中的蒙特卡洛dropout技术,用于估计LLM策略产生的偏好数据的不确定性。
  • 不确定性增强的自我进化算法:通过不确定性估计来选择可靠的偏好数据,并将其用于LLM策略的迭代更新。

实验效果

  • 在AlpacaEval 2.0和MT-Bench等通用NLP基准测试中,UPO框架显著提高了LLMs的性能。
  • 在GSM8K和MATH等数学推理任务中,UPO框架同样展现出了优越的性能提升。
  • 实验结果表明,UPO框架在减少噪声和提高迭代偏好优化的性能方面具有显著效果。
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由
这篇论文针对大型语言模型在偏好优化中的噪声问题提出了一种新颖的解决方案。UPO框架通过不确定性估计和自我进化算法,有效地提高了LLMs在多种任务上的性能。论文的实验设计严谨,涵盖了广泛的任务和数据集,验证了方法的有效性。

5. VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching

A Zibaeirad, M Vieira - arXiv preprint arXiv:2409.10756, 2024
在这里插入图片描述
VulnLLMEval:一个评估大型语言模型在软件漏洞检测和修补中的性能的框架

摘要
大型语言模型(LLMs)在代码翻译等任务中展现出了潜力,激发了人们对其在自动化软件漏洞检测(SVD)和修补(SVP)中应用的兴趣。为了推进这一领域的研究,建立一个基准测试对于评估LLMs在这些任务中的优势和局限性至关重要。尽管LLMs具有能力,但它们是否能够准确分析复杂漏洞并生成适当的补丁仍然存在疑问。本文介绍了VulnLLMEval,这是一个旨在评估LLMs在识别和修补C代码漏洞中的性能的框架。我们的研究包括从Linux内核中提取的307个真实世界漏洞,创建了一个包含漏洞和已修补代码的精选数据集。这个基于真实世界代码的数据集为评估LLM在SVD和SVP任务中的性能提供了多样化和代表性的测试平台,为严格评估提供了坚实的基础。我们的结果揭示了LLMs在区分漏洞和已修补代码方面常常遇到困难。此外,在SVP任务中,这些模型倾向于过度简化代码,产生的解决方案可能需要进一步改进才能直接使用。

创新点

  1. 提出了VulnLLMEval框架,用于评估LLMs在软件漏洞检测和修补任务中的性能。
  2. 创建了一个包含307个真实世界漏洞的精选数据集,涵盖30种不同的CWEs,这些漏洞来自Linux内核。
  3. 开发了一种自动化的数据收集方法,使用提交哈希来收集和标记漏洞和已修补的代码,无需安全专家手动提供真实补丁,简化了评估过程。
  4. 设计了8种不同的提示模板,用于引导LLMs完成漏洞检测和修补任务,包括零样本和少样本学习场景。

算法模型

  • VulnLLMEval框架:一个用于评估预训练LLMs在SVD和SVP任务中的性能的框架。
  • 数据集:包含307个真实世界的C语言代码漏洞,涵盖Linux内核中的多种CWEs。
  • 自动化数据收集方法:利用公开的CVE记录和元数据(如提交哈希、CVE和CWE)系统地提取漏洞代码块及其相应的修补版本。
  • 评估指标:包括Mean Reciprocal Rank (MRR)、Top-5准确率、Rouge分数、CodeBLEU分数和循环复杂度等。

算法伪码:
在这里插入图片描述

实验效果

  • 在多个真实世界的漏洞检测和修补任务中,LLMs表现出在区分漏洞和已修补代码方面的挑战。
  • LLMs在生成补丁时倾向于简化代码,可能需要进一步的改进才能直接使用。
  • 实验结果表明,LLMs在SVD任务中的表现与在SVP任务中的表现存在差异,需要进一步的研究和改进。
    在这里插入图片描述
    在这里插入图片描述

推荐阅读指数
★★★★☆

推荐理由
这篇论文提出了一个创新的框架VulnLLMEval,用于评估大型语言模型在软件漏洞检测和修补任务中的性能。通过创建一个基于真实世界漏洞的数据集,并开发自动化的数据收集方法,该研究为LLMs在软件安全领域的应用提供了有价值的见解和评估工具。对于从事软件安全、漏洞检测和语言模型研究的学者和工程师来说,这是一篇值得阅读的论文。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/54822.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Hadoop 性能优化高频面试题及答案

目录 高频面试题及答案1. 如何通过调整 MapReduce 任务的并行度优化性能?2. 如何通过数据压缩优化 MapReduce 性能?3. 如何通过调整 IO 相关参数提升 Hadoop 性能?4. 如何优化 NameNode 和 DataNode 的性能?5. 如何通过优化 Shuffle 阶段提高 Hadoop 性能?6. 如何通过合理…

如何正确连接和使用滑动变阻器?

滑动变阻器是可以改变电阻值的电子元件,广泛应用于各种电子设备和电路中。正确连接和使用滑动变阻器对于保证电路的正常工作和延长设备的使用寿命至关重要。以下是关于如何正确连接和使用滑动变阻器的一些建议: 了解滑动变阻器的基本原理和结构&#xf…

C# 里,常用的数据类型转换说明,以及简单示例

在 C# 中,类型转换是将一个数据类型的值转换为另一个数据类型的过程。类型转换可以分为两种:隐式类型转换和显式类型转换(也称为强制类型转换)。 隐式类型转换 隐式转换是不需要编写代码来指定的转换,编译器会自动进…

DERT目标检测源码流程图main.py的执行

DERT目标检测源码流程图main.py的执行 官网预测脚本 补充官网提供的预测部分的代码信息。 from PIL import Image import requests import matplotlib.pyplot as pltimport torch from torch import nn from torchvision.models import resnet50 import torchvision.transform…

大数据Flink(一百二十四):案例实践——淘宝母婴数据加速查询

文章目录 案例实践——淘宝母婴数据加速查询 一、​​​​​​​创建数据库表并导入数据 二、​​​​​​​​​​​​​​创建session集群 三、​​​​​​​​​​​​​​源表查询 四、​​​​​​​​​​​​​​指标计算 案例实践——淘宝母婴数据加速查询 随着…

Poetry进行python项目创建和管理

Poetry 是一个用于依赖管理和打包的工具,它让创建和管理 Python 项目变得更加简单。以下是如何使用 Poetry 创建和管理 Python 项目的步骤。 安装 Poetry 首先,你需要安装 Poetry。你可以使用官方提供的安装脚本来安装 Poetry: curl -sSL …

新建flask项目,配置入口文件,启动项目

pycharm新建flask项目时,会提供一个创建flask项目的导向,自动设置虚拟环境,并且安装flask及其依赖而vscode新建flask项目时,需要手动设置虚拟环境并安装flask,需要在终端使用pip install flask命令来安装flask及其依赖…

无人船在海洋勘探领域的应用!

一、具体应用 海底地形测绘: 无人船可以搭载多波束测深仪等先进设备,进行高精度的海底地形测绘。这些设备能够生成详细的海底地形图,为海洋工程设计和施工提供详尽的水下地形资料。 海底资源勘探: 通过搭载磁力仪、重力仪等地…

vue框架学习 -- 表单开发之页面自定义显示值

在 Vue 2.0 中,如果在使用 Element UI 的 组件,并希望自定义 中显示的 prop 属性的值(比如, memberName),有几种方法可以实现这一点。最直接的方法之一是在 Vue 组件的 data 函数或计算属性(com…

HTML5实现唐朝服饰网站模板源码

文章目录 1.设计来源1.1 网站首页-界面效果1.2 唐装演变-界面效果1.3 唐装配色-界面效果1.4 唐装花纹-界面效果1.5 唐装文化-界面效果 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcL…

【Kubernetes】常见面试题汇总(四十一)

目录 94. iptables 四个表五个链。 95. Kubernetes 如何简化容器化部署? 特别说明: 题目 1-68 属于【Kubernetes】的常规概念题,即 “ 汇总(一)~(二十二)” 。 题目 69-113 属于【Kuber…

TikTok直播:选择TK直播盒子还是专线节点?

随着短视频平台的蓬勃发展,TikTok(抖音国际版)直播已成为主播和商家推广产品、增强与观众互动的重要手段。在这一过程中,选择合适的直播工具和技术方案显得尤为重要。对于希望在TikTok上取得成功的主播而言,使用TK直播…

JSON 教程

JSON 教程 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title> </head> …

UE虚幻引擎云渲染汽车动画的优势!

在汽车广告和动画制作领域&#xff0c;虚幻引擎&#xff08;UE&#xff09;结合云渲染技术正掀起一场技术革命。这项技术以其高性能、成本效益和灵活性&#xff0c;为创作者提供了强大的工具&#xff0c;以实现更加逼真和高效的汽车动画制作。 一、为什么选择UE虚幻引擎制作汽车…

学习笔记每日一题

给你一个整数 n &#xff0c;找出从 1 到 n 各个整数的 Fizz Buzz 表示&#xff0c;并用字符串数组 answer&#xff08;下标从 1 开始&#xff09;返回结果&#xff0c;其中&#xff1a; answer[i] "FizzBuzz" 如果 i 同时是 3 和 5 的倍数。answer[i] "Fizz…

2024年厦门市大数据创新应用大赛圆满收官

2024年厦门市大数据创新应用大赛圆满收官 2024年9月19日-20日&#xff0c;由厦门市数据管理局、厦门市公安局、厦门市生态环境局联合主办&#xff0c;厦门市信息中心承办的2024年厦门市大数据创新应用大赛圆满收官。 经专家评审团评审 最终决出获奖名单 决赛评审会现场 2024年…

PMI-ACP®认证考试内容将于2025年第一期考试更新

PMI敏捷管理专业人士&#xff08;PMI-ACP&#xff09;认证即将在2025年迎来引入中国大陆的十周年纪念。 十年时间&#xff0c;我们见证了敏捷实践方法普及和敏捷项目管理的“知行合一”&#xff0c;采用敏捷方法的中国企业团队比例的快速持续增长&#xff0c;中国PMI-ACP专业人…

HarmonyOS 自定义 loading 效果

大致思路 主要利用 Progress 组件 利用aboutToAppear周期函数&#xff1a;在创建自定义组件的新实例后&#xff0c;在执行其build()函数之前执行 利用aboutToDisappear函数在自定义组件析构销毁之前执行&#xff0c;这里主要用来清除定时器 实现效果 组件封装 components/H…

【pytorch】pytorch入门4:神经网络的卷积层

文章目录 前言一、定义概念 缩写二、性质三、代码总结参考文献 前言 使用 B站小土堆课程的笔记 一、定义概念 缩写 卷积层是神经网络中用于突出特征来进行分类任务的层。 二、性质 卷积核例子&#xff1a;vgg16 model 三、代码 添加库 python代码块import os import …

大屏可视化px转rem方案实现

该方案有点不会字体模糊&#xff0c;现实一比一扩张收缩。 参考&#xff1a;vue项目实现PC端各分辨率适配 - 李云蹊 - 博客园 (cnblogs.com) 注意该文章Vue项目使用webpack。 如果 如果 如果 你用的是Vuevite Vite Vite Vite需要修改 postcss.config.js 文件 import autopr…