—第1篇----
=====
Consistency of Responses and Continuations Generated by Large Language Models on Social Media
🔍 关键词: Large Language Models, emotional consistency, semantic coherence, social media, Gemma, Llama
链接1
摘要: 本文研究了大型语言模型(LLM)在社交媒体环境下处理情感内容和保持语义一致性的能力。研究人员使用Gemma和Llama两个开源模型,通过延续和响应任务分析了LLM在处理情感内容和保持语义关系方面的表现。通过分析Twitter和Reddit上的气候变化讨论,研究人员考察了人类创作内容和LLM生成内容之间的情感转变、强度模式和语义相似性。研究发现,虽然这两个模型都保持了较高的语义一致性,但它们表现出不同的情感模式:Gemma倾向于放大负面情绪,尤其是愤怒,同时保持某些积极情绪,如乐观。Llama在更广泛的情感范围内表现出更优越的情感保留能力。在响应任务中,这两个模型系统地生成的情感强度低于人类创作的内容,并且表现出对积极情绪的偏好。此外,这两个模型都与原始文本保持了很高的语义相似性,尽管延续和响应任务的性能有所不同。这些发现为LLM的情感和语义处理能力提供了见解,对它们在社交媒体环境中的部署和人机交互设计具有重要意义。 总结: 本文研究了大型语言模型在社交媒体环境下的情感一致性和语义连贯性,发现Gemma和Llama模型在保持语义一致性的同时,在情感处理方面表现出不同的模式,并对LLM在社交媒体环境中的应用和人机交互设计具有重要意义。
###【arXiv编号】2501.08102v2
###【git】
###【期刊】
###【领域】自然语言处理,人工智能,人机交互
[推荐指数:4]
推荐理由: 本文研究了大型语言模型在社交媒体环境下的情感一致性和语义连贯性,并分析了两个开源模型Gemma和Llama的表现,为LLM在社交媒体环境中的应用和人机交互设计提供了重要参考。
=====
—第2篇----
=====
Development and Validation of the Provider Documentation Summarization Quality Instrument for Large Language Models
🔍 关键词: Large Language Models, Provider Documentation Summarization Quality Instrument, EHR, Clinical Summaries, Validation
链接1
摘要: 随着大型语言模型(LLMs)被集成到电子健康记录(EHR)工作流程中,在实施之前,验证的工具对于评估其性能至关重要。现有的医疗记录质量评估工具通常不适合LLM生成文本的复杂性,并且缺乏对真实世界数据的验证。Provider Documentation Summarization Quality Instrument (PDSQI-9)被开发用于评估LLM生成的临床摘要。使用多个LLMs(GPT-4o、Mixtral 8x7b和Llama 3-8b)从多个专业的真实世界EHR数据中生成多文档摘要。验证包括皮尔逊相关性以进行实质性效度、因子分析和克朗巴赫系数以进行结构效度、评判者间信度(ICC和克里彭多夫系数)以进行泛化性、半德尔菲过程以进行内容效度,以及高质量摘要与低质量摘要的比较以进行区分效度。七位医生评审者评估了779篇摘要,回答了8329个问题,评判者间信度超过80%。PDSQI-9表现出强大的内部一致性(克朗巴赫系数=0.879;95%CI:0.867-0.891)和高评判者间信度(ICC=0.867;95%CI:0.867-0.868),支持结构效度和泛化性。因子分析确定了一个4因子模型,解释了58%的方差,分别代表组织、清晰度、准确性和实用性。实质性效度得到笔记长度与简洁(rho=-0.200, p=0.029)和组织(rho=-0.190, p=0.037)分数之间的相关性的支持。区分效度区分了高质量摘要和低质量摘要(p<0.001)。PDSQI-9展现出强大的结构效度,支持其在临床实践中用于评估LLM生成的摘要,并促进LLMs更安全地集成到医疗保健工作流程中。
###【arXiv编号】2501.08977v1
###【领域】计算机科学,人工智能,医疗保健
[推荐指数:4]
推荐理由: 本文针对LLM生成医疗记录摘要的质量评估问题,提出了PDSQI-9评估工具,并进行了较为全面的验证,证明了该工具的有效性。该研究对于促进LLMs在医疗领域的应用具有重要意义。
=====
—第3篇----
=====
Multimodal LLMs Can Reason about Aesthetics in Zero-Shot
🔍 关键词: cs.CV, cs.AI, cs.CL, cs.MM
链接1
摘要: 本文首次研究了如何利用多模态大型语言模型(MLLMs)的推理能力来评估艺术作品的美学。为了促进这项研究,我们构建了MM-StyleBench,这是一个新的高质量数据集,用于对艺术风格化进行基准测试。然后,我们开发了一种原则性的方法来进行人类偏好建模,并对MLLMs的响应与人类偏好进行了系统性的相关性分析。我们的实验揭示了MLLMs在艺术评估中固有的幻觉问题,这与响应的主观性有关。提出了ArtCoT,证明了艺术特定的任务分解和具体语言的使用可以提高MLLMs在美学方面的推理能力。我们的研究结果为MLLMs在艺术中的应用提供了宝贵的见解,并可以使各种下游应用受益,例如风格迁移和艺术图像生成。
总结: 本文提出了一种利用多模态大型语言模型(MLLMs)的推理能力来评估艺术作品美学的方法,并构建了MM-StyleBench数据集用于基准测试。
###【arXiv编号】2501.09012v1
###【git】https://github.com/songrise/MLLM4Art
###【期刊】
###【领域】计算机视觉、人工智能、自然语言处理、多媒体
[推荐指数:4]
推荐理由: 本文首次研究了如何利用多模态大型语言模型(MLLMs)的推理能力来评估艺术作品的美学,并提出了一种新的方法来进行人类偏好建模,具有较高的创新性。
=====
—第4篇----
=====
Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails
🔍 关键词: Large Language Models, AI Safety, Content Safety, Generative AI, LLM Guardrails
链接1
摘要: 随着大型语言模型(LLM)和生成式AI的普及,人们对内容安全的担忧也与日俱增。目前,缺乏高质量、人工标注的数据集来解决LLM相关安全风险的全部范围,并且这些数据集可用于商业应用。为了弥合这一差距,我们提出了一种全面且可适应的分类安全风险的分类法,将其结构化为12个顶级危害类别,并扩展到9个细粒度子类别。该分类法旨在满足下游用户的各种需求,提供更细粒度和灵活的工具来管理各种风险类型。使用一种混合数据生成管道,将人工标注与多LLM“陪审团”系统相结合来评估响应的安全性,我们获得了Aegis 2.0,一个精心策划的包含34,248个样本的人机交互集合,根据我们提出的分类法进行标注。为了验证其有效性,我们证明了几个轻量级模型,使用参数高效技术在Aegis 2.0上训练,其性能与在更大、非商业数据集上完全微调的领先安全模型相媲美。此外,我们还引入了一种新颖的训练混合方法,将安全性与主题跟踪数据相结合。这种方法增强了防护模型的适应性,使它们能够泛化到推理期间定义的新风险类别。我们计划将Aegis 2.0数据和模型开源给研究界,以帮助LLM的安全防护。 总结: 本文提出了一种名为Aegis 2.0 的数据集,包含34,248个样本的人机交互集合,用于解决LLM相关安全风险,并可用于商业应用。
###【arXiv编号】2501.09004v1
###【git】无
###【期刊】无
###【领域】计算机科学,自然语言处理
[推荐指数:4]
推荐理由: Aegis 2.0数据集包含了大量的样本,并且使用了多LLM“陪审团”系统来评估响应的安全性,这使得它成为一个非常有价值的数据集。此外,本文还提出了一种新颖的训练混合方法,将安全性与主题跟踪数据相结合,这将有助于提高防护模型的适应性。
=====
—第5篇----
=====
Learning to Extract Cross-Domain Aspects and Understanding Sentiments Using Large Language Models
🔍 关键词: Aspect-based sentiment analysis, Cross-domain, Large Language Models, Sentiment classification, Aspect extraction
链接1
摘要: 基于方面的情感分析(ASBA)是一种细化的情感分析方法,旨在根据产品、服务或实体的特定方面或特征提取和分类情感。与传统的将总体情感评分分配给整个评论或文本的情感分析不同,ABSA侧重于将文本分解为各个组成部分或方面(例如,质量、价格、服务)并评估对每个方面的感情。这使得对客户意见有更细致入微的了解,使企业能够准确地找出优势和改进的具体领域。该过程涉及几个关键步骤,包括方面提取、情感分类以及针对评论段落或用户提供的任何其他形式的方面级情感聚合。ABSA在产品评论、社交媒体监控、客户反馈分析和市场研究等领域具有重要应用。通过利用自然语言处理(NLP)和机器学习的技术,ABSA有助于提取有价值的见解,使公司能够做出数据驱动的决策,从而提高客户满意度并优化产品。随着ABSA的发展,它有可能通过更深入地了解各种产品方面的感情,极大地改善个性化的客户体验。在这项工作中,我们分析了LLMs在跨域方面的情感分析中的优势,目的是为某些产品定义框架并将其用于其他类似情况。我们认为,对于SemEval-2015 Task 12的基于方面的情感分析数据集,可以实现92%的准确率。 总结: 本文研究了大型语言模型在跨域方面的情感分析中的应用,并提出了一个框架,该框架可以将特定产品的情感分析结果应用于其他类似产品。
###【arXiv编号】2501.08974v1
###【git】无
###【期刊】无
###【领域】自然语言处理,情感分析
[推荐指数:4]
推荐理由: 这篇文章提出了一个基于大型语言模型的跨域方面的情感分析框架,并取得了不错的效果。该框架可以应用于各种产品,具有较高的实用价值。
=====
—第6篇----
=====
Customizable LLM-Powered Chatbot for Behavioral Science Research
🔍 关键词: cs.LG, Large Language Models, Chatbot, Behavioral Science Research
链接1
摘要: 人工智能的快速发展导致了大型语言模型(LLM)的出现,这些模型能够生成与人类交流非常相似的文本。这些模型已无缝集成到各种应用程序中,从而在多个平台上实现交互式和响应式通信。聊天机器人的潜在效用超越了这些传统应用,特别是在研究环境中,它们可以提供有价值的见解并促进创新实验的设计。在本研究中,我们提出了一个可定制的 LLM 驱动的聊天机器人 (CLPC),这是一个基于网络的聊天机器人系统,旨在协助行为科学研究。该系统经过精心设计,用作实验工具,而不是传统的聊天机器人,需要用户在访问时输入用户名和实验代码。这种设置有助于精确的数据交叉引用,从而提高为研究目的收集数据的完整性和适用性。它可以轻松扩展以根据需要容纳新的基本事件;它允许研究人员集成他们自己的日志记录事件,而无需实现单独的日志记录机制。值得注意的是,我们的系统旨在主要协助行为科学研究,但并不局限于此,它可以轻松地适应协助信息检索研究或与聊天机器人代理进行一般交互。
总结: 本文介绍了一个可定制的 LLM 驱动的聊天机器人系统 (CLPC),该系统旨在协助行为科学研究,它可以作为实验工具,并可以轻松扩展以适应新的基本事件,并允许研究人员集成他们自己的日志记录事件。
###【arXiv编号】2501.05541v2
###【git】
###【期刊】
###【领域】行为科学研究, 信息检索
[推荐指数:4]
推荐理由: 本文提出了一种基于 LLM 的聊天机器人系统,该系统旨在协助行为科学研究,具有可定制性,并且可以轻松扩展以适应新的基本事件,并允许研究人员集成他们自己的日志记录事件,具有较高的实用价值。
=====
—第7篇----
=====
Analyzing the Ethical Logic of Six Large Language Models
🔍 关键词: cs.AI, cs.CY
链接1
摘要: 本研究考察了六个著名的生成式大型语言模型的伦理推理能力:OpenAI GPT-4o、Meta LLaMA 3.1、Perplexity、Anthropic Claude 3.5 Sonnet、Google Gemini 和 Mistral 7B。研究探讨了这些模型如何阐述和应用伦理逻辑,特别是在应对道德困境(如电车难题和海因茨困境)时。与传统的对齐研究不同,本研究采用可解释性和透明性框架,提示模型解释其伦理推理。这种方法通过三种已建立的伦理类型进行分析:后果主义-义务论分析、道德基础理论和科尔伯格道德发展阶段模型。研究结果表明,LLM 表现出高度一致的伦理逻辑,以理性主义和后果主义为特征,决策通常优先考虑减少伤害和公平。尽管预训练和模型架构相似,但不同模型在伦理推理方面存在细微和显著差异,反映了微调和后训练过程的差异。这些模型始终表现出博学、谨慎和自我意识,呈现出类似于道德哲学研究生水平的伦理推理。这些系统在惊人的一致性中都描述了它们的伦理推理比典型人类道德逻辑更复杂。 总结: 研究分析了六个大型语言模型的伦理推理能力,发现它们表现出高度一致的伦理逻辑,以理性主义和后果主义为特征,决策通常优先考虑减少伤害和公平。
###【arXiv编号】2501.08951v1
###【git】无
###【期刊】无
###【领域】计算机科学,人工智能,伦理学
[推荐指数:4]
推荐理由: 本文对六个大型语言模型的伦理推理能力进行了深入研究,采用了可解释性和透明性框架,并通过三种已建立的伦理类型进行分析,研究结果具有重要意义。
=====
—第8篇----
=====
Physical AI Agents: Integrating Cognitive Intelligence with Real-World Action
🔍 关键词: cs.MA, Physical AI Agents, Vertical AI Agents, Ph-RAG, Embodied AI
链接1
摘要: 物理 AI 代理是垂直 AI 代理的演进,它将认知推理与物理动作相结合,以执行现实世界的任务。该论文提出了一种模块化架构,包括感知、认知和执行三个核心模块,并介绍了物理检索增强生成 (Ph-RAG) 设计模式,将物理智能连接到行业特定的 LLM,以进行实时决策。
总结: 物理 AI 代理将认知推理与物理动作相结合,以执行现实世界的任务,并提供了一种模块化架构和 Ph-RAG 设计模式,用于将物理智能与行业特定的 LLM 连接起来,以进行实时决策。
###【arXiv编号】2501.08944v1
###【领域】计算机科学,人工智能,机器人技术
[推荐指数:4]
推荐理由: 该论文提出了一种新的 AI 代理类型,将认知推理与物理动作相结合,并提供了一种模块化架构和 Ph-RAG 设计模式,具有很高的创新性和实用性。
=====
—第9篇----
文章名称
🔍 关键词: Exploration, Large Language Models, Optimal Exploitation
链接
摘要: 本文探讨了大型语言模型在探索状态空间方面的能力。现有的评估主要关注探索和利用之间的权衡,通常在多臂赌博机问题中进行评估。相反,本文将探索作为唯一的目标,要求代理器提供增强未来收益的信息。作者提出将缺失奖励分解为探索和利用两个部分,通过测量已探索状态的最优可实现回报来实现。实验结果表明,大多数模型难以充分探索状态空间,弱探索能力是不够的。作者观察到模型大小与探索性能之间存在正相关关系,较大的模型表现出更强的探索能力。此外,作者还展示了这种分解方法可以提供有关提示工程期间代理指令驱动的行为差异的见解,为改善探索任务中的语言模型性能提供了一个有价值的工具。
总结: 本文提出了一种新的方法来评估大型语言模型在探索任务中的性能,发现模型大小与探索能力正相关,并提供了一个有价值的工具来优化模型在探索任务中的性能。
###【arXiv编号】2501.08925v1
###【领域】计算机视觉、自然语言处理
[推荐指数:4]
推荐理由
本文从探索能力这个创新角度对大型语言模型进行了深入分析,并提出了一种新的评估方法。结果表明,模型大小与探索能力呈正相关,这为进一步提升大型语言模型在开放式问题求解中的能力提供了启示。此外,作者提出的分解方法也为优化模型性能提供了有价值的工具。整体上看,该研究具有较强的创新性和实用性,值得推荐。
—第10篇----
GenAI Content Detection Task 3: Cross-Domain Machine-Generated Text Detection Challenge
🔍 关键词: GenAI, Content Detection, Machine-Generated Text, Cross-Domain
http://arxiv.org/pdf/2501.08913v1
摘要: 近年来,许多共享任务都针对从大语言模型(LLMs)检测生成的文本。但是,这些共享任务要么集中于单一特定领域的文本,要么涉及多个领域的文本,其中有些可能在测试时未被见过。在这个共享任务中,使用新发布的RAID基准,我们旨在回答模型是否能够检测来自大量但固定数量领域和LLMs的生成文本,这些领域和LLMs在训练期间都可见。在为期三个月的任务中,有9个团队提交了23个探测器。我们发现,多个参与者能够在保持5%的误报率的情况下,在RAID上的机器生成文本检测准确率超过99% - 这表明探测器能够同时从多个领域和模型中健壮地检测文本。我们讨论了这一结果的潜在解释,并提供了未来研究的方向。
总结: 这篇文章报告了一个针对跨领域机器生成文本检测的共享任务,9个团队在三个月的任务中提交了23个探测器,发现参与者能够在保持低误报率的同时,在RAID数据集上实现超过99%的准确率,表明探测器能够从多个领域和模型中健壮地检测机器生成文本。
[arXiv:2501.08913]
[无git信息]
[IEEE EMNLP 2025]
领域: 计算机科学,自然语言处理
[推荐指数:4]
推荐理由
该文章提出并测试了一个有趣而有价值的跨领域机器生成文本检测任务,提供了很高的检测精度,为这一新兴领域的发展提供了重要参考。该任务的设计和结果分析都很出色,值得进一步研究和应用。
—第11篇----
这篇文章属于计算机领域。
摘要: 这项研究提出了一个代理系统,将大型语言模型(LLMs)和知识图谱(KGs)集成起来,以应对材料化学中可靠合成途径确定这一复杂的任务,尤其在聚合物科学领域,这是由于大分子的复杂且非唯一的命名方式。该系统充分利用LLMs提取和识别化学物质名称的强大功能,将提取的数据存储在结构化的知识图谱中,全自动检索相关文献、提取反应数据、数据库查询、构建逆合成路径树,并通过检索更多文献和推荐最优反应路径进一步扩展。一种新颖的多分支反应路径搜索(MBRPS)算法能够探索所有路径,特别关注多分支路径,帮助LLMs克服在多分支路径中的弱推理能力。这项工作是第一次尝试开发一个完全自动化的、由LLMs驱动的针对大分子的逆合成规划代理系统。应用于聚酰亚胺合成,新方法构建了包含数百条路径的逆合成路径树,并推荐了优化路径,包括已知和新颖路径,展示了其有效性和更广泛应用的潜力。
总结: 这项研究开发了一个集成大型语言模型和知识图谱的自动逆合成规划代理系统,针对聚合物化学等复杂领域,展现了优秀的性能。
【arXiv编号】2501.08897v1
【领域】计算机
[推荐指数:4]
推荐理由
这项工作在处理大分子逆合成规划这一传统上困难的问题上取得了重要突破,通过将大型语言模型与知识图谱相结合,构建了一个全自动、高效的代理系统,展现了广泛的应用前景。这种创新性方法值得在材料化学、合成化学等领域进一步探索和应用。
—第12篇----
本篇文章属于计算机领域的生成式语言模型,主要介绍了一个新的Theory of Mind (ToM)基准评测数据集ToMATO的设计。
摘要: ToMATO是一个新的基于对话的ToM基准测试,通过让语言模型扮演不同性格角色进行对话,捕捉他们的各种心理状态,如信念、意图、欲望、情绪和知识。通过隐藏某些信息引入信息不对称,从而产生各种误信念。ToMATO包含5.4k个问题、753个对话以及15种不同性格特征。实验发现,即使是强大的GPT-4也在理解错误信念和应对不同性格上存在局限性,还需进一步提升。
总结: 本文提出了一个新的ToM基准测试ToMATO,通过有信息不对称的角色对话捕捉语言模型的多种心理状态,以此评估其Theory of Mind能力。
[arXiv:2501.08838]
[git]
[期刊]
领域: 计算机视觉、自然语言处理
推荐指数: 4
—第13篇----
这是一篇计算机领域的学术论文,主要讨论了开放命名实体识别的相关研究。
摘要: 本文提出了一个名为B2NERD的新数据集,它是从54个现有的英语和中文数据集中提取和归纳而来的,旨在构建一个统一的实体类型分类体系,解决不同数据集之间实体定义不一致和冗余数据的问题。B2NERD包含400多种实体类型,通过在此数据集上训练语言模型,显著提高了大型语言模型在开放命名实体识别任务上的性能,并在跨领域的评估中也取得了较好的结果。作者将相关的数据集、模型和代码公开发布在GitHub上。
总结: 本文提出了一个有助于提高大型语言模型开放命名实体识别能力的新数据集B2NERD,并验证了其在跨领域、跨语言的有效性。
[arXiv编号:2406.11192v2]
[git:https://github.com/UmeanNever/B2NER]
[领域:计算机语言]
[推荐指数:4]
推荐理由: 该论文在开放命名实体识别领域做出了创新性的贡献,提出了一个统一的实体类型分类体系和相应的数据集,显著提升了大型语言模型在该任务上的性能,具有较强的实用价值。
—第14篇----
=====
ASTER: Natural and Multi-language Unit Test Generation with LLMs
🔍 关键词: cs.SE
http://arxiv.org/pdf/2409.03093v3
摘要: 本文提出了一种利用大语言模型(LLM)自动生成可编译且可读性高的单元测试用例的方法。该方法结合了静态分析技术来引导LLM生成高覆盖率的测试用例。我们在Java和Python两种语言上验证了该方法的有效性,并且在标准和企业级应用程序上进行了广泛的实验评估。结果表明,与现有的自动生成技术相比,该方法生成的测试用例不仅覆盖率更高,而且可读性也更好,开发人员认为更容易理解。我们还通过一项用户研究进一步验证了生成测试用例的可读性特点。 总结: 利用LLM结合静态分析技术,可以自动生成可编译和可读性高的单元测试用例。
###【arXiv编号: 2409.03093v3】
###【git】
###【期刊】
###【领域: 软件工程】
[推荐指数:4]
推荐理由
该研究提出了一种创新性的利用LLM自动生成高质量单元测试用例的方法,不仅覆盖率高,而且可读性好,对提高软件测试的效率和质量具有重要意义。该方法适用于多种编程语言,在评估中表现出色,且经过用户研究验证,实用性很强。
—第15篇----
该论文属于计算机科学领域。
文章名称
Enhanced Large Language Models for Effective Screening of Depression and Anxiety
🔍 关键词: cs.CL
链接1
摘要: 该论文提出了一种基于大型语言模型(LLM)的情绪障碍筛查系统EmoScan。EmoScan可以区分粗糙级别(如焦虑或抑郁障碍)和细粒度级别(如major depressive disorder)的情绪障碍,并进行高质量的临床访谈。评估结果表明,EmoScan在情绪障碍筛查方面超越了基础模型和GPT-4等其他LLM,并提供优秀的解释能力和良好的泛化性。此外,EmoScan在访谈技能方面也优于基线。这项工作突出了可扩展的数据生成管道在开发有效的心理健康LLM工具方面的重要性。 总结:该论文提出了一种基于LLM的情绪障碍筛查系统EmoScan,在多个方面都优于基线模型。
###【arXiv编号】2501.08769
###【领域】计算机科学,自然语言处理
[推荐指数:4]
推荐理由
该论文提出了一个创新性的基于LLM的情绪障碍筛查系统EmoScan,在性能、解释性和泛化性等多个方面都取得了出色的成果,很好地展示了如何利用LLM技术来解决心理健康领域的实际问题。该系统在实用性和应用前景方面都很有潜力,值得进一步关注和研究。
—第16篇----
利用LLM代理进行网络配置翻译
🔍 关键词: network configuration, intent-based, large language model, Retrieval Augmented Generation
http://arxiv.org/pdf/2501.08760v1
摘要: 配置翻译是网络运营中一项关键且频繁的任务。当网络设备受损或过时时,管理员需要更换设备以维持服务连续性。更换设备可能来自不同的供应商,需要进行配置翻译以确保网络操作的无缝性。然而,手动翻译配置是一个费力且容易出错的过程。本文提出了一个基于意图的框架,利用大型语言模型(LLM)代理来翻译网络配置。我们的方法的核心是一个基于意图的检索增强生成(IRAG)模块,它系统地将配置文件拆分为片段,提取意图,并生成准确的翻译。我们还设计了一种两阶段验证方法来验证翻译配置的语法和语义正确性。我们在真实网络配置上实现并评估了所提出的方法。实验结果表明,我们的方法在翻译准确性方面优于最先进的方法,达到了97.74%的语法正确性。
总结: 本文提出了一种基于LLM代理的配置翻译框架,通过Intent-based Retrieval Augmented Generation模块准确翻译网络配置,并设计了双重验证方法确保翻译质量,在真实场景中达到了97.74%的语法正确率。
###【arXiv编号: 2501.08760v1】
###【git】
###【期刊】
###【领域】
- 计算机网络
- 人工智能
- 机器学习
- 软件工程
[推荐指数:4]
推荐理由
该文章提出了一种基于LLM的配置翻译框架,能够自动化地完成网络配置的翻译工作,提高了效率和准确性。该方法在现实网络配置中验证效果良好,具有较强的创新性和实用性,值得关注和学习。
—第17篇----
#文章名称
Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar
####🔍 关键词: Unseen Horizons, LLM Code Generation, OBFUSEVAL
链接1
摘要: 该文章探讨了大型语言模型(LLMs)在代码生成任务中的实际能力。现有的评估方法存在"熟悉专家"的问题,主要是由于目标代码曝光度、案例时效性和依赖可用性等三大差距造成的。作者提出使用代码混淆技术构建OBFUSEVAL基准,并评估了四种LLMs在该基准上的表现。结果显示,在混淆后平均测试通过率下降可达62.5%。这揭示了LLMs在代码生成方面的实际能力与我们认知的差距。
总结: 本文提出OBFUSEVAL基准评估LLMs在代码生成任务中的真实能力,揭示了LLMs与现实需求间的差距。
###【arXiv编号】2412.08109v2
###【期刊】-
###【领域】计算机科学, 人工智能
[推荐指数:4]
推荐理由
该文章深入探讨了LLMs在代码生成任务中的实际能力,提出创新性的OBFUSEVAL评估方法,揭示了LLMs在代码生成面临的挑战。对于理解大语言模型在实际应用中的局限性具有重要意义,为进一步提升LLMs在软件开发中的应用提供了有价值的洞见。
—第18篇----
文章名称
Narrative Player: Reviving Data Narratives with Visuals
🔍 关键词: Narrative Player, data narratives, visuals, LLMs, optimization-based approach
链接1
摘要: 本文提出了一种名为Narrative Player的新方法,能够自动地将包含数据的段落转化为一个带有一致和上下文相关的可视化序列的数据视频。该方法首先利用LLMs来识别段落中的数据事实,然后采用经过精心设计的优化方法将这些事实转化为一系列可视化,并添加过渡动画以实现平滑过渡。最后,该可视化序列、过渡动画和语音旁白一起被渲染成一个数据视频。评估结果表明,自动生成的数据视频能够增强读者的阅读体验。 总结: 本文提出了一种自动将文本转化为带有可视化和语音讲解的数据视频的新方法,以改善读者的阅读体验。
###【arXiv编号】2410.03268
###【领域】计算机科学、人机交互
[推荐指数:5]
推荐理由
该方法在解决当前数据文档难以吸引读者的问题方面具有较高创新性和实用性。通过将文本转化为可视化和语音讲解的数据视频,大大增强了读者的理解和参与度。该方法利用LLMs和优化算法实现了自动化,减轻了人工成本,展示了将自然语言理解与数据可视化相结合的新思路。该方法在商业、金融和科学等数据密集型领域具有广泛应用前景。
—第19篇----
这篇文章属于计算机领域。
文章名称
How to Build an AI Tutor That Can Adapt to Any Course Using Knowledge Graph-Enhanced Retrieval-Augmented Generation (KG-RAG)
🔍 关键词: cs.CL
[http://arxiv.org/pdf/2311.17696v5]
摘要: 这篇论文介绍了一种基于知识图谱增强的检索辅助生成(KG-RAG)的可适应性人工智能辅导系统的新框架。该方法解决了基于大型语言模型(LLM)的辅导系统存在的信息虚假和课程特定适应性有限的关键挑战。通过将知识图谱(KG)与RAG集成,我们提供了课程概念及其相互关系的结构化表示,使人工智能导师的响应基于相关的、经过验证的材料。我们在KG-RAG框架内利用了强大且成本效益高的LLM Qwen2.5。一项用户研究(n=50)显示,学生对答案相关性、易用性和整体满意度给予积极反馈。这个KG-RAG框架为个性化学习体验和更广泛地获得高质量教育提供了一个有希望的途径。
总结: 这篇文章提出了一种基于知识图谱和检索辅助生成的可适应性人工智能辅导系统框架,可以克服现有LLM辅导系统存在的局限性,为个性化学习和获得高质量教育提供支持。
###【arXiv编号: 2311.17696v5】
###【git】
###【期刊】
###【领域: 计算机,人工智能,教育技术】
[推荐指数:4.5]
推荐理由
这篇论文提出了一个创新性的人工智能辅导系统框架,通过结合知识图谱和检索辅助生成技术,解决了现有LLM辅导系统存在的关键问题,可以为任何课程提供相关、准确的响应,为个性化学习和广泛获得优质教育提供可行的解决方案。该框架在用户体验评估中也获得了积极反馈,体现了较强的实用性。总的来说,这篇论文在技术创新和教育应用价值方面都很出色,值得高度推荐。
—第20篇----
这篇文章属于计算机科学领域,主要探讨了大型语言模型(LLMs)在某些情况下的局限性,以及说明指令调整(instruction tuning)和上下文学习(in-context learning)的能力存在本质上的收敛。
摘要:大型语言模型(LLMs)在各种任务中表现出了出色的能力,尤其是随着模型的规模不断增大。但即使是最先进的模型也在某些情况下挣扎,有时甚至无法解决儿童可以解决的问题,这表明传统的任务复杂性概念无法完全解释LLM的能力。探讨LLM能力的一个障碍是,大多数广泛使用的模型都经过了指令调整(instruction tuning),以能够恰当地响应提示。为了分离影响LLM性能的因素,我们调查了指令调整模型是否具有与基础模型(使用上下文示例进行提示)截然不同的能力。通过在不同模型族、规模和任务类型上进行广泛的实验,包括对90个不同的LLMs进行指令调整,我们发现指令调整模型的性能与其基础模型的上下文性能显著相关。通过阐明指令调整的贡献,我们扩展了对上下文学习(in-context learning)的先前研究,该研究表明基础模型使用预训练数据中的先验知识来解决任务。我们将这一理解扩展到指令调整模型,并提出它们的预训练数据同样设定了它们能解决任务的限制边界,同时受指令调整数据集的额外影响。
总结: 本文发现指令调整模型的性能与其基础模型的上下文学习能力存在本质上的关联,说明了LLMs固有的局限性。
—第21篇----
Title: Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations
🔍 关键词: AI Safety, Trustworthy AI, Responsible AI, Safe AI, Large Language Models
链接1
摘要: 本文提出了一个全新的架构框架,从三个方面理解和分析AI安全性:可信赖的AI、负责任的AI和安全的AI。文章广泛回顾了当前AI安全领域的研究进展,并重点介绍了各个方面的关键挑战和缓解措施。通过大语言模型等最新技术的案例,提出了设计和测试AI安全的创新机制、方法和技术。该研究旨在推动AI安全研究的进步,最终增强人们对数字化转型的信任。
总结: 本文提出了一个全面的AI安全架构框架,包括可信赖、负责任和安全三个方面,并针对现有技术如大语言模型提出创新性的设计和测试方法。
###【arXiv编号】2408.12935v3
###【领域】计算机科学 - 人工智能
[推荐指数:4]
推荐理由
该文章提出了一个全新的AI安全框架,全面涵盖了可信赖性、责任性和安全性等关键方面。针对当前AI系统安全性亟待解决的挑战,提出了创新的解决方案,对于提高人们对AI系统的信任度具有重要意义。整体上该文章创新性强,研究深入,应用前景广阔,值得重点关注和推荐。
—第22篇----
Knowledge Graph-based Retrieval-Augmented Generation for Schema Matching
🔍 Keywords: schema matching, knowledge graph, retrieval-augmented generation, large language models
arXiv
摘要: 传统的基于相似度的schema匹配方法无法解决领域特定复杂映射场景中的语义歧义和冲突问题,这是由于缺乏常识和领域特定知识。大型语言模型(LLM)的幻觉问题也使得基于LLM的schema匹配难以解决上述问题。因此,我们提出了一种基于知识图谱的检索增强生成模型用于schema匹配,称为KG-RAG4SM。具体而言,KG-RAG4SM引入了基于向量的、基于图遍历的和基于查询的图检索,以及一种混合方法和排名方案,从外部大型知识图谱中识别最相关的子图。我们展示了基于知识图谱的检索增强LLM能够在不进行任何再训练的情况下,为复杂的匹配案例生成更精确的结果。我们的实验结果表明,KG-RAG4SM在 MIMIC 数据集上分别比最先进的LLM方法(如Jellyfish-8B)的精确度和F1值高出35.89%和30.50%;在Synthea数据集上,KG-RAG4SM(使用GPT-4o-mini)分别比预训练语言模型(PLM)方法(如SMAT)的精确度和F1值高出69.20%和21.97%。结果还表明,我们的方法在端到端schema匹配中更加高效,并且能够扩展到大型知识图谱。我们在实际schema匹配场景的数据集上的案例研究表明,我们的解决方案很好地缓解了LLM在schema匹配中的幻觉问题。
总结: 该论文提出了一种基于知识图谱的检索增强生成模型(KG-RAG4SM),用于解决传统schema匹配方法无法处理语义歧义和LLM存在幻觉问题的问题,并在多个公开数据集上取得了显著的性能提升。
###【arXiv:2501.08686v1】
###【未公开git】
###【未公开期刊】
###【领域】: 计算机学科、自然语言处理、信息检索
[评分: 4]
推荐理由
该论文提出的KG-RAG4SM模型在解决schema匹配问题上取得了突出的性能表现, 综合利用知识图谱和大型语言模型的特点,解决了传统schema匹配方法和LLM单独难以解决的问题。论文的创新性、实用性都较强,值得关注和进一步研究。
—第23篇----
文章名称
Toward Automated Simulation Research Workflow through LLM Prompt Engineering Design
🔍 关键词: cs.AI, cs.CL, physics.chem-ph
链接1
摘要: 大型语言模型(LLM)的出现为自动化跨实验过程和计算模拟的科学研究创造了新的机会。本研究探讨了通过提示工程和自动化程序设计构建由LLM驱动的自主模拟代理(ASA)的可行性,以自动化整个模拟研究过程,包括实验设计、远程上传和模拟执行、数据分析和报告编制。以研究聚合物链构象的典型模拟问题为测试案例,评估了由不同LLM(包括GPT-4o、Claude-3.5等)驱动的ASA在长时间任务完成和可靠性方面的表现。结果显示,ASA-GPT-4o在指定的研究任务上实现了近乎完美的执行,突出了ASA等方法在提高模拟研究效率方面的潜力。该自动化过程可以连续进行20次而不需要人工干预,展示了ASA在长时间工作流程自动化方面的潜力。此外,我们还讨论了ASA在管理大量任务、专注于自我验证机制以及在局部关注和全局监督之间平衡方面的固有特点。
总结: 该文提出了一种基于大型语言模型的自主模拟代理(ASA),能够自动化整个模拟研究过程,展现出提高模拟研究效率的巨大潜力。
[arXiv编号: 2408.15512]
[期刊: N/A]
领域: 计算机科学、人工智能
[推荐指数:4]
该文提出了一种创新性的方法,可以实现模拟研究全流程的自动化,大大提高了研究效率,为相关领域的发展带来了新的思路。但该技术还有待进一步完善和验证,在可靠性和鲁棒性方面需要进一步提高。
推荐理由
该文提出了一种基于大型语言模型的自主模拟代理(ASA),能够自动完成模拟研究全流程,从实验设计到数据分析再到报告编制,大幅提高了研究效率。通过在经典的聚合物链构象模拟问题上的测试,证明了ASA在长时间任务完成和可靠性方面的出色表现,尤其是GPT-4o驱动的ASA,展现出了巨大的应用潜力。该方法为相关领域的研究者提供了一种新的工具,有望大幅降低模拟研究的人力和时间成本,促进科学研究的发展。不过,该技术在可靠性和鲁棒性方面仍需进一步完善和验证,需要关注自我验证机制以及局部注意力和全局监督之间的平衡问题。总的来说,这是一项非常有前景的研究成果,值得进一步关注和探索。
—第24篇----
文章名称
Augmenting Smart Contract Decompiler Output through Fine-grained Dependency Analysis and LLM-facilitated Semantic Recovery
🔍 关键词: 智能合约, 反汇编, 依赖分析, 语义恢复, 大型语言模型
链接1
摘要: 反编译器是广泛用于程序分析任务中的一种专门的逆向工程工具,特别是在程序理解和漏洞检测方面。然而,当前的Solidity智能合约反编译器在重构原始源代码方面存在重大局限性。特别是,最新反编译器的瓶颈在于不准确的方法识别、错误的变量类型恢复和缺失的合约属性。这些缺陷阻碍了下游任务和对程序逻辑的理解。为了解决这些挑战,我们提出了SmartHalo,这是一个新的框架,通过结合静态分析(SA)和大型语言模型(LLM)来增强反编译器的输出。SmartHalo利用了SA在控制流和数据流分析方面的准确性以及LLM在语义预测方面的能力。更具体地说,SmartHalo构建了一种新的数据结构-依赖图(DG),通过静态分析提取语义依赖关系。然后,它使用DG创建LLM优化的提示。最后,通过符号执行和形式验证来验证LLM输出的正确性。在一个由465个随机选择的智能合约方法组成的数据集上的评估表明,与最新的反编译器(如Gigahorse)相比,SmartHalo显著提高了反编译代码的质量。值得注意的是,将GPT-4集成到SmartHalo中进一步提高了其性能,分别实现了87.39%的方法边界精度、90.39%的变量类型精度和80.65%的合约属性精度。
总结: 该文提出了SmartHalo框架,通过结合静态分析和大型语言模型来增强Solidity智能合约代码的反编译结果,在方法识别、变量类型恢复和合约属性预测方面大幅改进了当前最佳反编译器的性能。
###【arXiv编号】2501.08670
###【领域】计算机科学-软件工程
[推荐指数:4]
推荐理由
该工作提出了一种创新的方法来增强Solidity智能合约代码的反编译质量,在重要的几个方面(方法识别、变量类型恢复和合约属性预测)取得了显著的性能提升。该方法结合了静态分析和大型语言模型的优势,并通过符号执行和形式验证进行了有效的输出校正。与现有的SOTA反编译器相比,SmartHalo在实用性和创新性方面都有较大的优势,值得进一步探索和应用。
—第25篇----
AfriHate: A Multilingual Collection of Hate Speech and Abusive Language Datasets for African Languages
🔍 关键词: Hate speech, Abusive language, African languages, Multilingual dataset
链接1
摘要: 此论文介绍了AfriHate数据集,这是一个由15种非洲语言组成的仇恨言论和侮辱性语言数据集。由于在许多全球南方地区缺乏适当的监管和审查,以及大型有针对性的针对少数群体的仇恨言论运动被忽视,因此有必要建立这样的数据集。AfriHate的每个实例都由熟悉当地文化的母语者进行注释。作者还报告了构建这些数据集的挑战,并提供了使用大语言模型进行分类的基线结果。该数据集、个人注释和仇恨言论及攻击性语言词汇表均可在GitHub上获得。总结: 该论文介绍了一个15种非洲语言组成的仇恨言论和攻击性语言数据集 AfriHate, 旨在解决全球南方地区监管和审查不足的问题。
[arXiv编号] 2501.08284
[领域] 计算机语言学
[推荐指数: 4]
推荐理由
AfriHate数据集填补了全球南方地区缺乏本地语言仇恨言论和攻击性语言数据的空白,为该地区的相关研究提供了宝贵的资源。该数据集由当地母语者注释,可以很好地反映地域文化背景,对于提高该地区的仇恨言论检测能力具有重要意义。论文也提供了使用大语言模型的分类基线结果,为后续研究奠定了基础。整体而言,AfriHate是一个创新性很强、对相关领域研究有重大影响的数据集。
—第26篇----
MAGNET: Augmenting Generative Decoders with Representation Learning and Infilling Capabilities
🔍 关键词: MAGNET, Generative Decoders, Representation Learning, Infilling
arxiv.org/pdf/2501.08648v1
摘要: 本文提出了MAGNET,这是一种改进的解码器模型,它在保留文本生成能力的同时,增强了表示学习和文本填充的能力。MAGNET引入了三个自监督训练目标,并采用了一种结合双向和因果注意力机制的方法,实现了统一的训练。实验结果表明,使用MAGNET训练的语言模型在token级和句子级表示学习任务中超过了强大的文本编码器,能够利用未来上下文生成恰当的文本填充,同时保持了开放式文本生成的能力而不会出现重复问题,并保留了预训练时获得的知识。
总结: MAGNET通过使用多任务训练,增强了解码器模型在表示学习和文本填充方面的能力,同时保留了其文本生成的能力。
###【arxiv】2501.08648v1
###【无git/期刊信息】
###【领域】自然语言处理,人工智能
[推荐指数:4]
推荐理由
MAGNET提出了一种创新性的方法,结合了表示学习和文本生成两大功能,并通过多任务训练实现了这两个目标的统一,在语言模型性能上取得了显著的提升。这不仅有助于增强语言模型的通用性和应用前景,也为其他领域的研究带来了启发。MAGNET在表示学习、文本填充等方面的突出表现,以及保持强大文本生成能力的特点,使其在实际应用中具有较高的潜在价值。因此我给予MAGNET较高的推荐评分。
—第27篇----
文章名称
🔍 关键词: Selective Instruction Tuning, LLMs, Uncertainty-Aware Self-Reflection
链接1
摘要: 本文提出了一种称为SelectIT的新方法,利用大语言模型(LLM)自身的内在不确定性,更有效地选择高质量的指令调优(IT)数据,无需额外的资源。此外,作者创建了一个经过SelectIT处理的Alpaca-GPT4数据集,命名为Selective Alpaca。实验结果表明,使用Selective Alpaca进行IT可以显著提高模型性能。SelectIT在不同基础模型和特定领域任务中的鲁棒性也得到了验证。作者的发现表明,更长时间和更耗计算资源的IT数据可能是更优质的IT来源,为未来相关研究提供了有价值的见解。
总结: 本文提出了一种利用LLM自身不确定性选择高质量IT数据的新方法SelectIT,结合创建的Selective Alpaca数据集,可以有效提高LLM在人机交互任务上的表现。
###【arXiv编号:2402.16705v2】
###【git:https://github.com/Blue-Raincoat/SelectIT】
###【领域】: 计算机科学, 人工智能, 机器学习
[推荐指数:4]
推荐理由
该方法创新性强,利用LLM自身的不确定性特性来选择高质量的IT数据,避免了依赖额外模型或数据的方法,实用性强。结合创建的Selective Alpaca数据集,在多个基础模型和特定任务上验证了方法的有效性和鲁棒性。对于提升LLM在人机交互任务上的性能具有重要意义。
—第28篇----
文章名称
MEMO: Fine-grained Tensor Management For Ultra-long Context LLM Training
🔍 关键词: cs.LG, cs.DC
arxiv链接
摘要: 近年来,大型语言模型(LLM)的训练利用了更长的上下文长度,以支持更具创造性的应用。然而,长上下文训练给GPU内存造成了巨大的压力,不仅导致了大量激活内存消耗,还产生了严重的内存碎片化问题。现有框架采用了重计算和并行化等策略来支持长上下文训练,但这些技术依赖于冗余计算或大量通信,导致了模型计算效率低下。本文提出了MEMO框架,通过细粒度的激活内存管理来支持高效的长上下文LLM训练。MEMO在前向传播后将内存消耗大的激活保存到CPU内存中,并在反向传播时取回,同时采用了分层的混合整数规划方法来优化激活内存的重复利用,最大程度地减少内存碎片化。实验结果显示,MEMO相比现有框架显著提高了模型计算效率,并成功在8张A800 GPU上训练了一个7B规模的LLM,实现了52.3%的模型FLOPs利用率。
总结: MEMO是一种支持高效训练长上下文LLM的内存管理框架,通过细粒度激活管理和内存碎片优化大幅提升了模型计算效率。
###【arxiv编号:2407.12117v3】
###【领域】: 机器学习、分布式计算
[推荐指数:4]
推荐理由
该论文提出了MEMO,一种针对大型语言模型长上下文训练的内存管理框架,有效解决了长上下文训练过程中的内存消耗和碎片化问题,大幅提升了模型的计算效率。MEMO采用了创新的基于CPU/GPU异构内存管理的策略,加上优化内存重复利用的算法,在仅使用8张A800 GPU的情况下就能训练7B规模的LLM,实现了52.3%的FLOPs利用率。该工作对于支持未来更大规模、更长上下文的LLM训练具有重要意义。
—第29篇----
这篇文章属于机器人领域,具体研究的是用于长时间策略任务的机器人操作。
摘要: 这篇文章提出了一种名为 RoboHorizon 的 LLM 辅助多视图世界模型,用于长时间机器人操作。它包括以下几个关键组成部分:1) 基于任务语言指令的密集奖励结构,帮助机器人更好地识别长时间任务; 2) 集成关键帧发现的多视图掩码自编码器架构,增强机器人对关键任务序列的感知; 3) 利用这些密集奖励和多视图表示构建的机器人世界模型,实现高效的长时间任务规划。实验表明,该方法在两个代表性基准测试(RLBench和FurnitureBench)上优于最先进的基于视觉的强化学习方法,在长时间任务上分别提高了29.23%和23.35%的成功率。
总结: 这是一种创新的基于语言和多视图表示的机器人长时间操作方法,可以有效提高机器人在复杂环境中的操作能力。
—第30篇----
SWSC: Shared Weight for Similar Channel in LLM
🔍 关键词: cs.LG, cs.CL
http://arxiv.org/pdf/2501.08631v1
摘要: 本文提出了一种基于相似信道的共享权重(SWSC)的大型语言模型(LLM)压缩方法。该方法使用K-Means聚类算法来聚集每个信道的模型权重,并使用每个聚类的代表向量近似替换整个聚类,从而大幅减少了模型权重参数的数量。为了解决性能下降的问题,作者在进行压缩之前和之后执行奇异值分解,保留更大的奇异值和其对应的奇异向量来补偿准确性。实验结果表明,该方法即使在低精度条件下也可以有效保证压缩LLM的性能。
总结: 本文提出了一种新的LLM参数压缩方法SWSC,通过共享相似信道的权重并进行奇异值补偿,在大幅减少参数的同时保证了模型的性能。
###【arXiv编号: 2501.08631】
###【期刊】
###【领域】计算机视觉、自然语言处理
[推荐指数:4]
推荐理由
SWSC方法创新性强,可以在不损害LLM性能的情况下大幅压缩模型参数,对于部署大型语言模型具有重要意义。方法原理清晰,实验结果也令人满意。预计该技术在未来会得到广泛应用。
—第31篇----
这篇文章属于计算机语言领域。
摘要: 这篇论文研究了大型语言模型中处理分层语法和线性语法的机制是否不同。作者首先观察到语言模型在处理分层语法和线性/位置语法输入时表现出不同行为。然后发现负责处理分层语法的组件与处理线性语法的组件是不同的,并通过消融实验进行了因果验证。最后,他们观察到对分层敏感的组件也会在非语义语汇上激活,这表明分层敏感性并不局限于有意义的输入。
总结: 本文发现,大型语言模型在处理分层语法和线性语法输入时使用不同的内部机制。
文章信息
🔍 关键词: Disjoint Processing Mechanisms, Hierarchical Grammars, Linear Grammars, Large Language Models
链接1
摘要: 这篇论文研究了大型语言模型中处理分层语法和线性语法的机制是否不同。作者首先观察到语言模型在处理分层语法和线性/位置语法输入时表现出不同行为。然后发现负责处理分层语法的组件与处理线性语法的组件是不同的,并通过消融实验进行了因果验证。最后,他们观察到对分层敏感的组件也会在非语义语汇上激活,这表明分层敏感性并不局限于有意义的输入。
总结: 本文发现,大型语言模型在处理分层语法和线性语法输入时使用不同的内部机制。
###【arXiv编号】2501.08618v1
###【git】
###【期刊】
###【领域】自然语言处理
[推荐指数:4]
推荐理由
这篇论文研究了大型语言模型在处理分层语法和线性语法输入时的内部机制差异,结果发现两种语法处理机制是分离的。这对于我们理解自然语言处理中的复杂语法结构有重要意义。而且这一发现也可能对于提高语言模型的性能产生启示。总体来说,这是一篇创新性较强且实用性较高的学术论文。
—第32篇----
Assessing the Alignment of FOL Closeness Metrics with Human Judgement
🔍 关键词: cs.CL
arxiv.org/pdf/2501.08613v1
摘要: 本文针对使用大型语言模型(LLM)配合外部定理证明器解决逻辑推理问题的新兴范式,研究了现有评价First-Order Logic(FOL)相似度的指标与人类判断的一致性。作者设计了各种微扰扰动FOL语句,评估现有指标对不同类型的扰动的敏感性。同时,作者采集了自然语言翻译为FOL的候选,对自动指标和人类标注的排序一致性进行了度量。实验结果表明,基于n-gram的BLEU指标对文本微扰动过于敏感,基于语义图的Smatch++指标则对结构微扰动过于敏感,而FOL专用指标对运算符微扰动较为敏感。相比之下,BertScore与人类判断的一致性更高。此外,作者还发现结合多种指标可以提高一致性和敏感性,相比单一指标效果更好。
总结: 该文提出了评估FOL相似度指标与人类判断一致性的方法,发现现有指标存在敏感性问题,并提出了结合指标的解决方案。该研究对于提升自然语言到FOL翻译的质量与可靠性具有重要意义。
[git]
[arxiv]
领域: 计算机科学,自然语言处理
推荐指数: 4
推荐理由
该工作深入探索了现有FOL相似度评测指标与人类判断的关系,发现了现有指标的问题,并提出了一种综合多种指标的方法来提高评估的可靠性。这对于提升基于FOL的自然语言推理系统的性能和可靠性具有重要意义。同时,该工作也为FOL质量评估提供了新的思路和方法,对于该领域的后续研究具有重要的参考价值。
—第33篇----
文章名称
🔍 关键词: Comparative Analysis, Listwise Reranking, Large Language Models, Limited-Resource Language Contexts
论文链接
摘要: 本研究评估了大型语言模型(LLMs)在非洲语言有限资源场景下排序重排序任务的性能。作者比较了RankGPT3.5、Rank4o-mini、RankGPTo1-mini和RankClaude-sonnet等专有模型在跨语言环境中的表现。结果表明,这些LLMs在大多数评估指标上明显优于传统的BM25-DT等基线方法,特别是在nDCG@10和MRR@100方面。这些发现突出了LLMs在增强低资源语言重排序任务中的潜力,并为成本有效的解决方案提供了见解。
总结: 该文章研究了大型语言模型在非洲语言有限资源场景下的排序重排序能力,结果表明这些模型在相关性评估指标上明显优于传统方法,展现了在低资源语言任务中的潜力。
[arXiv编号: 2412.20061v2]
【领域】计算机语言学
[推荐指数: 4]
推荐理由
该研究在低资源语言的排序重排序任务中探索了大型语言模型的性能,突出了这些模型在此领域的潜力,为后续的相关研究提供了有价值的参考。研究设计合理,结果分析明确,具有一定创新性和实用性。
—第34篇----
Monte Carlo Tree Search for Comprehensive Exploration in LLM-Based Automatic Heuristic Design
🔍 关键词: Monte Carlo Tree Search, LLM-Based Automatic Heuristic Design, Combinatorial Optimization
http://arxiv.org/pdf/2501.08603v1
摘要: 为解决复杂计划任务(如NP难组合优化问题)而手工设计启发式算法是一种常见做法,但需要大量的领域知识。最近,基于大语言模型(LLM)的自动启发式设计(AHD)方法显示出生成高质量启发式算法的前景,无需人工干预。现有的基于LLM的AHD方法采用种群维护固定数量的最佳执行LLM生成的启发式算法,并引入进化计算(EC)来逐步增强种群。然而,基于种群的过程往往存在贪婪性质,常导致陷入局部最优。相反,为了更全面地探索启发式空间,我们提出使用蒙特卡罗树搜索(MCTS)进行基于LLM的启发式进化,同时在树结构中保留所有LLM生成的启发式。通过一种新颖的思维对齐过程和探索衰减技术,所提出的MCTS-AHD方法在各种复杂任务上都能生成显著更高质量的启发式。
总结: 该文章提出了一种基于MCTS的LLM自动启发式设计方法,通过思维对齐和探索衰减,在复杂优化问题上生成更优质的启发式算法。
###【arXiv编号: 2501.08603】
###【git: https://github.com/zz1358m/MCTS-AHD-master】
###【领域: 计算机科学, 人工智能, 优化算法】
[推荐指数:4]
推荐理由
该文章提出了一种创新的基于MCTS的LLM自动启发式设计方法,相比传统基于种群的AHD方法,能更全面地探索启发式空间,生成更优质的启发式算法。该方法在复杂优化问题上有很好的表现,具有较强的实用价值。
—第35篇----
AutoRestTest: A Tool for Automated REST API Testing Using LLMs and MARL
🔍 Key Words: REST API, automated testing, semantic operation dependency graph, multi-agent reinforcement learning, large language models
[http://arxiv.org/pdf/2501.08600v1]
摘要: 该论文介绍了一种名为 AutoRestTest 的新型工具,用于有效地测试 REST API。该工具集成了语义操作依赖图(SODG)、多智能体强化学习(MARL)和大型语言模型(LLMs)。AutoRestTest 可以确定操作相关参数,并使用五个专门的智能体(操作、参数、值、依赖和头部)来识别操作的依赖关系并生成操作序列、参数组合和值。该工具提供了一个命令行界面,并提供有关成功操作数、检测到的唯一服务器错误和经过时间的持续遥测。完成后,AutoRestTest 将生成一份详细的报告,突出显示检测到的错误和已执行的操作。
总结: AutoRestTest 是一种集成了SODG、MARL和LLMs的新型自动化REST API测试工具,可以有效地确定操作依赖关系并生成测试用例,提高REST API的测试覆盖率和错误检测效果。
###【arXiv:2501.08600v1】
###【-】
###【-】
###【计算机软件工程、人工智能】
[4]
推荐理由
该工具集成了多项先进技术,如SODG、MARL和LLMs,以提高REST API的自动化测试效果,在测试覆盖率和错误检测方面都有很大改善。该工具对于提升REST API的质量和可靠性具有重要意义。
—第36篇----
LlamaRestTest: Effective REST API Testing with Small Language Models
🔍 Key words: REST API, Test Generation, Small Language Models
http://arxiv.org/pdf/2501.08598v1
摘要: 该论文提出了一种名为 LlamaRestTest 的新方法,利用两个定制的小型语言模型(LLMs)来生成现实的测试输入并在测试过程中发现参数依赖关系,通过结合服务器响应来提高 REST API 测试的有效性。这些 LLMs 是通过使用挖掘的 REST API 示例值和参数依赖关系数据集对 Llama3-8b 模型进行微调而创建的。论文对 12 个真实世界服务(包括 Spotify 等流行服务)进行了评估,并与 RESTGPT 等 GPT 驱动的规范增强工具以及其他最先进的 REST API 测试工具进行了比较。结果显示,微调使得较小的 LLMs 在检测可行规则和生成 REST API 测试输入方面优于大型模型,并探讨了不同量化水平下的效率。LlamaRestTest 在代码覆盖率和错误检测方面超过了最先进的工具,即使在使用 RESTGPT 增强的规范的情况下,论文还通过消融研究突出了其创新组件的影响。
总结: 该论文提出了一种基于小型语言模型的有效REST API测试方法LlamaRestTest,通过定制模型并结合服务器响应,在代码覆盖率和错误检测方面显著优于现有最先进的REST API测试工具。
[arXiv:2501.08598]
[https://github.com/myeongsoo/LlamaRestTest]
[IEEE Transactions on Software Engineering]
领域: 软件工程 自然语言处理
[推荐指数: 4]
推荐理由
该论文提出了一种创新性的REST API测试方法,突破了现有基于OpenAPI规范的黑盒测试局限性,利用定制的小型语言模型从人类可读的文档中提取可操作规则并生成测试输入,并通过结合服务器响应不断优化,在实际评测中取得了显著的性能提升。该方法的潜在应用前景广阔,值得进一步研究和推广。
—第37篇----
LoRS: Efficient Low-Rank Adaptation for Sparse Large Language Model
🔍 关键词: Low-Rank Adaptation, Sparse Large Language Models, Memory and Computation Efficiency
http://arxiv.org/pdf/2501.08582v1
摘要: 现有的低秩自适应(LoRA)方法在稀疏大型语言模型(LLMs)上面临挑战,因为无法保持稀疏性。最近的工作引入了通过将LoRA技术与附加掩蔽机制相结合来保持稀疏性的方法。尽管取得了这些成功,但这种方法会增加内存和计算开销,从而影响LoRA方法的效率。为了解决这一限制,我们提出了LoRS,这是一种旨在在微调稀疏LLMs时实现内存和计算效率的创新方法。为了减轻保持稀疏性带来的巨大内存和计算需求,我们的方法采用了权重重新计算和计算图重新排列的策略。此外,我们还通过更好的适配器初始化来提高LoRS的有效性。这些创新大大降低了微调阶段的内存和计算开销,同时也取得了优于现有LoRA方法的性能水平。
总结: LoRS是一种有效的低秩自适应方法,通过权重重新计算和计算图重新排列来实现微调稀疏大型语言模型时的内存和计算效率,从而优于现有的LoRA方法。
###【arXiv:2501.08582v1】
###【GitHub】
###【未收录期刊】
###【领域: 自然语言处理、机器学习】