通过提示工程将化学知识整合到大型语言模型中

在当今快速发展的人工智能领域,大型语言模型(LLMs)正成为科学研究的新兴工具。这些模型以其卓越的语言处理能力和零样本推理而闻名,为解决传统科学问题提供了全新的途径。然而,LLMs在特定科学领域的应用面临挑战,主要是因为它们缺乏对复杂科学概念的深入理解。

为了克服这一难题,本文提出了一种创新的“领域知识嵌入的提示工程”方法,旨在通过将特定领域的知识整合到提示(prompts)中,来增强大型语言模型(LLMs)在科学领域特别是化学、生物学和材料科学中的应用性能。这种方法在包括能力、准确性、F1分数和幻觉下降等指标上,超越了传统的提示工程策略。通过针对复杂材料(如MacMillan催化剂、紫杉醇和锂钴氧化物)的案例研究,展示了该方法的有效性,并强调了当LLMs配备特定领域的提示时,它们作为科学发现和创新的强大工具的潜力。

方法

这种方法的核心思想是利用领域专家的知识和推理过程来指导LLMs,使其能够生成更准确、更具相关性的回答。图1展示了“提示工程框架的整个过程”(The Whole Process of Prompt Engineering Framework)。该框架从数据集的构建开始,研究人员首先从化学、生物学和材料科学领域中收集和整理相关的信息,创建了专门针对这些领域的数据集。接着,这些数据被用来形成特定的任务,这些任务旨在评估和提升大型语言模型(LLMs)在特定科学问题上的表现。

数据集构建和答案评估方案

数据集的构建是一个关键步骤,它直接影响了后续评估大型语言模型(LLMs)性能的准确性和可靠性。研究团队采取了一种系统化的方法来选择和构建数据集,以确保它们能够全面覆盖化学工程领域的关键方面。

首先,团队将焦点放在了有机小分子、酶和晶体材料这三个类别上。这些类别不仅在化学工程中具有广泛的应用,而且各自代表了不同的科学规模和复杂性。有机小分子常用于制药开发和作为分子探针,酶在生物催化和治疗干预中扮演着关键角色,而晶体材料则是半导体技术和光伏设备中不可或缺的组成部分。

为了确保数据集的质量和相关性,研究团队从专业的数据库中提取了数据。例如,有机小分子的数据来源于PubChem数据库,这是一个包含大量化学结构和相关属性信息的公共数据库。对于酶,团队从UniProt数据库中提取信息,这是一个提供蛋白质序列和功能信息的数据库,其数据来源于科学文献和计算分析。晶体材料的数据则来自Materials Project数据库,该数据库提供材料属性和晶体结构的信息。

在提取了这些物质的信息后,研究团队设计了一系列问题,这些问题旨在评估LLMs在预测和推理这些物质的物理化学属性、生物过程和结构信息方面的能力。这些问题覆盖了从基本的物理化学属性,如分子公式、熔点、密度、溶解度、分子量,到更复杂的生物过程,如酶的活性位点、底物、产物和生物学途径。

研究团队还考虑了不同任务的输出类型、推理范式和链式思考(CoT)的复杂性,将问题分为不同的组别。例如,一些任务可能只需要通过逻辑推理就能得出数值答案,而另一些任务则可能需要依赖实验数据。一些任务可能需要特定的领域知识来进行文字推理,而其他任务则可能涉及到常见的或不常见的属性检索。

为了评估LLMs的性能,研究者们特别设计了一套综合性能评价体系。这套体系通过多个维度来衡量模型的性能,包括能力(Capability)、准确性(Accuracy)、F1分数(F1 Score)和幻觉下降(Hallucination Drop)。这些指标共同构成了一个多角度的评价框架,旨在深入理解模型在处理科学问题时的实际能力。

能力(Capability):这一指标关注的是模型是否能够对提出的问题给出回答。不同于准确性,能力指标不评价答案的正确性,而是衡量模型对问题的响应能力。如果模型能够针对问题生成一个回答,无论答案的正确与否,该指标都会给予正面评价。这种评价方式有助于识别模型在特定任务上的可行性,即使在答案不完全准确的情况下。

准确性(Accuracy):与能力指标相辅相成,准确性指标衡量的是模型给出的答案与真实答案之间的一致性。在这一指标下,答案越接近真实情况,获得的评分就越高。准确性是评价模型性能的关键因素,因为它直接关系到模型输出的可靠性。

F1分数(F1 Score):F1分数是精度(Precision)和召回率(Recall)的调和平均值,常用于评估分类任务的性能。在这项研究中,F1分数用于评估模型在多项选择题中的表现。一个高的F1分数意味着模型在保持高精确度的同时,也能够覆盖到更多的正确答案,从而在综合评价模型性能时提供了一个平衡的视角。

幻觉下降(Hallucination Drop):这一指标是研究者们为了评估模型产生不准确或“幻觉”回答的倾向而特别引入的。幻觉现象指的是模型在没有足够信息支持的情况下,仍然生成看似合理但实际错误的答案。幻觉下降指标通过计算模型回答的能力与其准确性之间的差异来量化这一现象,从而帮助研究者识别和改进模型在特定任务上可能出现的问题。

图2展示了问题构建和答案评估过程的流程。首先,他们会将模型对于每个问题的回答与真实答案进行比较,然后根据上述指标进行打分。例如,在能力指标的评价中,只要模型给出了回答,无论对错,都会得到一定的分数。而在准确性指标的评价中,答案与真实答案的一致性将直接影响得分。F1分数则需要模型在多项选择题中的表现既要精确又要全面。最后,幻觉下降指标会根据模型在能力与准确性上的表现差异来计算。

科学预测作为LLM问答问题:

科学预测任务的构建和执行是一个精心设计的流程,它充分利用了大型语言模型(LLMs)的先进能力,尤其是它们的零样本(zero-shot)和少样本(few-shot)推理能力。这些能力使得LLMs能够在没有针对特定任务进行过专门训练的情况下,通过理解问题的上下文来生成回答。

研究者们首先将科学问题转化为LLMs可以处理的问答形式。这种形式允许模型通过分析问题的文本描述来识别关键信息,并据此生成答案。例如,一个关于化合物稳定性的问题可能会被构建为:“给定化合物X的属性Y,它是稳定的吗?”这样的格式不仅清晰地指出了问题的核心,也为模型提供了生成答案所需的直接线索。

在提示工程的过程中,研究者们特别关注了提示词的上下文确定。提示词是直接呈现给模型的问题描述,它们的选择和构造对于引导模型生成准确答案至关重要。这个过程可以数学化地表达,即通过确定提示词P的上下文,使得LLMs能够有效地给出答案A。这可以表示为函数f(P, Q),其中Q是原始问题,P是提示,A是模型生成的答案,而f代表LLMs本身。

为了优化提示,研究者们采取了一种系统化的方法来评估不同提示对模型输出的影响。他们的目标是找到能够最大化模型输出与真实答案S一致性的提示。这涉及到一个优化问题,可以通过搜索不同的提示词P来解决。优化的目标是最大化一个评估函数g(f(P, Q), S),该函数衡量模型答案A与真实答案S的一致性。

图3阐述了不同提示工程方法的主流形式。这些方法包括零样本提示(Zero-shot Prompting)、少样本提示(Few-shot Prompting)、专家提示(Expert Prompting)、零样本链式思考(Zero-shot CoT)和少样本链式思考(Few-shot CoT)。在零样本提示中,LLMs被要求直接回答问题,而不提供任何上下文或示例。少样本提示则提供了几个示例,帮助模型理解并复制回答的格式和内容。专家提示通过角色扮演指导,使LLMs能够生成类似专家所写的回答。零样本CoT提示通过加入“让我们逐步思考”的触发句,引导模型进行逐步的推理过程。而少样本CoT提示则进一步提供了解决类似问题的思考链示例,以协助模型执行当前任务。

在实际操作中,研究者们可能会测试多个版本的提示,并评估它们在一组科学问题上的表现。他们可能会使用不同的提示策略,并比较这些策略在能力、准确性、F1分数和幻觉下降等指标上的表现。例如,如果研究者们正在处理一个关于晶体材料带隙的问题,他们可能会设计一个提示,如:“晶体材料的带隙是指...(这里提供带隙的定义和重要性),给定材料Z的电子结构,它的带隙是多少?”这样的提示不仅提供了问题的具体信息,还通过定义和背景信息来引导模型进行推理。

领域知识嵌入的提示工程:

领域知识嵌入的提示工程策略是这项研究的核心创新之一,图4详细描述了领域知识嵌入提示工程的步骤,包括角色扮演、CoT(Chain-of-Thought)示例和领域知识整合。它通过结合多个专家的知识和推理过程来增强大型语言模型(LLMs)的科学推理能力。这一策略的实施涉及以下几个关键步骤:

首先,研究团队汇集了不同领域的专家,这些专家对其专业领域内的知识和常见推理模式有着深刻的理解。这些专家被邀请参与到角色扮演中,他们需要从自己专业的角度出发,提供对特定科学问题的解答。

接着,专家们提供了一系列的CoT(Chain-of-Thought)示例。CoT示例是一种展示问题解决过程的方法,它详细阐述了从识别问题到找到答案的每一个步骤。与传统的零样本CoT方法相比,领域知识嵌入的提示工程策略不仅要求模型进行推理,还要求它们在这个过程中利用专家提供的精确背景知识和准确的人类推理示例。

例如,如果LLMs面临的任务是预测一个有机小分子的溶解度,领域专家可能会提供一个详细的CoT示例,展示如何根据分子的极性、分子间作用力以及分子大小等因素来推理溶解度。这个示例将包括对这些因素如何影响溶解度的详细解释,以及如何将这些因素综合起来得出最终的预测。

在这一过程中,专家的知识和推理示例被嵌入到提示中,形成了一种多专家混合的提示策略。这种策略不仅提供了一个领域的深度知识,还通过多个专家的视角来丰富问题的解决路径。这使得LLMs能够在一个更加丰富和多元的知识背景下进行推理,从而提高了它们生成准确和相关回答的能力。

这种策略还有助于减少LLMs在科学任务中的“幻觉”现象,即模型在缺乏足够信息的情况下生成看似合理但实际上错误的答案。通过提供精确的背景知识和准确的推理示例,领域知识嵌入的提示工程策略引导模型更加贴近人类的科学推理过程。

结果

研究者们对五种不同的提示工程策略进行了评估,包括零样本(Zero-shot)、少样本(Few-shot)、专家(Expert)、零样本链式思考(Zero-shot CoT)以及领域知识嵌入的提示工程方法。这些策略在三个数据集上的表现——有机小分子、酶和晶体材料——被全面比较。结果显示,领域知识嵌入的提示工程方法在多数任务和评价指标上均优于传统方法。

图5 展示了不同提示工程策略在所有任务上的“能力(Capability)”和“准确性(Accuracy)”的总体表现。领域知识嵌入的提示工程方法在这项评估中显示出其独特的优势。由于这种方法结合了专业知识和推理示例,它能在多个任务上都展现出较高的能力和准确性,特别是在那些需要复杂推理和专业知识的领域。这表明,与传统的提示工程方法相比,领域知识嵌入的提示可以显著提高LLMs在科学任务上的性能。

图 7 通过输出类型对提示工程的性能进行了细致的比较分析。这一图表揭示了大型语言模型(LLMs)在不同任务类型上的表现,包括数值逻辑推理、实验数据推理、逻辑文字推理和基于实验数据的文字推理。每种任务类型都对模型的理解和推理能力提出了不同的要求。

领域知识嵌入的提示工程方法在所有任务类型上均显示出其优越性,与传统的提示工程策略相比,它在“能力”、“准确性”、“F1分数”和“幻觉下降”等关键指标上均有显著提升。特别是在需要复杂逻辑推理的任务上,领域知识嵌入的提示能够显著提高LLMs的性能,这表明了将专业知识整合到提示中对于提升模型在科学领域应用的有效性至关重要。

图8显示领域知识嵌入的提示工程方法在各种推理范式中均显示出其有效性,特别是在需要深入领域知识的任务上。例如,在领域知识直接推理任务中,该方法能够帮助LLMs更好地利用其预训练阶段吸收的专业知识,从而生成更准确和可信的答案。

图10 表展示了大型语言模型(LLMs)在处理有机小分子、酶和晶体材料这三种不同材料类别的任务时的性能差异。

对于有机小分子,研究者们发现,随着分子复杂性的增加,即分子重量的增加和元素组成的多样化,LLMs的预测准确性逐渐下降。特别是,当分子重量超过300 g/mol或包含超过五种不同元素时,性能显著下降。

的预测方面,LLMs的准确性与当前对这些酶的研究深度密切相关,而与酶的大小,即氨基酸数量,关系不大。这意味着,如果一个酶在学术界得到了广泛的研究和理解,LLMs预测其属性的准确性就越高。

对于晶体材料,LLMs在预测那些具有较大、更复杂组成以及低对称性晶体结构的材料时准确性降低。然而,属于三斜、立方或六角晶系的晶体结构更可能产生更好的预测结果,这可能是因为这些结构更规则,且在科学文献中的数据更丰富。

图11 在论文中展示了针对 MacMillan 第二代咪唑啉酮催化剂的提示工程案例研究。MacMillan 催化剂因其在有机催化领域的开创性贡献而获得了 2021 年诺贝尔化学奖,这一创新对合成化学和化学工业产生了深远的影响。在这一案例研究中,研究者们利用领域知识嵌入的提示工程方法,旨在评估 LLMs 在整合有关分子复杂细节和预测其潜在应用方面的性能。通过精心设计的提示,LLMs 能够展示其在分析 SMILES 序列和进行基本算术运算方面的熟练程度。LLMs 还能够利用催化剂的机理和示例,准确预测特定底物的催化产物,从而凸显了模型在为化学催化剂的实际应用和工业应用提供信息方面的潜力。

领域知识嵌入的提示工程证明了其在化学、材料科学和生物学等领域的有效性。未来的工作可以探索将该方法扩展到其他科学领域,如物理学、地质学和医学,以及整合外部数据集和特定领域的工具,以进一步提升LLMs的推理能力。

论文链接:https://arxiv.org/pdf/2404.14467

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/17956.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

大型央企国企信创化与数字化转型规划实施方案(71页PPT)

方案介绍: 随着全球信息技术的迅猛发展,数字化转型已成为企业提升竞争力、实现可持续发展的必经之路。作为国家经济的重要支柱,大型央企国企在信创化与数字化转型方面承载着重要的责任和使命。本方案旨在通过系统性的规划和实施,…

Discourse 使用 DiscourseConnect 来进行用户数据同步

我们都知道 Discourse 的用户管理和设置都高度依赖电子邮件。 如果 Discourse 没有设置电子邮件 SMTP 的话,作为管理员是没有办法对用户邮箱进行修改并且通过验证的。 可以采取的办法是通过 Discourse 的 DiscourseConnect 来进行用户同步。 根据官方的说法&…

如何取消公众号的在线客服绑定授权

1,功能设置 2,公众号设置 3,查看详情,取消

开发远程遥控情趣玩具软件,提供现成程序源码应具备哪些基础功能

以“东莞梦情智能”为参考,其提供的现成情趣玩具遥控软件程序源码,所具备哪些基础功能,看看它们如何让情趣玩具变得更加丰富多彩。 一、设备连接 设备连接是情趣玩具遥控软件的基础功能之一。“东莞梦情智能”的现成源码支持多种连接方式&am…

mysql中text,longtext,mediumtext区别

文章目录 一.概览二、字节限制不同三、I/O 不同四、行迁移不同 一.概览 在 MySQL 中,text、mediumtext 和 longtext 都是用来存储大量文本数据的数据类型。 TEXT:TEXT 数据类型可以用来存储最大长度为 65,535(2^16-1)个字符的文本数据。如果存储的数据…

开源VS闭源:谁更能推动AI技术的普及与发展?

一、引言 在人工智能(AI)技术的浪潮中,开源与闭源两种模式一直并存,并各自在推动AI技术普及与发展上发挥着重要作用。然而,关于哪种模式更能有效地推动AI技术的普及与发展,一直存在着激烈的讨论。本文将深…

树莓派指令

1.常用指令 2.在终端窗口编辑文本文件 2.1nano编辑器 在文本里ctrlG就可以查看更多的快捷按键 2.2vi编辑器 进入默认为命令模式

百川股份:大王蹲完,小王蹲

一根大阴线,正丹股份的十倍股传奇之旅即将落幕? 有股民表示:化工板块还有高手,大王倒了还有小王。 今天我们聊的正是化工板块被称为“正丹第二”的百川股份。 虽难比正丹的十倍涨幅,但百川也不简单,3个月…

视频号小店是怎么操作的?适用于所有人的操作玩法!

大家好,我是电商小V 视频号小店是怎么操作的呢?这是刚开始去做,或者是刚了解的小伙伴最疑惑的问题, 视频号小店是22年推出的,也是目前最火的一个创业型项目,也是吸引了不少的商家入驻,今天咱们就…

PLC远程调试

随着工业自动化的快速发展,PLC(可编程逻辑控制器)已经成为现代工业生产线的核心控制设备。然而,传统的PLC调试方式往往受限于地理位置和物理连接,使得工程师在调试过程中面临诸多不便。在这个背景下,HiWoo …

OpenHarmony 实战开发——内核对象队列之算法详解

前言 OpenAtom OpenHarmony(以下简称“OpenHarmony”) LiteOS-M 内核是面向 IoT 领域构建的轻量级物联网操作系统内核,具有小体积、低功耗、高性能的特点。在嵌入式领域的开发工作中,无论是自研还是移植系统,均绕不开…

使用chatglm.cpp本地部署ChatGLM3-6B模型

ChatGLM3模型介绍 ChatGLM3-6B 是 ChatGLM 系列最新一代的开源模型,在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上,ChatGLM3-6B 引入了如下特性: 更强大的基础模型: ChatGLM3-6B 的基础模型 ChatGLM3-6B-Base …

Yourpassword does not satisfy the current policyrequirements

mysql 新增数据库用户失败 解决方法: 修改校验密码策略等级 set global validate_password.policyLOW;

【面试】PWM(脉冲宽度调制)相关问题 ——长期更新

1、PWM调节原理 答:通过改变信号的高电平和低电平的持续时间比例来控制输出信号的平均功率或电压。 2、PWM占空比定义 答:在一个脉冲周期内,高电平的时间占整个周期时间的比例。 3、PWM波形的周期和调节精度由谁决定 答:当计数…

全同态加密生态项目盘点:FHE技术的崛起以及应用

撰文:Chris,Techub News 在当今数字化的时代,隐私保护已成为一个全球性的焦点话题,特别是在加密货币和区块链技术快速发展的背景下。虽然当前的隐私技术在保护数据安全方面多有欠缺,引发了广泛的关注和批评&#xff0c…

BUUCTF-WEB3

[极客大挑战 2019]Knife1 1.打开附件链接 一句话木马eval($_POST["Syc"]); 2.中国蚁剑 用中国蚁剑连接 在根目录下找到一个名为flag的文件 3.得到flag [极客大挑战 2019]Upload1 1.打开附件链接 是一个文件上传 2.一句话木马 经过多次尝试都被绕过,更…

JavaScript面试 题

1.延时加载JS有哪些方式 延时加载 :async defer 例如:<script defer type"type/javascript" srcscript.js></ script> defer:等html全部解析完成,才会执行js代码,顺次执行的 async: js和html解析是同步的,不是顺次执行js脚本(谁先加载完先执行谁)2.JS数…

【C++】菱形继承、菱形虚拟继承、继承与组合

目录 01.概念 02.虚拟继承 原理 03.继承和组合 01.概念 单继承&#xff1a; 一个子类只有一个父类时&#xff0c;称这种继承关系为单继承。 多继承&#xff1a; 一个子类同时有两个及以上的父类时&#xff0c;称这种继承关系为多继承。 菱形继承&#xff1a; 菱形继承是…

一文搞懂oracle事务提交以及脏数据落盘的原则

本文基于oracle 19c 做事务提交以及oracle脏数据落盘的相关解读 第一章 相关进程及组件介绍&#xff1a; 1.LGWR&#xff1a; 重做日志条目在系统全局区域 &#xff08;SGA&#xff09; 的重做日志缓冲区中生成。LGWR 按顺序将重做日志条目写入重做日志文件。如果数据库具有…

期望薪资26K,北京疯狂游戏golang一面

北京疯狂游戏一面 1、自我介绍 2、财务业务中&#xff0c;你做了哪些设计来保证金额数据的准确性&#xff1f;&#xff08;例如&#xff0c;业务涉及多步骤&#xff0c;某一步出了问题怎么解决&#xff09; 3、如何解决单个业务直接报错的数据准确性问题 4、分布式场景下&a…