如何在langchain中对大模型的输出进行格式化

简介

我们知道在大语言模型中, 不管模型的能力有多强大,他的输入和输出基本上都是文本格式的,文本格式的输入输出虽然对人来说非常的友好,但是如果我们想要进行一些结构化处理的话还是会有一点点的不方便。

不用担心,langchain已经为我们想到了这个问题,并且提出了完满的解决方案。

langchain中的output parsers

langchain中所有的output parsers都是继承自BaseOutputParser。这个基础类提供了对LLM大模型输出的格式化方法,是一个优秀的工具类。

我们先来看下他的实现:

class BaseOutputParser(BaseModel, ABC, Generic[T]):@abstractmethoddef parse(self, text: str) -> T:"""Parse the output of an LLM call.A method which takes in a string (assumed output of a language model )and parses it into some structure.Args:text: output of language modelReturns:structured output"""def parse_with_prompt(self, completion: str, prompt: PromptValue) -> Any:"""Optional method to parse the output of an LLM call with a prompt.The prompt is largely provided in the event the OutputParser wantsto retry or fix the output in some way, and needs information fromthe prompt to do so.Args:completion: output of language modelprompt: prompt valueReturns:structured output"""return self.parse(completion)def get_format_instructions(self) -> str:"""Instructions on how the LLM output should be formatted."""raise NotImplementedError@propertydef _type(self) -> str:"""Return the type key."""raise NotImplementedError(f"_type property is not implemented in class {self.__class__.__name__}."" This is required for serialization.")def dict(self, **kwargs: Any) -> Dict:"""Return dictionary representation of output parser."""output_parser_dict = super().dict()output_parser_dict["_type"] = self._typereturn output_parser_dict

BaseOutputParser 是一个基础的类,可能被其他特定的输出解析器继承,以实现特定语言模型的输出解析。

这个类使用了Python的ABC模块,表明它是一个抽象基类(Abstract Base Class),不能被直接实例化,而是需要子类继承并实现抽象方法。

Generic[T] 表示这个类是一个泛型类,其中T 是一个类型变量,它表示解析后的输出数据的类型。

@abstractmethod 装饰器标记了 parse 方法,说明它是一个抽象方法,必须在子类中实现。parse 方法接受一个字符串参数 text,通常是语言模型的输出文本,然后将其解析成特定的数据结构,并返回。

parse_with_prompt 方法也是一个抽象方法,接受两个参数,completion 是语言模型的输出,prompt 是与输出相关的提示信息。这个方法是可选的,可以用于在需要时解析输出,可能根据提示信息来调整输出。

get_format_instructions 方法返回关于如何格式化语言模型输出的说明。这个方法可以用于提供解析后数据的格式化信息。

_type 是一个属性,可能用于标识这个解析器的类型,用于后续的序列化或其他操作。

dict 方法返回一个包含输出解析器信息的字典,这个字典可以用于序列化或其他操作。

其中子类必须要实现的方法就是parse。其他的都做为辅助作用。

langchain中有哪些Output Parser

那么langchain中有哪些Output Parser的具体实现呢?具体对应我们应用中的什么场景呢?

接下来我们将会一一道来。

List parser

ListOutputParser的作用就是把LLM的输出转成一个list。ListOutputParser也是一个基类,我们具体使用的是他的子类:CommaSeparatedListOutputParser。

看一下他的parse方法:

    def parse(self, text: str) -> List[str]:"""Parse the output of an LLM call."""return text.strip().split(", ")

还有一个get_format_instructions:

    def get_format_instructions(self) -> str:return ("Your response should be a list of comma separated values, ""eg: `foo, bar, baz`")

get_format_instructions是告诉LLM以什么样的格式进行数据的返回。

就是把LLM的输出用逗号进行分割。

下面是一个基本的使用例子:

output_parser = CommaSeparatedListOutputParser()format_instructions = output_parser.get_format_instructions()
prompt = PromptTemplate(template="列出几种{subject}.\n{format_instructions}",input_variables=["subject"],partial_variables={"format_instructions": format_instructions}
)_input = prompt.format(subject="水果")
output = model(_input)
print(output)
print(output_parser.parse(output))

我们可以得到下面的输出:

Apple, Orange, Banana, Grape, Watermelon, Strawberry, Pineapple, Peach, Mango, Cherry
['Apple', 'Orange', 'Banana', 'Grape', 'Watermelon', 'Strawberry', 'Pineapple', 'Peach', 'Mango', 'Cherry']

看到这里,大家可能有疑问了, 为什么我们问的是中文,返回的却是因为呢?

这是因为output_parser.get_format_instructions就是用英文描述的,所以LLM会自然的用英文来回答。

别急,我们可以稍微修改下运行代码,如下:

output_parser = CommaSeparatedListOutputParser()format_instructions = output_parser.get_format_instructions()
prompt = PromptTemplate(template="列出几种{subject}.\n{format_instructions}",input_variables=["subject"],partial_variables={"format_instructions": format_instructions + "用中文回答"}
)_input = prompt.format(subject="水果")
output = model(_input)
print(output)
print(output_parser.parse(output))

我们在format_instructions之后,提示LLM需要用中文来回答问题。这样我们就可以得到下面的结果:

苹果,橘子,香蕉,梨,葡萄,芒果,柠檬,桃
['苹果,橘子,香蕉,梨,葡萄,芒果,柠檬,桃']

是不是很棒?

Datetime parser

DatetimeOutputParser用来将LLM的输出进行时间的格式化。

class DatetimeOutputParser(BaseOutputParser[datetime]):format: str = "%Y-%m-%dT%H:%M:%S.%fZ"def get_format_instructions(self) -> str:examples = comma_list(_generate_random_datetime_strings(self.format))return f"""Write a datetime string that matches the following pattern: "{self.format}". Examples: {examples}"""def parse(self, response: str) -> datetime:try:return datetime.strptime(response.strip(), self.format)except ValueError as e:raise OutputParserException(f"Could not parse datetime string: {response}") from e@propertydef _type(self) -> str:return "datetime"

在get_format_instructions中,他告诉LLM返回的结果是一个日期的字符串。

然后在parse方法中对这个LLM的输出进行格式化,最后返回datetime。

我们看下具体的应用:

output_parser = DatetimeOutputParser()
template = """回答下面问题:
{question}
{format_instructions}"""
prompt = PromptTemplate.from_template(template,partial_variables={"format_instructions": output_parser.get_format_instructions()},
)
chain = LLMChain(prompt=prompt, llm=model)
output = chain.run("中华人民共和国是什么时候成立的?")
print(output)
print(output_parser.parse(output))
1949-10-01T00:00:00.000000Z
1949-10-01 00:00:00

回答的还不错,给他点个赞。

Enum parser

如果你有枚举的类型,那么可以尝试使用EnumOutputParser.

EnumOutputParser的构造函数需要传入一个Enum,我们主要看下他的两个方法:

    @propertydef _valid_values(self) -> List[str]:return [e.value for e in self.enum]def parse(self, response: str) -> Any:try:return self.enum(response.strip())except ValueError:raise OutputParserException(f"Response '{response}' is not one of the "f"expected values: {self._valid_values}")def get_format_instructions(self) -> str:return f"Select one of the following options: {', '.join(self._valid_values)}"

parse方法接收一个字符串 response,尝试将其解析为枚举类型的一个成员。如果解析成功,它会返回该枚举成员;如果解析失败,它会抛出一个 OutputParserException 异常,异常信息中包含了所有有效值的列表。

get_format_instructions告诉LLM需要从Enum的有效value中选择一个输出。这样parse才能接受到正确的输入值。

具体使用的例子可以参考前面两个parser的用法。篇幅起见,这里就不列了。

Pydantic (JSON) parser

JSON可能是我们在日常代码中最常用的数据结构了,这个数据结构很重要。

在langchain中,提供的JSON parser叫做:PydanticOutputParser。

既然要进行JSON转换,必须得先定义一个JSON的类型对象,然后告诉LLM将文本输出转换成JSON格式,最后调用parse方法把json字符串转换成JSON对象。

我们来看一个例子:


class Student(BaseModel):name: str = Field(description="学生的姓名")age: str = Field(description="学生的年龄")student_query = "告诉我一个学生的信息"parser = PydanticOutputParser(pydantic_object=Student)prompt = PromptTemplate(template="回答下面问题.\n{format_instructions}\n{query}\n",input_variables=["query"],partial_variables={"format_instructions": parser.get_format_instructions()+"用中文回答"},
)_input = prompt.format_prompt(query=student_query)output = model(_input.to_string())
print(output)
print(parser.parse(output))

这里我们定义了一个Student的结构体,然后让LLM给我一个学生的信息,并用json的格式进行返回。

之后我们使用parser.parse来解析这个json,生成最后的Student信息。

我们可以得到下面的输出:

示例输出:{"name": "张三", "age": "18"}
name='张三' age='18'

Structured output parser

虽然PydanticOutputParser非常强大, 但是有时候我们只是需要一些简单的结构输出,那么可以考虑StructuredOutputParser.

我们看一个具体的例子:

response_schemas = [ResponseSchema(name="name", description="学生的姓名"),ResponseSchema(name="age", description="学生的年龄")
]
output_parser = StructuredOutputParser.from_response_schemas(response_schemas)format_instructions = output_parser.get_format_instructions()
prompt = PromptTemplate(template="回答下面问题.\n{format_instructions}\n{question}",input_variables=["question"],partial_variables={"format_instructions": format_instructions}
)_input = prompt.format_prompt(question="给我一个女孩的名字?")
output = model(_input.to_string())
print(output)
print(output_parser.parse(output))

这个例子是上面的PydanticOutputParser的改写,但是更加简单。

我们可以得到下面的结果:

 ` ` `json
{"name": "Jane","age": "18"
}` ` `
{'name': 'Jane', 'age': '18'}

output返回的是一个markdown格式的json字符串,然后通过output_parser.parse得到最后的json。

其他的一些parser

除了json,xml格式也是比较常用的格式,langchain中提供的XML parser叫做XMLOutputParser。

另外,如果我们在使用parser的过程中出现了格式问题,langchain还贴心的提供了一个OutputFixingParser。也就是说当第一个parser报错的时候,或者说不能解析LLM输出的时候,就会换成OutputFixingParser来尝试修正格式问题:

from langchain.output_parsers import OutputFixingParsernew_parser = OutputFixingParser.from_llm(parser=parser, llm=ChatOpenAI())new_parser.parse(misformatted)

如果错误不是因为格式引起的,那么langchain还提供了一个RetryOutputParser,来尝试重试:

from langchain.output_parsers import RetryWithErrorOutputParserretry_parser = RetryWithErrorOutputParser.from_llm(parser=parser, llm=OpenAI(temperature=0)
)retry_parser.parse_with_prompt(bad_response, prompt_value)

这几个parser都非常有用,大家可以自行尝试。

总结

虽然langchain中的有些parser我们可以自行借助python语言的各种工具来实现。但是有一些parser实际上是要结合LLM一起来使用的,比如OutputFixingParser和RetryOutputParser。

所以大家还是尽可能的使用langchain提供的parser为好。毕竟轮子都给你造好了,还要啥自行车。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/177456.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pandas教程:Introduction to scikit-learn scikit-learn简介

文章目录 13.4 Introduction to scikit-learn(scikit-learn简介) 13.4 Introduction to scikit-learn(scikit-learn简介) scikit-learn是一个被广泛使用的python机器学习工具包。里面包含了很多监督式学习和非监督式学习的模型&a…

羊大师:蜂蜜加羊奶,养颜美容佳品

羊大师:蜂蜜加羊奶,养颜美容佳品 蜂蜜和羊奶是两种自然界中的宝贵养生食材,它们的结合不仅味道美味,还具有丰富的营养价值和一系列的保健功效,被誉为养颜美容的佳品。下面让小编羊大师带大家来详细了解一下蜂蜜加羊奶…

美团小游戏rpk包对接流程小记

美团小游戏rpk包对接流程小记 美团小游戏开发时,其实很简单,和各大厂差不多。 一、先贴个文档: 美团游戏开放平台文档地址: https://game.meituan.com/#/docs二、接入前准备: 与微信抖音小游戏的流程差不多&#xf…

Mysql深入——5

SQL语句为什么有时候会执行的很慢 这种情况是随机的,有时候突然你执行一条语句就会变慢,这是为什么呢? 从以前的内容可以得知,InnoDB在执行更新语句的时候,有一个redo log,更新内存写完redo log之后就返回…

解读 | 从谷歌AI判定阿波罗登月“造假“来谈谈合成图片检测技术

大家好,我是极智视界,欢迎关注我的公众号,获取我的更多前沿科技分享 邀您加入我的知识星球「极智视界」,星球内有超多好玩的项目实战源码和资源下载,链接:https://t.zsxq.com/0aiNxERDq 整个事情可以爬楼看…

Vue3的transition标签以及animate.css使用详解

一:前言 在项目开发中,有一种特殊情况是使用动画过渡去完成某个效果。比如淡入淡出,或者在动画完成后执行某些操作等。在以前开发中我们通常会选择使用 CSS3 进行研发。但是这样会有很多不好的地方,比如最原始化的封装&#xff0c…

VMware系列:此平台不支持虚拟化 Intel-VT-x/EPT 或 AMD-V/RVI

此平台不支持虚拟化 Intel-VT-x/EPT 或 AMD-V/RVI 一. 此平台不支持虚拟化 Intel-VT-x/EPT 或 AMD-V/RVI1.首先了解此选项有什么作用:(开启虚拟化 虚拟化 Intel-VT-x/EPT 或 AMD-V/RVI )操作1.从系统层面设置入手:操作2.从电脑软件冲突层面解决问题:然后关闭Hyper-V的相关设…

Spring Security 6.x 系列(5)—— Servlet 认证体系结构介绍

一、前言 本章主要学习Spring Security中基于Servlet 的认证体系结构,为后续认证执行流程源码分析打好基础。 二、身份认证机制 Spring Security提供个多种认证方式登录系统,包括: Username and Password:使用用户名/密码 方式…

别做无用功!了解伦敦银交易指标的分类

在伦敦银投资中,我们都喜欢使用技术指标来帮助我们判断市场行情、预测银价点位。其实,伦敦银的技术指标是有不同分类的,我们了解主要的几类,这样在交易中才不至于将相同类型的叠加在一起,这样容易降低决策效率。 分类一…

Docker compose启动服务遇到的问题

这是学长留的一个任务,用docker compose启动三个服务,分别是minio、elasticsearch、nginx。 话不多说,让我们看看有哪些错误。 一、数据卷挂载权限问题 这是原始docker-compose.yaml文件 version: "3.8"networks:my-net:name: g…

最强学习辅助工具重磅上市:虚拟与现实互动结合助力学习更快一步

太让人震撼了!!当当狸这款AR智能学习图集打破了传统历史学习材料壁垒 将AR增强现实技术与诗词互动、历史人文、古典建筑巧妙融合 内容真实有趣,全面激发孩子们的学习探索兴趣 妈妈们都想入手的【教学辅助工具】 有了它,孩子学…

2.3基于springboot养老院管理系统

2.3基于springboot养老院管理系统 成品项目已经更新!同学们可以打开链接查看!需要定做的及时联系我!专业团队定做!全程包售后! 2000套项目视频链接:https://pan.baidu.com/s/1N4L3zMQ9nNm8nvEVfIR2pg?pwd…

docker-compose Install OrangeHRM

OrangeHRM 前言 OrangeHRM 是一个全面的人力资源管理(HRM) 系统,它包含任何企业所需的所有基本功能。OrangeHRM旨在支持任何规模的团队,包括初创企业、中小企业以及大型跨国组织。 OrangeHRM 提前条件 OrangeHRMdocker & docker-composer 安装or

el-table,列表合并,根据名称列名称相同的品名讲其它列值相同的进行合并

el-table,列表合并,根据名称列名称相同的品名讲其它列值相同的进行合并,并且不能垮品名合并 如图 用到el-table合并行的方法合并 tableSpanMethod({ row, column, rowIndex, columnIndex }) {if (column.property "materielName") {//合并商品名const _row this…

Linux后台运行jar包

Linux后台运行jar包 方式一 命令如下: java -jar /data/tools/jar/demo.jar注:/data/tools/jar:指定jar包所在位置,否则要在jar包所在位置运行改命令;当前ssh窗口被锁定,可按CTRL C打断程序运行&#xf…

小功能实现(十八)生成kml文件

引入依赖 <!--解析、生成kml文件类--><dependency><groupId>de.micromata.jak</groupId><artifactId>JavaAPIforKml</artifactId><version>2.2.0</version></dependency>使用方法 注意&#xff1a;需要什么内容可自行添…

Mysql深入——6

数据库占用空间太大&#xff0c;将表删除掉一半的数据后&#xff0c;为什么表的大小还是没有变 数据库的回收&#xff0c;一个InnoDB表中包含了两个部分&#xff0c;分别是表结构定义和数据。在Mysql8.0以前&#xff0c;表结构是存在以.frm为后缀的文件里&#xff0c;在mysql8…

CCC联盟数字钥匙(一)——UWB MAC概述

本文在前面已经介绍了相关UWB的PHY之后&#xff0c;重点介绍数字钥匙&#xff08;Digital Key&#xff09;中关于MAC层的相关实现规范。由于MAC层相应涉及内容比较多&#xff0c;本文首先从介绍UWB MAC的整体框架&#xff0c;后续陆续介绍相关的网络、协议等内容。 1、UWB MAC架…

android安全启动验证链(安全启动 secure boot)

android安全启动验证链_android 安全启动_Kael.dong的博客-CSDN博客

class类

如果有一个名为 ExampleClass 的类&#xff0c;可以通过 ExampleClass.class 获取表示该类的 Class 类实例&#xff0c;或者如果你有一个 ExampleClass 类的对象 exampleObject&#xff0c;可以通过 exampleObject.getClass() 来获取。这些 Class 类的实例可以用来在运行时查询…