前言

什么是大模型？

大型语言模型（LLM）是一种深度学习模型，它使用大量数据进行预训练，并能够通过提示工程解决各种下游任务。LLM 的出发点是建立一个适用于自然语言处理的基础模型，通过预训练和提示工程的方式实现模型在新的数据分布和任务上的强大泛化能力。LLM 旨在解决自然语言处理中的一些关键问题，例如文本分类、命名实体识别、情感分析等。
LLM 由多个主要组件组成，包括图像编码器、提示编码器和掩码解码器。图像编码器主要用于对输入图像进行编码，以便将其转换为可供模型处理的格式。提示编码器用于将不同类型的提示（如点、框、文本和掩码）表示为模型可以理解的形式。掩码解码器则将图像编码器和提示编码器生成的嵌入映射到分割掩码。
LLM 的训练过程涉及多个步骤，包括预训练、提示工程和微调。在预训练阶段，模型在大量无监督数据上进行训练，以学习自然语言处理中的基本模式和规律。在提示工程阶段，模型根据特定任务的提示进行调整，以使其能够解决该任务。最后，在微调阶段，模型在少量标注数据上进行训练，以进一步优化其性能。
LLM 的优点在于其强大的泛化能力和适用性。由于它们在大量数据上进行预训练，因此它们可以轻松地适应新的数据集和任务，并且只需要很少的微调数据。此外，LLM 还可以应用于多种自然语言处理任务，例如文本分类、命名实体识别、情感分析等。
然而，LLM 也存在一些缺点。首先，由于它们在大量数据上进行预训练，因此它们需要大量的计算资源和时间。其次，LLM 的训练和部署可能需要大量的内存和计算资源，这可能会限制它们的实际应用。

上面一段话是我询问大模型后，大模型给出的一个回答。

大模型英文缩写LLM，全程是Large Language Model（大语言模型）。根据我的理解，大模型就是参数量规模很大的一个语言模型。ChatGPT等大模型的体验效果就是，能很好地进行对话交互，感觉它是一个很聪明“机器人”，有时候甚至根本就感觉不出来它是“机器人”。

这篇文章我们就来介绍一下如何使用chatGPT的Api来构建一个属于自己的大模型聊天机器人。

ChatGPT Api简析

首先来介绍一下chatGPT该如何使用。OpenAI除了给提供了网页的直接交互体验外，还提供了一套完整的API接口，这也是我们能够制造自己机器人的前提。使用这套API接口就能实现和OpenAI能力一样的效果了。这里贴一个需要魔法的官网：官网API文档和一个不需要的国内网站：API文档中文版。我们重点介绍其中的Chat、Embeddings两个接口。

建议：如果对chatGPT的api比较熟悉，可以跳过这一部分。或者在浏览后面的代码部分感到困惑时再返回来参考。

Chat

这个是聊天接口的url：https://api.openai.com/v1/chat/completions

参数格式是这样的：

{"model": "gpt-3.5-turbo","messages": [{"role": "user", "content": "Hello!"}]
}

响应体格式是这样的：

{"id": "chatcmpl-123","object": "chat.completion","created": 1677652288,"choices": [{"index": 0,"message": {"role": "assistant","content": "  Hello there, how may I assist you today?",},"finish_reason": "stop"}],"usage": {"prompt_tokens": 9,"completion_tokens": 12,"total_tokens": 21}
}

对于请求参数来说，需要在其中的messages里添加内容。role参数描述的是角色，分为system（用于系统指示，比如指示chat gpt要扮演什么角色。此时应该用这个参数。）、assistant（chat gpt返回消息的标识，说明这个message是chat gpt响应的。）、user（一般用户进行对话时应该使用这个角色参数。）和function（下文分析）。content里要放的内容文本，这里就不再多解释了。

对于响应体来说，前面的一堆都可以忽略，重点还是看messages节点，我们只要取到了messages里的消息就够了。

function call

有些时候我们除了和大模型交互外，还希望来点别的东西。比如，我自己数据库里的一些内容，这个大模型总没办法知道的吧？例如，我有一些客户的订单信息，希望当客户在和大模型对话的之后能查到自己的订单相关的内容，这时候要怎么做呢？

首先能确定的是，肯定需要借助外界的力量。我们希望当用户询问订单相关信息时，大模型能够根据我们提供的信息，去我们的数据库中进行查询操作。但是我需要声明一下，让大模型去数据库查询是做不到的。大模型只是相当于一个大脑，单纯有脑子的话，既不能吃饭也不能走路。但是呢，脑子可以下达指令啊！我们希望大模型在识别到客户想要查询订单信息时，告诉我们一下就行，然后我们自己查询完数据库，再把相关的信息告诉大模型，这样不就简介地解决了这个问题吗。

在介绍我们的主角function call之前，先说一下如果没有它该怎么做：我们会给出一个system指令，“当客户想要查询订单信息时，询问客户的姓名和订单号”。我们通过客户的姓名和订单号就能确认出客户的订单信息了。然后这个时候大模型会主动地去询问客户的姓名和订单号。当获取到这两个信息以后，我们再给出一个system指令“将姓名和订单号按照json格式返回，示例如下：{“name”: “张三”, “orderNo”: “0001”}”。这样，我们就能获取到大模型返回的格式化数据了（想想如果不是格式化的数据会怎么样？即便正确返回了信息，我们也根本没有办法去识别）。随后我们将json数据进行解析，然后去数据库里查询，再将查询到的结果给出一个system指令：“客户的订单信息是：买了xxx，在xxx时间，发货地址是xxx”。到这里，大模型就完成了与客户的“外界交流”。

上面的过程一看就是很麻烦的，好在OpenAI给我们开放出了这个function call接口。用function call将上面的例子实现一下就是：

 {"name": "findOrder","description": "通过客户的姓名和订单号，查询客户订单的详细信息。","parameters": {"type": "object","properties": {"name": {"type": "string","description": "客户的姓名"},"orderNo": {"type": "number","description": "客户的订单号"}},"required": ["name", "orderNo"],},}

大脑需要借助这个函数调用来得到这个能力。其中，description是对函数调用的说明，告诉大模型该什么时候来执行这个函数调用。properties节点下的内容是我们要获取的具体参数，如name和orderNo。这两个节点下的description是对参数的说明。是不是和我们开发语言中的函数调用非常的相似？只是将参数和函数的作用的注释告诉了大模型。当大模型根据函数的描述，觉得需要的时候就会进行执行，返回：

{"role": "assistant","function_call": {"name": "findOrder","arguments": "{"name": "张三", "orderNo": "0001"}"}
}

注意哦，这两个属性应该是大模型询问用户后得到的信息。

Embeddings

再介绍一个重量级接口Embeddings。

这个接口是输入一段文本，输出这段文本的向量。使用这个api只能用指定的模型，比如text-embedding-ada-002，这个是专门用来文本转向量的模型。返回结果类似这样的：

{"object": "list","data": [{"object": "embedding","embedding": [0.018990106880664825,-0.0073809814639389515,.... (1024 floats total for ada)0.021276434883475304,],"index": 0}],"model": "text-similarity-ada:002"
}

那么什么是向量呢？其实就是字面意思，向量。我们可以把文本按照一定的规则在三维空间中表示，那么每个文本就都有它在这个规则下对应的向量。比如我要定义：”你好“的向量是[1,0,0]，”你好啊“的向量是[1,0,1]，比你好多一个啊。当然实际要比这个复杂的多，通过api返回的结果也可见一斑。不过通俗的理解，就是将一段文本用数字进行表示了。有了这个数字，我们就可以根据文本在空间中向量距离由多进来判断这两个文本有多相似了。

制作机器人

有了上面的基础就可以动手制作自己的聊天机器人了。上面的api介绍过了，再介绍一个java封装的api包：github地址。
使用maven导入：

   <dependency><groupId>com.theokanning.openai-gpt3-java</groupId><artifactId>{api|client|service}</artifactId><version>version</version>       </dependency>

使用grdle导入：
implementation 'com.theokanning.openai-gpt3-java:<api|client|service>:<version>

使用起来呢也是非常简单，配置好你的api key就可以直接用了。只需要调用chat completion接口就能实现自己的聊天机器人了。

上下文

携带上下文的方式也很简单，只需要将自己要输入的和大模型返回的都放入那个List<ChatMessage>就可以了。不过需要注意一点，不同的模型允许携带的最大上下文是不同的，对于gpt3.5-turbo只能携带4096个token，这就意味着不能将所有的历史上下文都带上。并且，携带越多的上下文，资费也会越多。

由上下文问题，我们想到了一个解决办法，就是使用前面提到的向量。通常来说，即便用户需要使用上下文，也一般都在3-5论历史对话中选取。这样，我们首先想到的是只携带3-5论历史，对于多余的内容就按时间先后顺序删除掉。但是还有另外一种情况，比如我希望让大模型结合我给出的文档内容，我当然不想每次对话都将文档里的内容全部携带上，并且对于较长的文档来说，也没有办法全部携带。另外，对于长文档提问也具有局部性，往往只会用到文档的一小部分内容。

使用向量就能很好的解决这个问题。首先将我们的文档内容调用向量接口进行向量化，然后存入到我们的数据库中。当想要问问题时，先将问题向量化，然后去库中对比，取取最接近的几条数据交给大模型参考，再返回我们对应问题的答案。