【大模型】自动化问答生成:使用GPT-3.5将文档转化为问答对

自动化问答生成:使用GPT-3.5将文档转化为问答对

      • 正文
        • 步骤1:准备工作
        • 步骤2:编写Python脚本
      • 总结

当我们需要将大段文档转化为问答对时,OpenAI的GPT-3.5模型提供了一个强大的工具。这个教程将向您展示如何编写一个Python脚本,利用GPT-3.5的能力,将文档转化为一问一答的问答对。这个流程几乎无需人工介入,能够自动获取问题并生成答案。我们将使用GPT-3.5-16k,以便处理大量文本。

本文参考卡神文章:https://mp.weixin.qq.com/s/1hcufhPJ7P1cXEsAZ7MdRA
同时也参考fastGPT的知识库问答对生成方式。

正文

直接开始流程

步骤1:准备工作

首先,您需要安装 Python 和 requests 库(确保已经安装),并在 OpenAI 官网上获取 apiKey 密钥,用来请求 gpt 接口(还需要科学上网工具)。

步骤2:编写Python脚本

下面是我已经验证过的 Python 示例,用于将文档转化为问答对。我们假设您的文档保存在一个名为 input_file.txt 的文本文件中。
注:只需修改 api_key 即可,让 input_file.txt 和 python 处在同一文件夹内。

"""目标:将大段文档通过gpt3.5识别变成一问一答的问答对。流程:1.gpt自动获取合适的问题;2.gpt自动根据问题和文档生成问答对。优点:几乎无需人工介入,自动获取问题,自动根据问题生成问答对。缺点:受限于大模型输入长度限制,可能无法一次性输入全部文档。建议:使用gpt3.5-16k可以一次输入大量文本,文档最好不超过5000字。FAQ:1.Q:gpt两个步骤是否可以合并成一个请求让gpt返回,可以节省约一半的时间和tokens?A:拆成两次主要是因为问题可能需要人工微调修改后再去生成答案,这样可以提高知识库质量,当然也可以全部自动处理。2.Q:大模型有字数限制无法大文档一次输入?A:目前这个没有好的解决办法,只能通过预先拆分大文档为多个文档片段后分批执行。
"""
import datetime
import time
import requestsurl = 'https://api.openai.com/v1/chat/completions'# 替换为您自己的API密钥
api_key = 'sk-xxxxxxxxx'model = "gpt-3.5-turbo-16k"prompt1 = '''
#01 你是一个问答对数据集处理专家。#02 你的任务是根据我给出的内容,生成适合作为问答对数据集的问题。#03 问题要尽量短,不要太长。#04 一句话中只能有一个问题。#05 生成的问题必须宏观、价值,不要生成特别细节的问题。#06 生成问题示例:"""权益型基金的特点有哪些方面?介绍一下产品经理。"""#07 以下是我给出的内容:"""{{此处替换成你的内容}}"""
'''prompt2 = '''
#01 你是一个问答对数据集处理专家。#02 你的任务是根据我的问题和我给出的内容,生成对应的问答对。#03 答案要全面,多使用我的信息,内容要更丰富。#04 你必须根据我的问答对示例格式来生成:"""{"content": "基金分类有哪些", "summary": "根据不同标准,可以将证券投资基金划分为不同的种类:(1)根据基金单位是否可增加或赎回,可分为开放式基金和封闭式基金。开放式基金不上市交易(这要看情况),通过银行、券商、基金公司申购和赎回,基金规模不固定;封闭式基金有固定的存续期,一般在证券交易场所上市交易,投资者通过二级市场买卖基金单位。(2)根据组织形态的不同,可分为公司型基金和契约型基金。基金通过发行基金股份成立投资基金公司的形式设立,通常称为公司型基金;由基金管理人、基金托管人和投资人三方通过基金契约设立,通常称为契约型基金。我国的证券投资基金均为契约型基金。(3)根据投资风险与收益的不同,可分为成长型、收入型和平衡型基金。(4)根据投资对象的不同,可分为股票基金、债券基金、货币基金和混合型基金四大类。"}{"content": "基金是什么", "summary": "基金,英文是fund,广义是指为了某种目的而设立的具有一定数量的资金。主要包括公积金、信托投资基金、保险基金、退休基金,各种基金会的基金。从会计角度透析,基金是一个狭义的概念,意指具有特定目的和用途的资金。我们提到的基金主要是指证券投资基金。"}#05 我的问题如下:"""{{此处替换成你上一步生成的问题}}"""#06 我的内容如下:"""{{此处替换成你的内容}}"""
'''def generate_question(text_content, more=False):headers = {"Authorization": f"Bearer {api_key}","Content-Type": "application/json",}content = "生成适合作为问答对的问题"if more:content = "尽可能多生成适合作为问答对的问题"prompt = prompt1.replace("{{此处替换成你的内容}}", text_content)data = {"model": model,"messages": [{"role": "system", "content": prompt},{"role": "user", "content": content}]}start_time = time.time()response = requests.post(url, headers=headers, json=data, verify=False)print("耗时", time.time() - start_time)if response.status_code == 200:return response.json()["choices"][0]["message"]['content']else:print(f"Error: {response.status_code}")print(response.content)return Nonedef generate_qa(text_content, question_text=None):headers = {"Authorization": f"Bearer {api_key}","Content-Type": "application/json",}prompt = prompt2.replace("{{此处替换成你上一步生成的问题}}", question_text).replace("{{此处替换成你的内容}}", text_content)data = {"model": model,"messages": [{"role": "system", "content": prompt},{"role": "user", "content": "拼成问答对"}]}start_time = time.time()response = requests.post(url, headers=headers, json=data, verify=False)print("耗时", time.time() - start_time)if response.status_code == 200:return response.json()["choices"][0]["message"]['content']else:print(f"Error: {response.status_code}")print(response.content)return Nonedef write_to_file(content):timestamp = datetime.datetime.now().strftime("%Y%m%d%H%M%S")file_name = f"new_file_{timestamp}.txt"with open(file_name, "w") as file:file.write(content)print("File 'new_file.txt' has been created and written.")def read_file(file_name):try:with open(file_name, "r") as file:content = file.read()return contentexcept FileNotFoundError:print(f"File '{file_name}' not found.")def main():text_content = read_file("input_file.txt")print('text_content\n', text_content)question_text = generate_question(text_content=text_content, more=True)print('question_text\n', question_text)qa_text = generate_qa(text_content=text_content, question_text=question_text)print('qa_text\n', qa_text)write_to_file(qa_text)main()

步骤3:运行脚本

运行上述Python脚本,它将自动从文档中提取问题,并生成与之对应的答案(输出到 new_file_{timestamp}.txt 文件)。这个脚本也会在控制台上显示提取的问题和生成的答案。

总结

通过这个教程,你可以自动将大段文档转化为一问一答的问答对,无需人工干预。你可以对脚本文件再进行调试和改进,以适应你自己的项目。这个方法可以在处理大量文本时非常有用,特别是使用 GPT-3.5-16k 模型,它具有更大的输入长度限制,但是大文档仍然需要先做一些分段处理。后面我还会提供更多 AI 产品教程,欢迎点赞收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/67391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高斯噪声(Gaussian noise)

摘要 高斯噪声,也称为白噪声或随机噪声,是一种符合高斯(正态)分布的随机信号或干扰。它的特点是在所有频率上具有恒定的功率谱密度,使其在不同频率上呈现出等能量的随机波动。 从实际角度来看,高斯噪声是…

css强制显示一行

要强制将文本内容显示在一行中,可以使用CSS的white-space属性和overflow属性来实现。 首先,将white-space属性设置为nowrap,这样文本内容就不会换行。然后,将overflow属性设置为hidden,这样超出一行的内容就会被隐藏起…

SpringCloud(36):Nacos服务发现基础应用

1 服务发现数据模型 Nacos在经过阿里内部多年生产经验后提炼出的数据模型,则是一种服务-集群-实例的三层模型,这样基本可以满足服务在所有场景下的数据存储和管理。 命名空间(Namespace) 用于进行租户粒度的配置隔离,命名空间不仅适用于nacos的配置管理,同样适用于服务发…

【Vue】集成百度地图

Vue 集成 百度地图 1、获取百度地图 ak 密钥 2、登录网址 https://lbsyun.baidu.com/ 3、注册百度地图开放平台账号,填写认证信息,并且创建应用 安装 npm install vue-baidu-map --savemain.js import BaiduMap from vue-baidu-map;Vue.use(BaiduM…

【Windows 常用工具系列 11 -- 笔记本F5亮度调节关闭】

文章目录 笔记本 F 按键功能恢复 笔记本 F 按键功能恢复 使用笔记本在进行网页浏览时,本想使用F5刷新下网页,结果出现了亮度调节,如下图所示: 所以就在网上查询是否有解决这个问题的帖子,结果还真找到了:…

【深入解析spring cloud gateway】04 Global Filters

上一节学习了GatewayFilter。 回忆一下一个关键点: GateWayFilterFactory的本质就是:针对配置进行解析,为指定的路由,添加Filter,以便对请求报文进行处理。 一、原理分析 GlobalFilter又是啥?先看一下接口…

基于串口校时的数字钟设计

文章目录 设计目标硬件设计数码管串口 软件设计顶层模块串口接收模块数据处理模块时钟模块串口发送模块 总结 设计目标 环境:ACX720开发板 实现功能: 数码管能够显示时分秒能够接收串口数据修改时间能够将当前时间以1s一次速率发送到电脑 硬件设计 数…

python案例

游戏案例:猜数字游戏 玩法说明: 程序随机生成一个1到100之间的整数作为答案。 玩家可以输入自己猜测的数字。 如果玩家猜对了答案,则游戏结束,程序输出恭喜信息。 如果玩家猜错了,程序会根据玩家的猜测给出一些提示信息…

1782_Adobe Reader X实现pdf分页保存

全部学习汇总: GitHub - GreyZhang/windows_skills: some skills when using windows system. 看了一本pdf电子书,觉得其中几页很值得分享。如果分享整本书当然是不错的选择,但是分享整本书很可能会导致一个结局——内容太多别人不会去看&…

内网穿透实战应用-如何通过内网穿透实现远程发送个人本地搭建的hMailServer的邮件服务

文章目录 1. 安装hMailServer2. 设置hMailServer3. 客户端安装添加账号4. 测试发送邮件5. 安装cpolar6. 创建公网地址7. 测试远程发送邮件8. 固定连接公网地址9. 测试固定远程地址发送邮件 hMailServer 是一个邮件服务器,通过它我们可以搭建自己的邮件服务,通过cpolar内网映射工…

Tomca架构细节

一.整体架构 1.1 从请求的处理过程看总体架构 如上图中的图 1 和图 2: 在图 1 中,HTTP 服务器直接调用具体的业务类,各个应用程序和服务器是紧耦合的。 这种架构下,HTTP 需要接受不同的请求,并根据不同的请求调用不…

SpringMVC入门详细介绍

一. SpringMVC简介 Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的几部分,简化开发&a…

17-Sharding-jdbc

一 Sharding-JDBC介绍 1 背景 随着通信技术的革新,全新领域的应用层出不穷,数据存量随着应用的探索不断增加,数据的存储和计算模式无时无刻不面临着创 新。面向交易、大数据、关联分析、物联网等场景越来越细分,单 一数据库再也无…

uniapp组件库总结笔记

uView-ui uView 2.0 - 全面兼容 nvue 的 uni-app 生态框架 - uni-app UI 框架 优点:整体样式风格不错 缺点:不支持vue3(可以使用社区维护的uview-plus uview-plus 3.0 - 全面兼容nvue的uni-app生态框架 - uni-app UI框架) uni-u…

设计模式之代理模式与外观模式

目录 代理模式 简介 优缺点 角色职责 实现 运用场景 外观模式 简介 角色职责 优缺点 实现 使用场景 代理模式 简介 由于某些原因需要给某对象提供一个代理以控制对该对象的访问。这时,访问对象不适合或者不能直接引用目标对象,代理对象作为…

ffmpeg 开发笔记

参考: FFmpeg音视频处理 - 知乎 通过python实时生成音视频数据并通过ffmpeg推送和混流 - 知乎 直播常用 FFmpeg & ffplay 命令 - 知乎 音视频 FFMPEG 滤镜使用 - 知乎 官网: ffmpeg Documentation

React 安装使用 Less(详细流程,包含 webpack、craco 方式)

一、简介 React 项目开发中可能会使用到 Less、Sass 等样式预处理器,create-react-app 创建的 React 项目,默认就是支持 Sass 的。如果需要使用 Less 则需要额外手动安装配置。 二、方式一:webpack.config.js 配置(不推荐&#…

openssl 生成自签名证书

1、openssl生成CA根证书 1.1、生成CA私钥 openssl genrsa -out root_ca.key 2048 注意:私钥必须妥善保管,既不能丢失,也不能泄露。如果发生丢失和泄露,必须马上重新 生成,以使旧的证书失效。 1.2、通过ca私钥生成pem格…

MySQL中的锁

锁的级别 MySQL支持四种级别的锁:全局锁、表级锁、页级锁、行级锁 MyISAM和Memory存储引擎采用的是表级锁; InnoDB存储引擎既支持行级锁,也支持表级锁,但默认情况下是采用行级锁。 全局锁 全局锁就是对整个数据库进行加锁&am…

Android 1.2.1 使用Eclipse + ADT + SDK开发Android APP

1.2.1 使用Eclipse ADT SDK开发Android APP 1.前言 这里我们有两条路可以选,直接使用封装好的用于开发Android的ADT Bundle,或者自己进行配置 因为谷歌已经放弃了ADT的更新,官网上也取消的下载链接,这里提供谷歌放弃更新前最新…