使用 OpenAI 进行结构化标签提取的 Python 实现

使用 OpenAI 进行结构化标签提取的 Python 实现

    • 1. 环境准备
    • 2. 加载环境变量
    • 3. 初始化 OpenAI 客户端
    • 4. 定义系统消息
    • 5. 实现标签提取函数
    • 6. 示例应用
      • 示例1:人事文档
      • 示例2:技术文档
    • 7. 运行结果
    • 8. 总结

在现代的信息处理中,从文本中提取结构化信息是一个常见的需求。无论是从人事文档中提取人名、部门名称,还是从技术文档中提取技术领域和产品名称,这些任务都可以通过自然语言处理(NLP)技术来实现。本文将介绍如何使用 OpenAI 的 GPT-4 模型来实现这一功能,并通过 Python 代码展示具体的实现步骤。

1. 环境准备

首先,我们需要准备 Python 环境,并安装必要的依赖库。我们将使用 openai 库来调用 GPT-4 模型,并使用 dotenv 库来管理环境变量。

pip install openai python-dotenv

2. 加载环境变量

为了安全地管理 API 密钥和其他敏感信息,我们可以将这些信息存储在 .env 文件中,并使用 dotenv 库来加载它们。

import logging
import osfrom dotenv import find_dotenv, load_dotenv
from openai import OpenAI# 读取本地 .env 文件
load_dotenv(find_dotenv())# 设置日志级别为 ERROR,避免 WARNING 信息干扰
logging.basicConfig(level=logging.ERROR)

3. 初始化 OpenAI 客户端

接下来,我们需要初始化 OpenAI 客户端。这里我们从环境变量中读取 OPENAI_BASE_URLOPENAI_API_KEY

# 初始化 OpenAI 模型
llm_client = OpenAI(base_url=os.environ["OPENAI_BASE_URL"],api_key=os.environ["OPENAI_API_KEY"],
)

4. 定义系统消息

为了指导 GPT-4 模型进行标签提取,我们需要定义一个系统消息。这个消息将告诉模型我们期望的输出格式和标签类型。

system_message = """你是一个标签提取专家。请从文本中提取结构化信息,并按要求输出标签。
---
【支持的标签类型】
- 人名
- 部门名称
- 职位名称
- 技术领域
- 产品名称
---
【输出要求】
1. 请用 JSON 格式输出,如:[{"key": "部门名称", "value": "教研部"}]
2. 如果某类标签未识别到,则不输出该类
---
待分析文本如下:
"""

5. 实现标签提取函数

我们定义一个 extract_tags 函数,该函数将接收待分析的文本,并调用 GPT-4 模型来提取标签。

def extract_tags(text):completion = llm_client.chat.completions.create(model="gpt-4",messages=[{'role': 'system', 'content': system_message},{'role': 'user', 'content': text}],response_format={"type": "json_object"},seed=42,)return completion.choices[0].message.content

6. 示例应用

我们通过两个示例来展示如何使用 extract_tags 函数。

示例1:人事文档

# 示例1:人事文档
hr_text = """张明是我们AI研发部的技术主管,他带领团队开发了新一代智能对话平台 ChatMax,在自然语言处理领域有着丰富经验。如果您需要了解项目细节,可以直接联系他。"""
print("人事文档标签提取结果:")
print(extract_tags(hr_text))

示例2:技术文档

# 示例2:技术文档
tech_text = """本论文提出了一种基于深度学习的图像识别算法,在医疗影像分析中取得了突破性进展。该算法已在北京协和医院的CT诊断系统中得到应用。"""
print("\n技术文档标签提取结果:")
print(extract_tags(tech_text))

7. 运行结果

运行上述代码后,我们将得到类似以下的输出:

人事文档标签提取结果:
[{"key": "人名", "value": "张明"},{"key": "部门名称", "value": "AI研发部"},{"key": "职位名称", "value": "技术主管"},{"key": "技术领域", "value": "自然语言处理"},{"key": "产品名称", "value": "ChatMax"}
]技术文档标签提取结果:
[{"key": "技术领域", "value": "深度学习"},{"key": "产品名称", "value": "CT诊断系统"},{"key": "部门名称", "value": "北京协和医院"}
]

8. 总结

通过本文的介绍,我们学习了如何使用 OpenAI 的 GPT-4 模型来从文本中提取结构化标签。这种方法可以广泛应用于各种信息提取任务中,如人事管理、技术文档分析等。希望本文对你有所帮助,欢迎在评论区分享你的使用体验和问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/66277.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【电源专题】为什么测试电源的SW波形上冲振荡之前的0V电位要先来个小的下降

在同步电源的开关节点SW波形测试中,你可能会发现周期性的SW波形在上升前的一小段时间时间内会有一个小小的下跌,这个下跌会低于0V。那么这个下跌是怎么来的呢? 如下所示为某降压转换器的SW开关节点波形: 其展开后可以看到在上升之前有20ns左右的时间,SW电压是下跌…

操作系统大题整理

专题一 程序代码题:程序设计与分析,主要考的是线程,多线程的并发? 大题第一问(1)操作系统的结构有哪几种常用的结构? 宏内核:宏内核是将操作系统的主要功能模块都集中在内核的一种结…

web安全常用靶场

这里写自定义目录标题 phpstydy2018pikachuxss-labs phpstydy2018 网盘地址 提取码: nxnw ‌phpStudy是一款专为PHP开发者设计的集成环境工具,主要用于简化PHP开发环境的搭建过程。‌ 它集成了Apache、MySQL、PHP等核心组件,用户只需进行一次性安装&a…

【yolov8自卸卡车-挖掘机-装载机检测】

yolov8自卸卡车-挖掘机-装载机检测 YOLOv8算法介绍数据集和模型下载数据集准备数据配置文件(data.yaml)安装依赖模型训练步骤 YOLOv8算法介绍 YOLOv8是You Only Look Once(YOLO)算法家族的最新版本,它是一种单阶段目标…

扩散模型论文概述(二):Google系列工作【学习笔记】

视频链接:扩散模型论文概述(二):Google系列工作_哔哩哔哩_bilibili 本视频讲的是Google在图像生成的工作。 同样,第一张图片是神作,总结的太好了! 在生成式AI的时代,OpenAI和Google不…

redis常用数据类型

在Redis中,有几种数据类型是非常常用且核心的,它们各自有着独特的应用场景和优势。 1. 字符串(String): • 这是Redis中最基本、最常用的数据类型。 • 字符串可以是任何形式的二进制数据,包括文本、图片等…

基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真

目录 1.课题概述 2.系统仿真结果 3.核心程序与模型 4.系统原理简介 5.完整工程文件 1.课题概述 基于氢氧燃料电池的分布式三相电力系统Simulink建模与仿真,仿真输出燃料电池中氢氧元素含量变化以及生成的H2O变化情况。 2.系统仿真结果 3.核心程序与模型 版本…

UE5.3 虚幻引擎 Windows插件开发打包(带源码插件打包、无源码插件打包)

0 引言 随着项目体量的增大,所有代码功能都放一起很难管理。所以有什么办法可以将大模块划分成一个个小模块吗。当然有,因为虚幻引擎本身就遇到过这个问题,他的解决办法就是使用插件的形式开发。 例如,一个团队开发了文件I/O模块插…

MySQL 的事务与多版本并发控制(MVCC)的那些事

什么是事务原子性:一致性隔离性 问题1: 为什么MySQL要使用mvcc实现隔离性而不使用 锁 解决并发问题?持久性 问题2: MySQL 不是磁盘数据库吗,持久化为什么是 redo log 保证的?问题 3: redo log 储存了什么东西,持久化(崩溃恢复是怎么做的?)问题 4 : MySQL 的 bing log (二进制…

多模态论文笔记——U-ViT

大家好,这里是好评笔记,公主号:Goodnote,专栏文章私信限时Free。本文详细介绍U-ViT的模型架构和实验细节,虽然没有后续的DiT在AIGC领域火爆,但为后来的研究奠定了基础,但其开创性的探索值得学习…

springboot实战纪实-课程介绍

教程介绍 Spring Boot是由Pivotal团队提供的一套开源框架,可以简化spring应用的创建及部署。它提供了丰富的Spring模块化支持,可以帮助开发者更轻松快捷地构建出企业级应用。 Spring Boot通过自动配置功能,降低了复杂性,同时支持…

BBP飞控板中的坐标系变换

一般飞控板中至少存在以下坐标系: 陀螺Gyro坐标系加速度计Acc坐标系磁强计Mag坐标系飞控板坐标系 在BBP飞控板采用的IMU为同时包含了陀螺(Gyro)及加速度计(Acc)的6轴传感器,故Gyro及Acc为同一坐标系。同时…

数据表中的索引详解

文章目录 一、索引概述二、普通索引三、唯一索引四、全文索引五、多列索引六、索引的设计原则七、隐藏和删除索引 一、索引概述 日常生活中,我们经常会在电话号码簿中查阅“某人”的电话号码,按姓查询或者按字母排序查询;在字典中查阅“某个…

大模型系列17-RAGFlow搭建本地知识库

大模型系列17-RAGFlow搭建本地知识库 安装ollama安装open-wehui安装并运行ragflowRAG(检索、增强、生成)RAG是什么RAG三过程RAG问答系统构建步骤向量库构建检索模块生成模块 RAG解决LLM的痛点 使用ragflow访问ragflow配置ollama模型添加Embedding模型添加…

R shiny app | 网页应用 空格分隔的文本文件在线转csv

shiny 能快速把R程序以web app的形式提供出来,方便使用,降低技术使用门槛。 本文提供的示例:把空格分隔的txt文件转为逗号分隔的csv文件。 前置依赖:需要有R环境(v4.2.0),安装shiny包(v1.9.1)。括号内是我使用的版本…

SocraticLM: Exploring Socratic Personalized Teaching with Large Language Models

题目 苏格拉底式教学:用大型语言模型探索苏格拉底式个性化教学 论文地址:https://openreview.net/pdf?idqkoZgJhxsA 项目地址:https://github.com/Ljyustc/SocraticLM 摘要 大型语言模型(LLM)被认为是推进智能教育的一项关键技术,因为它们展…

第一节:电路连接【51单片机+A4988+步进电机教程】

摘要:本节介绍如何搭建一个51单片机A4988步进电机控制电路,所用材料均为常见的模块,简单高效的方式搭建起硬件环境 一、硬件清单 ①51单片机最小控制模块 ②开关电源 ③A4988模块转接座 ④二相四线步进电机 ⑤电线若干 二、接线 三、A49…

Outlook2024版如何回到经典Outlook

Outlook2024版如何回到经典Outlook 如果新加入一家公司,拿到的电脑,大概率是最新版的Windows, 一切都是新的。 如果不coding, 使用国产的foxmail大概就可以解决一切问题了。可惜老程序员很多Coding都是基于传统Outlook的,科技公司所有人都是I…

网关如何识别和阻止网络攻击

网关在识别和阻止网络攻击方面扮演着关键角色,它通过多种技术和机制来确保网络的安全。以下是网关如何识别和阻止网络攻击的一些主要方法: 1.深度包检测(DPI) 网关可以对经过的数据包进行深度分析,检查数据包的头部、负…

操作系统复习(理论版)

目录 只会在选择填空出现类型 第一章:操作系统导论 操作系统介绍 不得不知道的概念 可能出现在答题的类型 第二章:进程调度 进程管理: 处理机调度: 进程同步: 死锁: 预防死锁: 避免死…