Python中使用Oracle向量数据库实现文本检索系统

Python中使用Oracle向量数据库实现文本检索系统

    • 代码分析

在本文中,我们将深入分析一个使用Oracle向量数据库实现文本检索系统的Python代码,并基于相同的技术生成一个新的示例。这个系统允许我们存储文档及其嵌入向量,并执行相似性搜索。

代码分析

让我们逐步分析原始代码的主要组件和功能:

  1. 导入必要的库:

    • 使用oracledb连接Oracle数据库
    • 使用numpy处理向量
    • 使用pydantic进行配置验证
    • 使用flaskredis进行Web应用程序集成
  2. 定义OracleVectorConfig类:

    • 使用Pydantic模型验证Oracle连接配置
  3. 创建OracleVector类:

    • 实现向量数据库的核心功能
    • 使用contextmanager管理数据库连接
    • 实现CRUD操作和向量搜索
  4. 实现OracleVectorFactory类:

    • 用于初始化向量数据库实例

现在,让我们基于相同的技术创建一个新的示例代码:

import array
import json
import uuid
from contextlib import contextmanager
from typing import List, Dict, Anyimport numpy as np
import oracledb
from pydantic import BaseModel, validatorclass OracleConfig(BaseModel):host: strport: intuser: strpassword: strdatabase: str@validator('host', 'user', 'password', 'database')def check_not_empty(cls, v):if not v:raise ValueError("Field cannot be empty")return vclass TextEmbeddingStore:def __init__(self, config: OracleConfig):self.pool = self._create_connection_pool(config)self.table_name = "text_embeddings"self._create_table()def _create_connection_pool(self, config: OracleConfig):return oracledb.create_pool(user=config.user,password=config.password,dsn=f"{config.host}:{config.port}/{config.database}",min=1,max=5,increment=1)@contextmanagerdef _get_cursor(self):conn = self.pool.acquire()conn.inputtypehandler = self._input_type_handlerconn.outputtypehandler = self._output_type_handlercur = conn.cursor()try:yield curfinally:cur.close()conn.commit()conn.close()def _input_type_handler(self, cursor, value, arraysize):if isinstance(value, np.ndarray):return cursor.var(oracledb.DB_TYPE_VECTOR,arraysize=arraysize,inconverter=self._numpy_to_array)def _output_type_handler(self, cursor, metadata):if metadata.type_code is oracledb.DB_TYPE_VECTOR:return cursor.var(metadata.type_code,arraysize=cursor.arraysize,outconverter=self._array_to_numpy)def _numpy_to_array(self, value):return array.array('f', value)def _array_to_numpy(self, value):return np.array(value, dtype=np.float32)def _create_table(self):with self._get_cursor() as cur:cur.execute(f"""CREATE TABLE IF NOT EXISTS {self.table_name} (id VARCHAR2(100) PRIMARY KEY,text CLOB NOT NULL,metadata JSON,embedding VECTOR NOT NULL)""")def add_texts(self, texts: List[str], embeddings: List[List[float]], metadata: List[Dict] = None):if metadata is None:metadata = [{} for _ in texts]values = [(str(uuid.uuid4()), text, json.dumps(meta), np.array(emb, dtype=np.float32))for text, emb, meta in zip(texts, embeddings, metadata)]with self._get_cursor() as cur:cur.executemany(f"INSERT INTO {self.table_name} (id, text, metadata, embedding) VALUES (:1, :2, :3, :4)",values)def search_similar(self, query_vector: List[float], top_k: int = 5) -> List[Dict[str, Any]]:query_vector = np.array(query_vector, dtype=np.float32)with self._get_cursor() as cur:cur.execute(f"""SELECT id, text, metadata, vector_distance(embedding, :1) AS distanceFROM {self.table_name}ORDER BY distanceFETCH FIRST :2 ROWS ONLY""",[query_vector, top_k])results = []for id, text, metadata, distance in cur:results.append({"id": id,"text": text,"metadata": json.loads(metadata),"distance": distance,"similarity": 1 - distance})return results# 使用示例
if __name__ == "__main__":config = OracleConfig(host="localhost",port=1521,user="your_username",password="your_password",database="your_database")store = TextEmbeddingStore(config)# 添加文本和嵌入texts = ["Hello world", "Python programming", "Vector database"]embeddings = [[0.1, 0.2, 0.3], [0.4, 0.5, 0.6], [0.7, 0.8, 0.9]]store.add_texts(texts, embeddings)# 搜索相似文本query_vector = [0.2, 0.3, 0.4]results = store.search_similar(query_vector, top_k=2)for result in results:print(f"Text: {result['text']}")print(f"Similarity: {result['similarity']:.4f}")print("---")

这个新的示例代码实现了一个简化版的文本嵌入存储系统,使用Oracle向量数据库。它包含以下主要功能:

  1. 使用Pydantic进行配置验证
  2. 创建和管理Oracle连接池
  3. 使用上下文管理器处理数据库连接
  4. 处理numpy数组和Oracle向量类型之间的转换
  5. 实现添加文本和嵌入的方法
  6. 实现基于向量相似度的搜索方法

这个示例展示了如何使用Oracle向量数据库来存储和检索文本嵌入,可以作为构建更复杂的文本检索或推荐系统的基础。

在实际应用中,你可能需要添加错误处理、日志记录、性能优化等功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/39330.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

探究Executors创建的线程池(如newFixedThreadPool)其核心线程数等参数的可调整性

java中提供Executors类来创建一些固定模板参数的线程池,如下图(newWorkStealingPool除外,这个是创建ForkJoinPool的,这里忽略): 拿newFixedThreadPool方法创建线程池为例,newFixedThreadPool是…

白杨SEO:打粉是啥?打粉引流怎么做?打粉引流犯法吗?小红书代发效果好吗?

文章大纲: 1、打粉是什么意思? 2、打粉有哪些方法? 3、打粉一般怎么变现? 4、打粉引流是违法犯罪吗? 5、小红书代发是啥? 6、小红书批量代发效果好吗? 打粉是什么意思? 打粉这…

第1章 firewalld防火墙

防火墙 概念 支持网络区域所定义的网络链接以及接口安全等级的动态防火墙管理工具支持IPv4、IPv6防火墙设置以及以太网桥支持服务或应用程序直接添加防火墙规则接口拥有两种配置模式 运行时配置:添加的策略立即生效,不用重载防火墙,策略临时…

C语言-初探指针

初探指针 指针概念指针和指针类型指针类型意义 野指针如何避免 指针运算指针-整数指针-指针指针的关系运算 指针和数组二级指针指针数组 指针概念 指针是内存中一个最小单元(1个字节)的编号,也就是地址平时口语中说的指针,通常指的是指针变量&#xff0…

(免费领源码)java#springboot#mysql校园医院预约挂号系统32236-计算机毕业设计项目选题推荐

摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对校园医院管理等问题,对校园医院…

初识单片机

单片机 英文 Micro Controller Unit(MCU) 1.内部集成了CPU、RAM、ROM、定时器、中断系统、通讯接口等一系列电脑的常用硬件功能 2.单片机的任务是信息采集(依靠传感器)、处理(依靠CPU)和硬件设备&#…

【嵌入式单片机】之RS-232、RS-485、RS-422比较

1. RS422是什么 RS422,正式名称为TIA/EIA-422,是一种串行通信标准,专为实现长距离、高可靠性的数据传输而设计。它采用差分信号传输技术,通过两对双绞线实现全双工通信,即发送和接收可以同时进行。RS422在工业自动化和远程监控系统中曾经扮演着重要角色,以其出色的抗干扰…

MySQL—常用的数据类型

数据类型 整型 1.创建一个含有无符号/有符号整型的字段的表 CREATE TABLE L1(id tinyint unsigned #无符号 ) CREATE TABLE L2(id tinyint #默认为有符号 ) 数值型(bit) 2.数值型(bit)的使用 小数 3.数值型(小数)的基本使用 字符串 4.字符串的基本使用 #演示字符串类型…

MySQL中的左连接详解

在 MySQL 中,左连接(LEFT JOIN)也称为左外连接,是一种用于连接两个或多个表的操作。 左连接的结果包含左表(即 LEFT JOIN 关键字左边的表)中的所有行,即使在右表(即 LEFT JOIN 关键…

【学习笔记】网络设备(华为交换机)基础知识1——命令行入门知识

一、前期准备 提示:下面所有学习内容都是基于以下条件完成的 条件1.已经可以正常访问交换机的命令行接口 连接到命令行接口的方法 : ① :通过Console口本地访问 ② : 通过Telnet访问 ③ : 通过SSH访问 ④ &#xff1…

小阿轩yx-LVS负载均衡群集

小阿轩yx-LVS负载均衡群集 构建群集服务器—通过整合多台服务器使用 LVS 达到服务器的高可用和负载均衡并以同一个 IP 地址对外提供相同的服务 LVS 群集应用基础 群集称呼来自英文单词“Cluster”在服务器领域则表示大量服务器的集合体,区分单个服务器 Cluster …

创新驱动,智享未来:电动车仪表盘之蓝牙芯方案

电动车行业不断发展的浪潮中,我们自豪地推出引领时代的电动车仪表盘蓝牙芯方案,为您的骑行之旅带来前所未有的智能与便捷。 精准掌控,一目了然 我们的蓝牙芯方案搭载了高性能BLE 5.0蓝牙芯片-HS6621CG-C 内核ARM Cortex-M4F, max 64MHZ,SRAM…

Operations Research课程之带约束的非线性规划(凸分析|Lagrange松弛|Lagrange对偶|KKT条件)

目录 1.凸分析 1.1 为什么需要凸分析 1.2 凸分析相关概念 1.3 凸规划定义 1.4 单变量NLP凸分析 1.5 多变量NLP凸分析 2.拉格朗日松弛 2.1 拉格朗日函数 2.2 拉格朗日对偶 2.2.1 弱对偶性 2.2.2 凸性 2.2.3 强对偶性 2.2.4 与LP对偶关系 3.KKT条件 3.1 KKT介绍…

Redis 管道(Pipeline)是什么?有什么用?

目录 1. redis 客户端-服务端模型的不足之处 2. redis 管道是什么?有什么好处? 3. 管道的使用场景 4. 管道使用的注意事项 1. redis 客户端-服务端模型的不足之处 众所周知,redis 是一个客户端-服务端的模型设计,客户端向服务…

Qt的信号与槽机制底层原理

Qt的信号与槽机制是Qt框架的核心特性之一,它允许对象之间进行解耦通信。信号(Signal)是一个类成员函数,当特定事件发生时,信号会被自动触发。槽(Slot)也是一个类成员函数,它可以被信…

上海网站建设如何做

上海是中国最繁华的城市之一,作为全国的经济、文化和科技中心,网站建设在上海变得越来越重要。如何做好上海网站建设,让网站更加吸引人,成为企业和个人宣传自身的重要平台呢? 首先,要有清晰的定位和目标。在…

SCI一区级 | Matlab实现BO-Transformer-BiLSTM时间序列预测

SCI一区级 | Matlab实现BO-Transformer-BiLSTM时间序列预测 目录 SCI一区级 | Matlab实现BO-Transformer-BiLSTM时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.【SCI一区级】Matlab实现BO-Transformer-BiLSTM时间序列预测,贝叶斯优化Transfor…

Zoom视颊会议软件使用

GPT-3.5 (OpenAI) Zoom是一款极受欢迎的视频会议软件。使用Zoom可以方便地进行视频会议、远程授课、在线研讨会等活动。以下是Zoom的使用步骤: 1. 下载Zoom客户端 可以在Zoom官网上下载对应平台的Zoom客户端。下载并完成安装后,双击打开客户端。 2. 创建…

【AI】ChatTTS实现文本转语音

最近有时间继续研究一下各种有趣的开源项目,一个叫ChatTTS的项目吸引了我的注意,这个项目可以把文本转换成语音,配合gpt生成文本,可以直接用于生产有声书作品了,这可以说是直接的生产力项目了。 项目对显存的要求不高&…

el-table 树状表格查询符合条件的数据

需要对el-table的树状表格根据输入机构名称&#xff0c;筛选出符合条件的数据&#xff0c;可用如下方法&#xff1a; 页面内容如下&#xff1a; <el-input v-model"ogeName" placeholder"请输入机构名称"><el-table :data"list" row…