LanceDB:在对抗数据复杂性战役中,您可信赖的坐骑

LanceDB 建立在 Lance(一种开源列式数据格式)之上,具有一些有趣的功能,使其对 AI/ML 具有吸引力。例如,LanceDB 支持显式和隐式矢量化,能够处理各种数据类型。LanceDB 与 PyTorch 和 TensorFlow 等领先的 ML 框架集成。Cooler 仍然是 LanceDB 的快速邻居搜索,它能够使用近似最近邻算法有效地检索相似的向量。所有这些结合在一起,创建了一个快速、易于使用且轻量级的矢量数据库,可以部署在任何地方。

LanceDB 能够查询兼容 S3 对象存储中的数据。这种组合非常适合构建高性能、可扩展和云原生的 ML 数据存储和检索系统。MinIO 为不同的硬件、位置和云环境带来了性能和无与伦比的灵活性,使其成为此类部署的自然选择。

完成本教程后,您将准备好使用 LanceDB 和 MinIO 来应对任何数据挑战。

什么是Lance?

Lance 文件格式是一种针对 ML 工作流和数据集优化的列式数据格式。它旨在轻松快速地进行版本控制、查询和用于训练,适用于各种数据类型,包括图像、视频、3D 点云、音频和表格数据。此外,它还支持高性能随机访问:Lance 报告基准测试的速度比 Parquet 快 100 倍。Lance 的速度在一定程度上是在 Rust 中实现的结果,以及它的云原生设计,其中包括零拷贝版本控制和优化的矢量操作等功能。

它的主要功能之一是能够执行向量搜索,允许用户在 1 毫秒内找到最近的邻域,并将 OLAP 查询与向量搜索相结合。lance 格式的其他生产应用包括用于 ML 应用的边缘部署低延迟向量数据库,自动驾驶汽车公司中多模态数据的大规模存储、检索和处理,以及电子商务公司中亿级 + 向量个性化搜索。Lance 文件格式的部分吸引力在于它与流行的工具和平台兼容,例如 Pandas、DuckDB、Polars 和 Pyarrow。即使您不使用 LanceDB,您仍然可以在数据堆栈中使用 Lance 文件格式。

专为 AI 和机器学习而构建

像 LanceDB 这样的矢量数据库为 AI 和机器学习应用提供了明显的优势,这要归功于它们高效的解耦存储和计算架构以及对数据的高维矢量表示的检索。以下是一些关键用例:

自然语言处理(NLP):

语义搜索:根据含义查找类似于查询的文档或段落,而不仅仅是关键字。这为聊天机器人响应、个性化内容推荐和知识检索系统提供支持。

问答:通过根据语义相似性查找相关文本段落来理解和回答复杂的问题。

主题建模:发现大型文本集合中的潜在主题,这对于文档聚类和趋势分析很有用。

计算机视觉:
目标检测和分类:通过高效检索相似的训练数据,提高目标检测和分类模型的准确性。

视频推荐:根据之前观看过的视频的视觉内容推荐类似视频

视频推荐:根据之前观看过的视频的视觉内容推荐类似视频

将 MinIO 与 LanceDB 结合使用有几个好处,包括:

  • 可扩展性和性能:MinIO 的云原生设计专为扩展和高性能存储和检索而构建。通过利用 MinIO 的可扩展性和性能,LanceDB 可以有效地处理大量数据,使其非常适合现代 ML 工作负载。

  • 高可用和容错:MinIO具有高可用、不可变、高持久性等特点。这确保了存储在 MinIO 中的数据免受硬件故障的影响,并提供高可用性和容错能力,这对于像 LanceDB 这样的数据密集型应用程序至关重要。

  • 主动-主动复制:多站点、主动-主动复制支持在多个 MinIO 部署之间近乎同步地复制数据。这种强大的工艺确保了高耐用性和冗余性,使其成为在关键任务生产环境中屏蔽数据的理想选择。

MinIO 和 LanceDB 的结合为管理和分析大规模 ML 数据集提供了高性能、可扩展的云原生解决方案。

要求

要按照本教程进行操作,您需要使用 Docker Compose。您可以单独安装 Docker 引擎和 Docker Compose 二进制文件,也可以使用 Docker Desktop 一起安装。最简单的选择是安装 Docker Desktop。

通过运行以下命令确保安装了 Docker Compose:

docker compose version

您还需要安装 Python。你可以从这里下载 Python。在安装过程中,请确保选中将 Python 添加到系统的 PATH 的选项。

或者,您可以选择创建虚拟环境。最好创建虚拟环境来隔离依赖项。为此,请打开终端并运行:

python -m venv venv

要激活虚拟环境,请执行以下操作:

On Windows: 在 Windows 上:

.\venv\Scripts\activate

On macOS/Linux: 在 macOS/Linux 上:

source venv/bin/activate

开始

首先从这里克隆项目。完成后,导航到终端窗口中下载文件的文件夹并运行:

docker-compose up minio

这将启动 MinIO 容器。您可以导航到“http://172.20.0.2:9001”以查看 MinIO 控制台。

使用用户名和密码 minioadmin:minioadmin 登录。

接下来,运行以下命令以创建名为 lance 的 MinIO 存储桶。

docker compose up mc

此命令在 shell 中执行一系列 MinIO 客户端 (mc) 命令。

以下是每个命令的细分:

until (/usr/bin/mc config host add minio http://minio:9000 minioadmin minioadmin) do echo ‘…waiting…’ && sleep 1; done;:
此命令反复尝试配置使用指定参数(端点、访问密钥和密钥)命名 minio 的 MinIO 主机,直到成功。在每次尝试期间,它都会回显等待消息并暂停 1 秒钟。

/usr/bin/mc rm -r --force minio/lance; 此命令强制移除(删除)MinIO lance 中存储桶中的所有内容。

/usr/bin/mc mb minio/lance; 此命令创建一个在 MinIO 中命名 lance 的新存储桶。

/usr/bin/mc policy set public minio/lance; 此命令将 lance 存储桶的策略设置为 public,允许 public 读取访问。

exit 0; 此命令确保脚本退出,状态代码为 0,表示执行成功。

LanceDB

不幸的是,LanceDB 没有原生 S3 支持,因此,您将不得不使用类似 boto3 的东西来连接到您制作的 MinIO 容器。随着 LanceDB 的成熟,我们期待原生 S3 支持,这将使用户体验更好。

下面的示例脚本将帮助你入门。

使用 pip 安装所需的包。使用以下内容创建名为 requirements.txt 的文件:

lancedb~=0.4.1
boto3~=1.34.9
botocore~=1.34.9

然后运行以下命令以安装软件包:

pip install -r requirements.txt

如果创建 MinIO 容器的方法与上述方法不同,则需要更改凭据。

将以下脚本保存到文件中,例如 lancedb_script.py .

import lancedb
import os
import boto3
import botocore
import randomdef generate_random_data(num_records):data = []for _ in range(num_records):record = {"vector": [random.uniform(0, 10), random.uniform(0, 10)],"item": f"item_{random.randint(1, 100)}","price": round(random.uniform(5, 100), 2)}data.append(record)return datadef main():# Set credentials and region as environment variablesos.environ["AWS_ACCESS_KEY_ID"] = "minioadmin"os.environ["AWS_SECRET_ACCESS_KEY"] = "minioadmin"os.environ["AWS_ENDPOINT"] = "http://localhost:9000"os.environ["AWS_DEFAULT_REGION"] = "us-east-1"minio_bucket_name = "lance"# Create a boto3 session with path-style accesssession = boto3.Session()s3_client = session.client("s3", config=botocore.config.Config(s3={'addressing_style': 'path'}))# Connect to LanceDB using path-style URI and s3_clientdb_uri = f"s3://{minio_bucket_name}/"db = lancedb.connect(db_uri)# Create a table with more interesting datatable = db.create_table("mytable", data=generate_random_data(100))# Open the table and perform a searchresult = table.search([5, 5]).limit(5).to_pandas()print(result)if __name__ == "__main__":main()

此脚本将从随机生成的数据创建一个 Lance 表,并将其添加到您的 MinIO 存储桶中。同样,如果您不使用上一节中的方法创建存储桶,则需要在运行脚本之前执行此操作。请记住更改上面的示例脚本,以匹配您对 MinIO 存储桶的名称。

最后,脚本打开表,而不将其移出 MinIO,并使用 Pandas 进行搜索并打印结果。

脚本的结果应类似于下面的结果。请记住,数据本身每次都是随机生成的。

                   vector      item  price  _distance
0  [5.1022754, 5.1069164]   item_95  50.94   0.021891
1   [4.209107, 5.2760105]  item_100  69.34   0.701694
2     [5.23562, 4.102992]   item_96  99.86   0.860140
3   [5.7922664, 5.867489]   item_47  56.25   1.380223
4    [4.458882, 3.934825]   item_93   9.90   1.427407

自行扩展

本教程中提供了许多在此基础上进行构建的方法,以创建高性能、可扩展且面向未来的 ML/AI 架构。您的武器库中有两个尖端的开源构建块 - MinIO 对象存储和 LanceDB 矢量数据库 - 将其视为 ML/AI 锦标赛的获胜门票。

不要止步于此。LanceDB 提供了广泛的方法和教程来扩展您在本教程中构建的内容,包括最近宣布的关于使用矢量数据库构建生成式 AI 解决方案的 Udacity 课程。特别令人感兴趣的是这个与您的文档聊天的秘诀。我们都致力于打破障碍,从您的数据中获得最大收益。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/590256.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

算法训练营Day30

#Java #回溯 开源学习资料 Feeling and experiences: 加油站:力扣题目链接 在一条环路上有 n 个加油站,其中第 i 个加油站有汽油 gas[i] 升。 你有一辆油箱容量无限的的汽车,从第 i 个加油站开往第 i1 个加油站需要消耗汽油 …

24届春招实习必备技能(一)之MyBatis Plus入门实践详解

MyBatis Plus入门实践详解 一、什么是MyBatis Plus? MyBatis Plus简称MP,是mybatis的增强工具,旨在增强,不做改变。MyBatis Plus内置了内置通用 Mapper、通用 Service,仅仅通过少量配置即可实现单表大部分 CRUD 操作&#xff0…

【LMM 003】生物医学领域的垂直类大型多模态模型 LLaVA-Med

论文标题:LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day 论文作者:Chunyuan Li∗, Cliff Wong∗, Sheng Zhang∗, Naoto Usuyama, Haotian Liu, Jianwei Yang Tristan Naumann, Hoifung Poon, Jianfeng Gao 作…

LeetCode二叉树路径和专题:最大路径和与路径总和计数的策略

目录 437. 路径总和 III 深度优先遍历 前缀和优化 124. 二叉树中的最大路径和 437. 路径总和 III 给定一个二叉树的根节点 root ,和一个整数 targetSum ,求该二叉树里节点值之和等于 targetSum 的 路径 的数目。 路径 不需要从根节点开始&#xf…

简单FTP客户端软件开发——VMware安装Linux虚拟机(命令行版)

VMware安装包和Linux系统镜像: 链接:https://pan.baidu.com/s/1UwF4DT8hNXp_cV0NpSfTww?pwdxnoh 提取码:xnoh 这个学期做计网课程设计【简单FTP客户端软件开发】需要在Linux上配置 ftp服务器,故此用VMware安装了Linux虚拟机&…

<软考高项备考>《论文专题 - 39采购管理(3) 》

3 过程2-实施采购 3.1 问题 4W1H过程做什么获取卖方应答、选择卖方并授予合同的过程作用:选定合格卖方并签署关于货物或服务交付的法律协议。本过程的最后成果是签订的协议,包括正式合同。为什么做实际进行采购谁来做组织中的职能部门或项目经理什么时…

遭遇.360、.halo勒索病毒:应对.360、.halo勒索病毒的最佳方法

尊敬的读者: 在数字时代的今天,科技的飞速发展为我们的工作和生活带来了便捷,然而,与此同时,网络空间中的威胁也日益猖獗。其中之一的勒索病毒,如.360、.halo病毒,以其高度隐蔽和破坏性成为网络…

burpsuite模块介绍之compare

导语 Burp Comparer是Burp Suite中的一个工具,主要提供一个可视化的差异比对功能,可以用于分析比较两次数据之间的区别。它的应用场景包括但不限于: 枚举用户名过程中,对比分析登陆成功和失败时,服务器端反馈结果的区…

编程式导航传参

(通过js代码实现跳转) 按照path进行跳转 第一步&#xff1a; 在app.vue中(前提是规则已经配置好) <template><div id"app">App组件<button clicklogin>跳转</button><!--路由出口-将来匹配的组件渲染地方--><router-view>&l…

【嵌入式学习笔记-01】什么是UC,操作系统历史介绍,计算机系统分层,环境变量(PATH),错误

【嵌入式学习笔记】什么是UC&#xff0c;操作系统历史介绍&#xff0c;计算机系统分层&#xff0c;环境变量&#xff08;PATH&#xff09;&#xff0c;错误 文章目录 什么是UC?计算机系统分层什么是操作系统&#xff1f; 环境变量什么是环境变量&#xff1f;环境变量的添加&am…

一次降低进程IO延迟的性能优化实践——基于block层bfq调度器(下篇)

在上一篇《一次降低进程IO延迟的性能优化实践——基于block层bfq调度器》基础上&#xff0c;本文主要总结实现该IO性能优化过程遇到的 IO卡死、IO重复派发、内核crash等问题。 1&#xff1a;IO重复派发触发了crash 在初版代码编写完成后&#xff0c;启动fio测试cat读取文件&a…

简写英语单词

题目&#xff1a; 思路&#xff1a; 这段代码的主要思路是读取一个字符串&#xff0c;然后将其中每个单词的首字母大写输出。具体来说&#xff0c;程序首先使用 fgets 函数读取一个字符串&#xff0c;然后遍历该字符串中的每个字符。当程序遇到一个字母时&#xff0c;如果此时…

在Linux中进行ZooKeeper集群搭建

在公网IP为x.x.x.x、y.y.y.y和z.z.z.z并装有Alibaba Cloud Linux 3.2104 LTS 64位的服务器上进行zookeeper集群搭建&#xff0c;都安装server-jre-8u202-linux-x64和apache-zookeeper-3.9.1-bin。 环境准备&#xff08;三台服务器都一样&#xff09; 第一步&#xff0c;下载s…

基于图论的图像分割 python + PyQt5

数据结构大作业&#xff0c;基于图论中的最小生成树的图像分割。一个很古老的算法&#xff0c;精度远远不如深度学习算法&#xff0c;但是对于代码能力是一个很好的锻炼。 课设要求&#xff1a; &#xff08; 1 &#xff09;输入&#xff1a;图像&#xff08;例如教室场景图&a…

四、Spring IoC实践和应用(三种配置方式总结)

本章概要 三种配置方式总结 XML方式配置总结XML注解方式配置总结完全注解方式配置总结 整合Spring5-Test5搭建测试环境 4.5 三种配置方式总结 4.5.1 XML方式配置总结 所有内容写到xml格式配置文件中声明bean通过<bean标签<bean标签包含基本信息&#xff08;id,class&…

字符串拼接 (90%用例)C卷 (JavaPythonNode.jsC++)

给定M(0<M<=30)个字符 (a-z),从中取出任意字符 (每个字符只能用一次)拼接成长度为N(0<N<=5)的字符串,要求相同的字符不能相邻,计算出给定的字符列表能拼接出多少种满足条件的字符串,输入非法或者无法拼接出满足条件的字符串则返回0。 输入描述 给定的字符列表…

47、激活函数 - sigmoid

今天在看一个比较常见的激活函数,叫作 sigmoid 激活函数,它的数学表达式为: 其中,x 为输入,画出图来看更直观一些。 Sigmoid 函数的图像看起来像一个 S 形曲线,我们先分析一下这个函数的特点。 Sigmoid 函数的输出范围在 (0, 1) 之间,并且不等于0或1。 Sigmoid 很明显是…

Codeforces Round 900 (Div. 3)(A-F)

比赛链接 : Dashboard - Codeforces Round 900 (Div. 3) - Codeforces A. How Much Does Daytona Cost? 题面 : 思路 : 在序列中只要找到k&#xff0c;就返回true ; 代码 : #include<bits/stdc.h> #define IOS ios::sync_with_stdio(0);cin.tie(0);cout.tie(0)…

客户端和驱动程序

今天我们来聊聊数据库领域中经常出现的两个术语&#xff1a;客户端和驱动程序。 客户端和驱动程序 客户端&#xff1a; 通常是指使用数据库服务的应用程序或工具。这可能是一个图形用户界面(GUI)工具、命令行工具、Web应用程序或其他形式的应用程序。客户端负责发起数据库请…

spring 之 事务

1、JdbcTemplate Spring 框架对 JDBC 进行封装&#xff0c;使用 JdbcTemplate 方便实现对数据库操作 1.1 准备工作 ①搭建子模块 搭建子模块&#xff1a;spring-jdbc-tx ②加入依赖 <dependencies><!--spring jdbc Spring 持久化层支持jar包--><dependency&…