Elasticsearch:无需搜索 “Christmas” 即可找到有关圣诞节的书籍

随着假期的临近,我期待着变得舒适,拿起一本新书,享受轻松的时光。

但是使用搜索栏在线发现图书并不像看起来那么容易......大多数零售搜索引擎仅依赖于关键字搜索,当我们确切地知道我们正在寻找什么书名时,这很好,但当我们确切地知道我们正在寻找什么标题时,它就变得更具挑战性。 我们对主题只有一个模糊的概念。

因此,在这篇简短的文章中,我决定探索如何利用 Elasticsearch 对语义搜索的支持来帮助那些想要查找有关圣诞节的书籍的人……而无需使用 “圣诞节 (Christmas)”一词。

对于我们的示例,我们将使用包含书籍摘要的数据集。 接下来,您需要启动一个 Elasticsearch 集群并运行已下载的 ELSER 模型 2、

首先,我们配置一个摄取管道来为每本书概要生成稀疏向量。在本次展示中,我将采用最新的 Elastic Stack 8.11 来进行展示。

安装

 安装 Elasticsearch 及 Kibana

如果你还没有安装好自己的 Elasticsearch 及 Kibana,那么请参考一下的文章来进行安装:

  • 如何在 Linux,MacOS 及 Windows 上进行安装 Elasticsearch

  • Kibana:如何在 Linux,MacOS 及 Windows 上安装 Elastic 栈中的 Kibana

在安装的时候,请选择 Elastic Stack 8.x 进行安装。在安装的时候,我们可以看到如下的安装信息:

为了能够上传向量模型,我们必须订阅白金版或试用。

安装 ELSER 模型

如果你还没有安装好 ELSER 模型,请参考文章 “Elasticsearch:部署 ELSER - Elastic Learned Sparse EncoderR” 来进行安装。在这里就不再累述了。请注意安装好的 ELSER 模型的 ID 为 .elser_model_2 而不是之前那篇文章中的 .elser_model_1。

下载数据集

我们在地址 https://raw.githubusercontent.com/elastic/elasticsearch-labs/main/datasets/book_summaries_1000_chunked.json 下载好数据集并保存于当前的项目目录下。

拷贝 Elasticsearch 证书

我们把 Elasticsearch 的证书拷贝到当前的目录下:

$ pwd
/Users/liuxg/python/elser
$ cp ~/elastic/elasticsearch-8.11.0/config/certs/http_ca.crt .
$ ls
Chatbot with LangChain conversational chain and OpenAI.ipynb
ElasticKnnSearch.ipynb
ElasticVectorSearch.ipynb
ElasticsearchStore.ipynb
Mental Health FAQ.ipynb
Multilingual semantic search.ipynb
NLP text search using hugging face transformer model.ipynb
Question Answering with Langchain and OpenAI.ipynb
RAG-langchain-elasticsearch.ipynb
Semantic search - ELSER.ipynb
Semantic search quick start.ipynb
a.ipynb
book_summaries_1000_chunked.json
books.json
data.json
http_ca.crt
lib
sample_data.json
vector_search_implementation_guide_api.ipynb
workplace-docs.json

如上所示,我们的 Elasticsearch 的证书是 http_ca.crt。我们的数据集是 book_summaries_1000_chunked.json。

创建环境变量

在运行之前,我们必须使用如下的命令来安装相应的 elasticsearch 包:


pip3 install elasticsearch==8.11

在启动 jupyter notebook 之前,我们必须运行如下的命令来创建所需要的环境变量:

export ES_USER="elastic"
export ES_PASSWORD="o6G_pvRL=8P*7on+o6XH"
export ES_ENDPOINT="localhost"

我们创建一个新的 find_books_about_christmas_without_searching_for_christmas.ipynb。

运行应用

创建客户端连接

elastic_user=os.getenv('ES_USER')
elastic_password=os.getenv('ES_PASSWORD')
elastic_endpoint=os.getenv("ES_ENDPOINT")url = f"https://{elastic_user}:{elastic_password}@{elastic_endpoint}:9200"
es = Elasticsearch(url, ca_certs = "./http_ca.crt", verify_certs = True)print(es.info())

如上所示,我们的 Elasticsearch 客户端连接是成功的。

创建 ingest pipeline

PIPELINE_ID="vectorize_books_elser"es.ingest.put_pipeline(id=PIPELINE_ID, processors=[{"foreach": {"field": "synopsis_passages","processor": {"inference": {"field_map": {"_ingest._value.text": "text_field"},"model_id": ".elser_model_2","target_field": "_ingest._value.vector","on_failure": [{"append": {"field": "_source._ingest.inference_errors","value": [{"message": "Processor 'inference' in pipeline 'ml-inference-title-vector' failed with message '{{ _ingest.on_failure_message }}'","pipeline": "ml-inference-title-vector","timestamp": "{{{ _ingest.timestamp }}}"}]}}]}}}
}])

如果大家对上面的 processor 的设计不是很清楚的话,可以详细阅读文章 “ELSER 模型 2”。

创建 mappings 及索引

mappings = {"properties": {"title": {"type": "text"},"published_date": {"type": "text"},"synopsis": {"type": "text"},"synopsis_passages": {"type": "nested","properties": {"vector": {"properties": {"is_truncated": {"type": "boolean"},"model_id": {"type": "text","fields": {"keyword": {"type": "keyword","ignore_above": 256}}},"predicted_value": {"type": "sparse_vector"}}}}}
}
}
# Create the index (deleting any previously existing index)
es.indices.delete(index="books", ignore_unavailable=True)
es.indices.create(index="books", mappings=mappings)

我们可以在 Kibana 中查看到最新的 books 索引:

加载文档到 Elasticsearch

现在我们可以使用 bulk API 来提取我们的文档。 请注意,我们传递了之前创建的管道名称,以使用我们的 ELSER ML 模型来丰富文档。

import jsonwith open('book_summaries_1000_chunked.json') as f:books = json.load(f)print("length of books: %d" %(len(books)))from elasticsearch.helpers import streaming_bulk
count = 0
def generate_actions(books):for book in books:doc = {}doc["_index"] = "books"doc["pipeline"] = "vectorize_books_elser"doc["_source"] = bookyield docfor ok, info in streaming_bulk(client=es, index="books", actions=generate_actions(books),max_retries=3, request_timeout=60*3, chunk_size=10):if not ok:print(f"Unable to index {info['index']['_id']}: {info['index']['error']}")

运行完上面的命令后,我们可以在 Kibana 中进行查看:

 我们共有 999 个文档。我们可以在 Kibana 中进行查看直到 999 个文档完全被写入:

查询文档

我们现在已经准备好进行有趣的部分:测试一些查询以查看我们得到的结果。 这里的一件很棒的事情是,Elasticsearch 支持使用相同索引的关键字搜索和语义搜索,只要数据已正确索引即可,这里就是这种情况。 我们已将概要索引为文本以及稀疏向量数组。

在这里,我们将尝试使用以下查询来查找有关圣诞节的书籍:

“Story with Santa Claus”
“Xmas stories”
“Gift receiving and festive season”

使用关键字搜索(BM25)进行搜索的查询如下:

POST books/_search
{"_source": ["title"], "query": {"match": {"synopsis": "Xmas stories"}}
}

使用语义搜索进行搜索的查询是这样的:

POST books/_search
{"_source": ["title"],"query": {"nested": {"path": "synopsis_passages","query": {"text_expansion": {"synopsis_passages.vector.predicted_value": {"model_id": ".elser_model_2","model_text": "Xmas stories"}}}}}
}

我不是英文的专家,也不是圣诞节书的爱好者。但是在搜索的有些词里,我们还是可以看到和圣诞或者 christian 有关的文字:

因为我们没有使用关键字 Christmas,所以在这种情况下语义搜索优于词汇搜索。

查看第一个查询的结果:“Story with Santa Claus”。 语义搜索看起来更相关。

我们可以做如下 keyword 查询:

我们做语义搜索:

对于其他两个测试查询,我们得到以下结果:

  • Xmas stories

    • Lexical search:

      1. Naked Lunch
      2. Lost Girls
      3. Gilgamesh the King
    • Semantic search:

      1. A Visit from St. Nicholas
      2. Light in August
      3. A Christmas Carol
  • Gift receiving and festive season

    • Lexical search:

      1. Smith of Wootton Major
      2. A Canticle for Leibowitz
      3. A Gift Upon the Shore
    • Semantic search:

      1. Smith of Wootton Major
      2. A Visit from St. Nicholas

我让你看看哪些书与圣诞节庆祝活动最相关。

最后我们完整的代码在地址:https://github.com/liu-xiao-guo/semantic_search_es/blob/main/%20find_books_about_christmas_without_searching_for_christmas.ipynb

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/579125.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Kotlin 类

1、声明 class 关键字声明类 类声明由类名、类头(指定其类型参数、主构造函数等)以及由花括号包围的类体构成;类头与类体都是可选的; 如果一个类没有类体,可以省略花括号 class Person { /*……*/ }// 没有声明任何…

分布式事务是什么

分布式事务是企业集成中的一个技术难点,也是每一个分布式系统架构中都会涉及到的一个东西,特别是在微服务架构中,几乎可以说是无法避免,本文就分布式事务来简单聊一下。 数据库事务 我们先从数据库事务说起。数据库事务可能大家…

【大数据存储与处理】开卷考试总复习笔记

实验部分 一、 HBase 的基本操作 1. HBase Shell入门 # 进入HBase Shell环境 hbase shell2. HBase创建数据库表 # 创建表命令 create user, info1, info2 # 查看所有表 list # 查看表结构 describe user3. HBase数据操作 数据插入 put user, 0001, info1:name, jack put us…

傻瓜式教学Docker 使用docker compose部署 php nginx mysql

首先你可以准备这个三个服务,也可以在docker compose 文件中 直接拉去指定镜像,这里演示的是镜像服务已经在本地安装好了,提供如下: PHP # 设置基础镜像 FROM php:8.2-fpm# install dependencies RUN apt-get update && apt-get install -y \vim \libzip-dev \libpng…

【Redis】Redis 的数据类型

有五种常用数据类型:String、Hash、Set、List、SortedSet。以及三种特殊的数据类型:Bitmap、HyperLogLog、Geospatial ,其中HyperLogLog、Bitmap的底层都是 String 数据类型,Geospatial 的底层是 Sorted Set 数据类型。 五种常用…

智慧医疗平台开发:在线问诊系统源码搭建详解

如今,在线问诊系统的出现为患者提供了更为灵活、便捷的医疗服务。我们在开发系统之前,应该先简单了解系统的功能以及相关的技术。 一、核心功能需求 -用户注册和登录:用户可以通过注册账户,或者使用第三方登录方式进入系统。 …

高速风筒4套硬件案子谁会成为王者----【其利天下技术】

关于高速风筒的硬件电路,从MCU的角度来说,严格意义上是可以区分为四种硬件电路的,当前市场上这四种硬件电路也是并行存在的。所以有朋友电话问我,我怎么看待这四种硬件方案的优劣势和未来的?今天特意根据个人视角&…

Hive01_安装部署

Hive的安装 上传安装包 解压 tar zxvf apache-hive-3.1.2-bin.tar.gz mv apache-hive-3.1.2-bin hive解决Hive与Hadoop之间guava版本差异 cd /export/software/hive/ rm -rf lib/guava-19.0.jarcp cp /export/software/hadoop/hadoop-3.3.0/share/hadoop/common/lib/guava-27.0…

基层医疗卫生信息可视化:Flask、MySQL、Echarts的综合利用

基层医疗卫生信息可视化:Flask、MySQL、Echarts的综合利用 正文: 社区卫生健康数据可视化是提升医疗服务水平和促进健康管理的有效手段。本文将介绍一种基于Flask、MySQL和Echarts技术的社区卫生健康数据可视化系统,数据源来自市基层医疗卫生…

Apache RocketMQ,构建云原生统一消息引擎

本文整理于 2023 年云栖大会林清山带来的主题演讲《Apache RocketMQ 云原生统一消息引擎》 演讲嘉宾: 林清山(花名:隆基),Apache RocketMQ 联合创始人,阿里云资深技术专家,阿里云消息产品线负…

rocky linux9 安装go 即接下去

首先,更新系统的软件包索引以获取最新的软件包信息: sudo dnf update使用以下命令安装 Go 语言: sudo dnf install golang安装完成后,你可以通过以下命令验证 Go 语言是否安装成功: go version4、用相对路径初始化g…

适配器模式(Adapter)

适配器模式(Adapter Pattern)是一种结构型设计模式,它允许不兼容的接口之间的协作。该模式涉及一个适配器,用于在已存在的接口和需要使用的接口之间进行适配。在Java中,适配器模式主要有两种实现方式:类适配器和对象适配器。 类适配器模式 在类适配器模式中,适配器通过继…

智能优化算法应用:基于孔雀算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于孔雀算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于孔雀算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.孔雀算法4.实验参数设定5.算法结果6.参考文献7.MA…

Go语言学习一

Go语言的发展历史 Go语言的三个作者分别是:罗伯特格利茨默(Robert Griesemer)、罗伯派克 (Rob Pike) 和 肯汤普森(Ken Thompson)。 Robert Griesemer是Google V8、Chubby和HotSpot JVM的主要贡献…

Crowd Counting近期研究(附代码资源)

1.Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes paper:https://arxiv.org/abs/2310.10352 code:https://github.com/cha15yq/MRC-Crowd 摘要: 为了减轻训练可靠的人群计数模型所需的繁重标注…

二分查找——OJ题(二)

📘北尘_:个人主页 🌎个人专栏:《Linux操作系统》《经典算法试题 》《C》 《数据结构与算法》 ☀️走在路上,不忘来时的初心 文章目录 一、点名1、题目讲解2、算法原理3、代码实现 二、搜索旋转排序数组中的最⼩值1、题目讲解2、算…

免费部署静态网页,国内外访问套餐 GitHub Pages、Vercel、CLOUDFLARE

部署自己的博客或者前端静态页面,要嘛找一些免费托管平台,要嘛自己买服务器和域名。买了服务器,还得自己配置 nginx 和域名解析等。如果希望国内外都能访问,服务器最好是香港的,域名也可以不用备案。如果只是博客&…

rime中州韵 程序配置结构讲解 保姆级教程

在完成了 Rime 引擎/框架的安装,并安装了基础输入方案后,我们就可以在这个基础上开始 DIY 了。毕竟,Rime 最大的优势就是可定制性强。 但是,在我们 DIY 前,我们需要先做些准备工作。磨刀不误砍柴工,我们需…

Javaweb见解

1 web相关的概念 1.1 软件的基本架构 C/S(Client-Server)。比如我们手机上的app QQ软件 飞秋 特点:必须下载特定的客户端程序。服务端升级之后,客户端也需要随着升级。 B/S(Broswer-Server).比如京东网站,腾讯qq官方网站 特点&#xff1…

一文搞清楚Java BytesToAscii和AsciiToBytes

文章目录 BytesToAsciiAsciiToBytes10进制和16进制byte对比 bytes2HexString和hexStringToBytes测试 BytesToAscii Testpublic void convertBytesToAscii() {byte[] bytes new byte[] { 0x31, 0x32, 0x33, 0x34, 0x35 };String asciiString new String(bytes);System.out.pri…