Workplace Search 的演变:使用 Elasticsearch 搜索你的私人数据

作者:Dana Juratoni, Aditya Tripathi

Workplace Search 功能将来将与 Elastic Search 合并。 这是你需要了解的内容。

生成式人工智能技术的最新进展为搜索带来了一系列可能性。 随着开发人员构建新的体验,用户正在采用新的搜索使用方式 —— 从用自然语言编写的搜索查询到通过上传图像或语音样本进行搜索。 在 Elastic®,我们一直致力于确保 Elasticsearch® 拥有开发人员构建现代搜索所需的正确机器学习工具。

在我们继续这一旅程的过程中,我们希望分享有关工作场所(Workplace)搜索的一些进展:

  • Elasticsearch 是推荐的工具,用于为未来的内部知识搜索用例构建搜索体验。
  • 独立的 Workplace Search 产品将继续以其当前形式获得支持。 Elasticsearch 将添加新功能,Workplace Search 将获得安全升级和修复。

如果你正在使用独立的 Workplace Search 产品或有兴趣为工作场所搜索用例构建搜索体验,则此博客将为你提供重要信息。

历史背景

当 Swiftype 于 2017 年与 Elastic 联手时,独立的 Workplace Search 产品成为我们产品的一部分。从那时起,我们向 Workplace Search 的流行数据库、文件系统和其他工具添加了许多内容源。 虽然用户喜欢 Workplace Search 包含各种数据源的集成,但有明确的反馈表明,开发人员希望通过透明度和灵活性来调整搜索体验。 这些调优工具仅在直接使用 Elasticsearch 平台时才可用。

随着最近 ChatGPT 和生成式 AI 技术的流行,内部知识搜索用例(即能够搜索所有私人内容源 —— 数据库、知识库、文件系统、协作或票务工具)对我们的用户来说变得越来越重要。 毫无疑问,私人数据的搜索检索和 LLM 在一起效果更好。

Elasticsearch 连接器是未来

客户喜欢使用 Workplace Search 内容源

使用 Workplace Search 产品的客户喜欢通过内容源提取数据、在搜索体验中使用索引数据以及使用内置工具管理数据和搜索的简单性。 这些功能不会消失,而是会作为我们 Elastic Search 产品的一部分不断发展 —— 其中一些工作从早期的 8.x 版本开始。 内容源已被连接器 (connectors) 取代和提升为一种 Elastic 集成。 这些连接器直接写入搜索优化的 Elasticsearch 索引,而不是使用使用抽象隐藏索引 (以 . 为开始的系统索引)。 通过这样做,利用平台功能(例如与第三方 transformer 模型集成)来转换索引数据的能力变得直观且易于配置。 因此,设置搜索体验比以往更加灵活,并且 Elasticsearch 本机功能提供了多种数据和搜索管理方式。

Elastic 连接器的典型部署

内部知识搜索用例最常见的架构涉及通过原生连接器和/或自我管理连接器客户端将私有组织数据引入 Elastic。 然后,自我管理的搜索应用程序会公开最终授权用户通过搜索体验查看的数据。

两个选项:Elastic Cloud 上的原生连接器或自托管客户端

连接器可作为原生连接器直接在 Elastic Cloud 部署中使用,无需额外的基础设施。 如果你更喜欢自行托管原生连接器,则可以将它们用作连接器客户端,以便在你自己的基础设施上轻松部署和自我管理,无需进行开发。 为此,你可以选择从源运行连接器或通过 Docker 进行部署。 连接器客户端是开放代码的,可以进行定制以满足你的特定需求。 此外,你可以利用我们的连接器框架创建新的连接器客户端,与我们当前目录中可能未涵盖的数据源集成。

在我之前的文章中,有一个例子 “Enterprise:使用 MySQL connector 同步 MySQL 数据到 Elasticsearch”。

转换数据以支持你的搜索

同步内容被索引到常规搜索优化的 Elasticsearch 索引,这些索引可直接在你的搜索体验中使用。 默认情况下,连接器特定逻辑和捆绑的 ent-search-generic-ingestion 管道会按照部署中的配置提取和转换数据。 对于更高级的用例,可以使用以下工具过滤和转换数据:

  • 基本同步规则,对于所有连接器都是相同的
  • 用于数据源级别远程过滤的高级同步规则
  • 适用于连接器客户端的自我管理提取服务
  • 自定义管道过滤,然后通过摄取管道持久化到 Elasticsearch(请阅读搜索中的摄取管道以了解更多详细信息。)
  • 摄取管道特别强大,因为它们为 ML 模型(例如 ELSER)以及通过连接器索引的任何私有数据提供了极其易于访问的集成点。

使用 Elastic Search 构建体验

一旦你在 Elasticsearch 中拥有数据,你就可以使用 Search UI 和 SearchKit 等前端组件项目构建自己的自定义搜索体验。 我们的内部知识搜索示例应用程序向你展示了如何使用现有工具开始使用。

Javascript 客户端库使你能够轻松构建搜索或将搜索集成到你的 Web 应用程序中,或使用众多 Elasticsearch 客户端库之一。

我们正在快速添加功能以使搜索更加强大。 使用 Elasticsearch 构建你的内部搜索系统,你可以在这些功能发布后立即使用它们。

  • Elasticsearch 支持向量、语义、混合和生成式 AI 搜索用例。 查看我们的一些语义和向量搜索功能,包括强大的开箱即用的稀疏向量模型。 在 8.11 中,此模型已正式发布,只需单击几下即可将其应用于使用 Elastic 连接器或网络爬虫写入的数据。
  • 借助基于搜索模板的完全可定制的搜索应用程序 API,如果你的用例需要的话,这个新 API 可以抽象化 Elasticsearch Query DSL 的学习曲线。 你可以随时使用 Query DSL 深入了解详细信息。
  • 新的搜索管理工具可让你直接管理特定查询的结果,例如提升或隐藏结果,并以编程方式使用同义词管理 API。

Workplace Search 产品和 workplace search 用例

独立的 Workplace Search 产品将继续成为受支持的体验,因此虽然建议迁移到新功能,但这不是必需的。 任何希望提升内部知识搜索以包括语义搜索、向量搜索或基于聊天提示的体验的用户都将从过渡到使用 Elastic 连接器中受益。 在 Elastic Search 的支持下,企业中的工作场所搜索用例范围取得了许多引人注目的进步。 现在是考虑升级内部知识搜索的好时机,以使其为你的用户带来惊人的体验!

为你提供的资源

  • 用于为你的内部知识源构建搜索体验的示例应用程序
  • Elastic Search 和 Workplace Search 功能比较(请参阅我们文档中的表格)
  • 新的! 搜索实验室在 GitHub 上有代码 notebooks、工程博客和示例项目。
  • 你知道 Elasticsearch 是向量数据库超集吗?

本文中描述的任何特性或功能的发布和时间安排均由 Elastic 自行决定。 当前不可用的任何特性或功能可能无法按时交付或根本无法交付。

在这篇博文中,我们可能使用或引用了第三方生成人工智能工具,这些工具由其各自所有者拥有和运营。 Elastic 对第三方工具没有任何控制权,我们对其内容、操作或使用不承担任何责任,也不对你使用此类工具可能产生的任何损失或损害负责。 使用人工智能工具处理个人、敏感或机密信息时请务必谨慎。 你提交的任何数据都可能用于人工智能培训或其他目的。 无法保证你提供的信息将得到安全或保密。 在使用之前,你应该熟悉任何生成式人工智能工具的隐私惯例和使用条款。

Elastic、Elasticsearch、ESRE、Elasticsearch Relevance Engine 和相关标记是 Elasticsearch N.V. 在美国和其他国家/地区的商标、徽标或注册商标。 所有其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:https://github.com/elastic/elasticsearch-labs/tree/main/example-apps/internal-knowledge-search

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/150457.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CSS滚动捕获 scroll-snap-align

CSS滚动捕获 scroll-snap-align 看到 align, 就条件反射想到对齐方式, 嗯猜对了. 不过要先看一下若干名词介绍 scroll-snap-align 指定了盒子的 snap position, 即盒子 snap area 和滚动容器的 snapport 的对齐方式. 这个属性是定义在滚动元素上, 而不是滚动容器上 语法 这个…

Python与ArcGIS系列(八)通过python执行地理处理工具

目录 0 简述1 脚本执行地理处理工具2 在地理处理工具间建立联系0 简述 arcgis包含数百种可以通过python脚本执行的地理处理工具,这样就通过python可以处理复杂的工作和批处理。本篇将介绍如何利用arcpy实现执行地理处理工具以及在地理处理工具间建立联系。 1 脚本执行地理处理…

《Fine-Grained Image Analysis with Deep Learning: A Survey》阅读笔记

论文标题 《Fine-Grained Image Analysis with Deep Learning: A Survey》 作者 魏秀参,南京理工大学 初读 摘要 与上篇综述相同: 细粒度图像分析(FGIA)的任务是分析从属类别的视觉对象。 细粒度性质引起的类间小变化和类内…

python之代理ip的配置与调试

目录 前言 一、代理IP的配置 二、代理IP的调试 2.1 使用curl命令测试代理IP 2.2 使用requests库调试代理IP 三、代理IP的获取 3.1 使用代理IP池 3.2 使用付费代理IP服务 总结 前言 代理IP是网络爬虫中常用的技术手段。通过使用代理服务器,可以实现对特定网…

某60区块链安全之不安全的随机数实战一

区块链安全 文章目录 区块链安全不安全的随机数实战一实验目的实验环境实验工具实验原理实验内容攻击过程分析合约源代码漏洞EXP利用 不安全的随机数实战一 实验目的 学会使用python3的web3模块 学会以太坊不安全的随机数漏洞分析及利用 实验环境 Ubuntu18.04操作机 实验工…

【Flink】核心概念:并行度与算子链

并行度(Parallelism) 当要处理的数据量非常大时,我们可以把一个算子操作,“复制”多份到多个节点,数据来了之后就可以到其中任意一个执行。这样一来,一个算子任务就被拆分成了多个并行的“子任务”&#x…

爱上C语言:操作符详解(下)

🚀 作者:阿辉不一般 🚀 你说呢:生活本来沉闷,但跑起来就有风 🚀 专栏:爱上C语言 🚀作图工具:draw.io(免费开源的作图网站) 如果觉得文章对你有帮助的话,还请…

STM32/N32G455国民科技芯片驱动DS1302时钟---笔记

这次来分享一下DS1302时钟IC,之前听说过这个IC,但是一直没搞过,用了半天时间就明白了原理和驱动,说明还是很简单的。 注:首先来区分一下DS1302和RTC时钟有什么不同,为什么不直接用RTC呢? RTC不…

[Vue 代码模板] Vue3 中使用 Tailwind CSS + NutUI 实现侧边工具栏切换主题

文章归档:https://www.yuque.com/u27599042/coding_star/vzkgy6gvcnpl3u2y 效果示例 配置 src 目录别名 https://www.yuque.com/u27599042/coding_star/ogu2bhefy1fvahfv 配置 Tailwind CSS https://www.yuque.com/u27599042/coding_star/yqzi9olphko9ity1 配置…

CAPL编程 - 事件驱动

1 事件概述 CAPL是一种面向过程、由事件驱动的类C语言。 事件驱动针对于顺序执行,其区别如下: 顺序执行:顺序执行流程中,子例程或过程函数按照代码编写顺序逐句执行。 事件驱动:CAPL程序由事件驱动,工程…

11.15 监控目录文件变化

监视对指定目录的更改,并将有关更改的信息打印到控制台,该功能的实现不仅可以在内核层,在应用层同样可以。程序中使用ReadDirectoryChangesW函数来监视目录中的更改,并使用FILE_NOTIFY_INFORMATION结构来获取有关更改的信息。 Re…

Selenium中元素定位方法详细介绍

📢专注于分享软件测试干货内容,欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正!📢交流讨论:欢迎加入我们一起学习!📢资源分享:耗时200小时精选的「软件测试」资…

JavaScript实现飞机发射子弹详解(内含源码)

JavaScript实现飞机发射子弹 前言实现过程源码展示源码讲解HTML结构CSS结构js结构 前言 文本主要讲解如何利用JavaScript实现飞机发射子弹,实现过程以及源码讲解。实现效果图如下: 实现过程 首先,找到飞机和子弹的UI图,gif图最…

【Android】使用Retrofit2发送异步网络请求的简单案例

添加网络权限到AndroidManifest.xml清单文件 为了让你的Android应用程序能够使用互联网进行通信&#xff0c;你需要在AndroidManifest.xml文件中添加网络权限声明。<uses-permission android:name"android.permission.INTERNET"/> 这个权限应该添加到 Android…

python爬虫概述及简单实践:获取豆瓣电影排行榜

目录 前言 Python爬虫概述 简单实践 - 获取豆瓣电影排行榜 1. 分析目标网页 2. 获取页面内容 3. 解析页面 4. 数据存储 5. 使用代理IP 总结 前言 Python爬虫是指通过程序自动化地对互联网上的信息进行抓取和分析的一种技术。Python作为一门易于学习且强大的编程语言&…

LabVIEW关于USRPRIO的示例代码

LabVIEW关于USRPRIO的示例代码 USRPRIO 通常以两种方式使用&#xff1a; 1 基于 FPGA 的编程 对于希望修改USRP上的底层FPGA代码以添加自定义DSP模块的应用&#xff0c;请使用USRP示例项目。它可作为构建 USRP RIO 流式处理应用程序的起点&#xff0c;可从“创建项目”对话框…

项目资讯丨轻空间中标连云港市首座“多功能声学综合馆”(EPC)

近日&#xff0c;轻空间&#xff08;江苏&#xff09;膜科技有限公司&#xff08;以下简称“轻空间”&#xff09;成功中标连云港市首座“多功能声学综合馆”项目&#xff0c;这标志着轻空间在新型气膜领域的创新突破技术&#xff0c;再次获得政府机构的高度认可&#xff0c;为…

水声功率放大器在声呐系统中的应用有哪些

水声功率放大器在声呐系统中扮演着重要的角色&#xff0c;其应用涵盖了声呐系统的多个方面。下面就让安泰电子来介绍水声功率放大器在声呐系统中的应用。 发射声波信号&#xff1a;声呐系统通过发射声波信号并接收其回波来探测和测量海洋中的目标物体。水声功率放大器用于放大发…

划片机新手教程:从准备工作到注意事项全解析!

随着科技的飞速发展&#xff0c;划片机已成为半导体行业不可或缺的一部分。对于新手来说&#xff0c;如何正确操作划片机显得尤为重要。以下是新手操作划片机的步骤和建议。 一、准备工作 在开始操作划片机之前&#xff0c;首先需要准备好以下工具和材料&#xff1a; 1. 划片机…

CICD 持续集成与持续交付——gitlab

部署 虚拟机最小需求&#xff1a;4G内存 4核cpu 下载&#xff1a;https://mirrors.tuna.tsinghua.edu.cn/gitlab-ce/yum/el7/ 安装依赖性 [rootcicd1 ~]# yum install -y curl policycoreutils-python openssh-server perl[rootcicd1 ~]# yum install -y gitlab-ce-15.9.3-ce.0…