一文详解 | 开放搜索兼容Elasticsearch做召回引擎

简介:开放搜索发布开源兼容版,支持阿里云Elasticsearch做搜索召回引擎,本文详细介绍阿里云ES用户如何通过接入开放搜索兼容版丰富行业分词库,提升查询语义理解能力,无需开发、算法投入,即可获得淘系同款搜索效果。

开放搜索开源兼容版简介

很多客户在搭建搜索业务时更熟悉开源技术栈,会选择Elasticsearch/Solr等开源引擎负责搜索的召回环节,然而在召回引擎以外训练NLP、排序等算法能力,不仅耗时耗力,而且大部分处于高投入低回报的状态。

开放搜索开源兼容版的Elasticsearch引擎则是基于阿里巴巴在搜索领域的积累,开放搜索的Elasticsearch引擎实例作为一个阿里云Elasticsearch的插件,运行在用户的阿里云Elasticsearch集群中,提供阿里自研行业分词能力、Query分析理解能力,从而减少了用户对算法模块的投入,可以将更多精力投入到业务转化、产品功能等需求上。

业务流程图:

开放搜索兼容版优势

  • 基于阿里巴巴多年词库积累及达摩院NLP技术,丰富Elasticsearch开源引擎分词库,提升搜索效果;

在通用分词基础上还增加行业分词能力,可覆盖电商、IT内容、教育、游戏、互娱等行业。

  • 赋予Elasticsearch引擎Query理解能力,精准定位用户搜索意图

通过对Query进行一系列智能语义分析(拼写纠错、同义词改写、词权重、停用词、实体识别)理解用户搜索意图,改写用户搜索Query,使召回结果更符合需求;

  • 提供自定义分词查询分析干预词典的能力,在开放搜索控制台配置后会即使生效

用户可根据自身业务进行调整和优化,高效响应搜索需求,提升搜索效果和用户体验;

开源兼容版ES引擎实例创建及配置

一、创建Elasticsearch引擎实例

1.登录开放搜索控制台,并进入实例管理-Elasticsearch引擎页面,点击创建应用

2.页面会跳转至Elasticsearch搜索增强版售卖页,选择创建应用需要的商量类型地域,填写好应用名称,选择资源组,最后点击立即购买即可:

3.创建成功后,即可在实例管理-Elasticsearch引擎页面查看新创建的应用实例

二、配置Elasticsearch引擎实例

配置应用包含关联阿里云Elasticsearch实例安装插件、配置完成三步:

  1. 实例管理-Elasticsearch引擎页面,找到待配置状态的实例,点击配置,进入关联阿里云Elasticsearch应用页面:

  1. 安装插件:

  1. 点击“确定”,则开始安装自定义插件(会触发Elasticsearch集群重启):

  1. 配置成功,等待插件安装:

三、Elasticsearch引擎实例搜索测试

  1. 在阿里云Elasticsearch控制台实例详情页中确认开放搜索的“Elasticsearch搜索增强版自定义插件”是否已经安装

  1. 登录Elasticsearch可视化控制台通过Dev Tools工具测试已安装的插件:

了解更多详细配置内容,查看产品文档:开源兼容版实例 - 智能开放搜索 OpenSearch - 阿里云

客户案例

某新零售客户,打造1公里社区网店服务,为用户提供吃、喝、玩、乐一体化生活服务。

客户搜索业务痛点

  • 自建搜索效果差,搜不准、搜不到直接影响用户体验;
  • 缺乏行业分词库,自研难度大,开发周期长,难以响应业务需求;
  • 成熟的搜索引擎涉及离线模块、在线模块、查询理解服务、算法平台等系统组成,所需大量开发、算法调优以及持续的复杂运维工作,自建成本高

开源兼容版解决方案

  1. 调用开放搜索电商行业分词库

集成淘宝搜索同款电商分词器,训练语料来自淘宝搜索多年积累的百万级有标注的电商行业数据,可准确识别商品品牌、品类、产品特性等电商属性query;

  1. 调用电商查询语义理解功能
  • 电商拼写纠错

用户输入的query并不总是正确的,错误的输入可能导致查询结果不符合预期或者是无结果,因此需要对用户的输入进行拼写检查。OpenSearch的查询分析中提供的拼写检查功能,对查询词中的错误进行纠正,给出正确的查询词。并根据纠错的可信度高低,决定当前查询是否用纠错后的词进行查询。

  • 电商同义词

同义词功能主要是对查询词进行同义扩展,扩大召回和查询词同义的文档。

  • 电商实体识别

全称命名实体识别(Named Entity Recognition,简称NER),指对查询词中的具有特定意义的语义实体进行识别。查询分析根据识别的结果,依据实体类型的权重对查询词进行改写,使得召回的文档符合查询的意图。

效果反馈

无需额外投入人力资源,在不改变现有ES使用习惯情况下,从了解到测试到接入上线短短15天就获得高质量搜索效果,企业有更多资源精力投入到产品功能和业务提升中去。

  1. 商品搜索无结果率30%降至5%以下,指标还在持续优化中;
  2. 搜索引导的业务转化率增长7%;
  3. 商家店铺搜索CTR提升5%,将直接影响拉动商家入住和广告营收;

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

人人都是 Serverless 架构师 | 现代化 Web 应用开发实战

简介:本篇实战将介绍如何以超低成本构建动态的 Web 站点,并且实现灵活扩展,限流等效果,最后再跟大家聊一聊“现代应用”的相关概念。 相信很多同学都有过想要拥有自己的 Web 站点的想法,但是如果想要搭建动态的站点&a…

Gartner:如何在中国成功应用多云模式

作者 | Gartner研究总监 杜勇 供稿 | Gartner 当前,中国政府鼓励行业企业通过云计算技术来实施数字化转型,从而加速经济增长。许多企业机构已部署了私有云和单一供应商混合云,以实现这一目标。为了满足全球业务和本地业务需要分别部署在不同的…

java socket 线程池_程序员:java使用线程池和TCP实现简单多轮聊天系统

最近在做物联网项目,需要使用TCP和传感器进行双向交互,通过这种渠道,找到了下面的代码,写成博客主要也是为了记录一下,以后用到随时可以看。代码实现服务端package com.tcp;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStream;import java.…

阿里云李飞飞:中国数据库的时与势

简介:数据库、操作系统和中间件并列为三大基础软件,无论是在银行存取款,还是进行健康码查询,我们的日常应用和企业业务背后都离不开数据库。可以说,没有数据库,就难以构建数字化底座。过去的40多年&#xf…

阿里巴巴超大规模 Kubernetes 基础设施运维体系介绍

简介:ASI 作为阿里集团、阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛、透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让云产品只需…

数据库资深“学霸”再启程,专访数据库初创公司矩阵起源全球 CTO 田丰博士

师出名门,工业界履历从大厂首席工程师到创业公司 CTO,并能一直从事底层系统的核心研发工作,可能是很多优秀技术人向往的光鲜履历。不过抛弃大厂的光鲜稳定工作和成功的创业项目,再次加入初创公司,则需要比常人更大的魄…

Spring官方RSocket Broker 0.3.0发布: 快速构建你的RSocket架构

简介:Spring官方的RSocket Broker其实开发已经非常久了,我以为会伴随着Spring Cloud 2021.0发布的,但是没有发生。不过Spring RSocket Broker还是发布了最新的0.3版本,虽然还是预览版,但目前已经可用,考虑官…

Redis 6 中的多线程是如何实现的!?

作者 | 张彦飞allen来源 | 开发内功修炼Redis 是一个高性能服务端的典范。它通过多路复用 epoll 来管理海量的用户连接,只使用一个线程来通过事件循环来处理所有用户请求,就可以达到每秒数万 QPS 的处理能力。下图是单线程版本 Redis 工作的核心原理图单…

如何构建流量无损的在线应用架构 | 专题开篇

简介:本篇是整个《如何构建流量无损的在线应用架构》系列的第一篇,这一系列共三篇,旨在使用最为朴素的语言将影响在线应用流量稳定性的技术问题做一个归类,这些问题的解决方案有的只是一些代码层面的细节,有的需要工具…

云原生时代的运维体系进化

简介:基于容器、Kubernetes 等云原生技术,提供的开放社区标准、不可变基础设施、声明式 API 会成为企业 CloudOps 的最佳实践,也将在这个基础上推进数据化、智能化体系建设,将运维复杂性进一步下沉,让企业可以聚焦于自…

企业如何从 0 到 1 构建整套全链路追踪体系

简介:本文将分享 ARMS 在全链路追踪领域的最佳实践,分享主要分为四部分。首先,是对分布式链路追踪的整体简介。其次,是对 ARMS 在分布式链路追踪领域的核心能力进行介绍。然后,介绍如何从 0 到 1 构建整套全链路追踪体…

React18 的 useEffect 新特性为什么被疯狂吐槽?

作者 | 零一来源 | 前端印象react18 已经出来一段时间了,create-react-app 默认安装的 React 版本也已经是 18,不知道有没有小伙伴发现自己有点看不懂 React 了?import { useEffect, useState } from reactfunction App () {const [data, set…

如何构建一个流量无损的在线应用架构 | 专题中篇

简介:本篇是整个《如何流量无损的在线应用架构》系列的第二篇,这一系列共三篇,旨在使用最为朴素的语言将影响在线应用流量稳定性的技术问题做一个归类,这些问题的解决方案有的只是一些代码层面的细节,有的需要工具进行…

一文读懂蓝绿发布、A/B 测试和金丝雀发布的优缺点

简介:目前,业界已经总结出了几种常见的服务发布策略来解决版本升级过程中带来的流量有损问题。本文首先会对这些普遍的发布策略进行简单的原理解析,最后结合阿里云的云原生网关对这些发布策略进行实践。 作者 | 扬少 背景 目前&#xff0c…

Kafka 到底有多高可靠?

作者 | 敖丙来源 | 敖丙什么叫可靠性?大家都知道,系统架构有三高:「高性能、高并发和高可用」,三者的重要性不言而喻。对于任意系统,想要同时满足三高都是一件非常困难的事情,大型业务系统或者传统中间件都…

阿里云张振尧:阿里云边缘云驱动5G时代行业新价值

简介:近日,以“5G融合通信趋势下的技术创新”为主题的2021中国增值电信及虚拟运营高峰论坛在北京召开,阿里云边缘云高级产品专家张振尧发表了《阿里云边缘云驱动5G时代行业新价值》主题演讲,分享了阿里云边缘云作为5G时代的新基础…

美的工业技术亮相2022汉诺威工业博览会,助力全球工业向数字化与可持续迈进

2022年5月31日,2022汉诺威工业博览会开幕并重启线下展览,美的工业技术以“科技驱动,拥抱高效、绿色、智能的工业未来”为主题,携旗下工业自动化品牌“高创”、 “合康新能”和“东菱”,以覆盖自动化、绿色能源领域的领…

hyengine - 面向移动端的高性能通用编译/解释引擎

简介:手机淘宝客户端在历史上接过多种多样的脚本引擎,用于支持的语言包括:js/python/wasm/lua,其中js引擎接过的就有:javascriptcore/duktape/v8/quickjs 等多个。众多的引擎会面临共同面临包大小及性能相关的问题&…

如何进行基于Anolis OS的企业级Java应用规模化实践?|龙蜥技术

简介:提供了724小时的专属钉钉或者电话支持,响应时间保证到在业务不可用情况下10分钟响应,业务一般的问题在一小时可以获得响应,主要城市可以两小时内得到到达现场的服务。 本文作者郁磊,是Java语言与虚拟机SIG负责人…

大数据的下一站 DataOps,智领云发布纯 K8s 云原生数据平台 BDOS Online

最近几年,业界对数据中台的追捧度像坐过山车从高点走低,但在数字化和业务创新驱动下,对数据管理与分析的热度在今年不降反升。 以往搭建一套 Hadoop 大数据平台,技术团队重点要搞定数据的采集、存储、处理和数仓的设计搭建等复杂动…