TairSearch:加速多列索引查询

互联网及传统行业应用服务的关键数据一般存储在MySQL这类的关系型数据库中。如需缓解数据库访问压力,可引入Redis等缓存系统承担热数据的查询,以此提升查询效能。然而业务场景如果是在数据库上做随意多列组合索引查询或者like模糊匹配查询,使用普通的KV缓存系统并不能完全承载住,往往需要引入lua或者外部计算等额外的联合查询匹配过滤机制。TairSearch是一个实时全内存检索服务,其核心的倒排索引机制既能满足词根的模糊匹配查询,且可作为热数据存算一体加速任意多列组合索引的联合查询效率。本文将阐述TairSearch如何支持以上场景。

KV缓存在多列灵活查询场景的局限性

设计关系型数据库表时,除可设置主键索引,还可以设置多个二维索引,以及多种联合索引。
使用KV缓存服务时,以Redis为例,一般使用Hash结构映射关系型数据库字段。
将数据库表中的行记录导入到Redis的Hash结构中,以行中主键字段的值作为Redis hash的key,其他字段名作为hash的field,行字段的值作为hash的value。如果查询场景只涉及主键索引,在Redis中可以直接通过hmget的方式获取到行中指定字段的信息。但在以下场景中则有明显的局限性:

  1. 查询涉及二维索引,Redis中并不支持按hash中的field内容来查询,只能通过在Redis中再用Hash存储关系型数据库中的二维索引。不仅增加导入行数据的复杂程度,也因为冗余数据造成内存空间的膨胀。
  2. 查询涉及联合索引,Redis中并不支持对Hash类型的多key联合查询,用户侧只能在外部或者lua脚本中实现联合查询过滤规则,涉及到了数据的读取和挪动。

下文以支撑流量洪峰时期的机票搜索服务为例,讲述如何使用TairSearch加速任意多列组合索引的联合查询效率。

使用TairSearch加速多列组合索引的联合查询

以某机票搜索界面为模板,可以看到精准搜索机票涉及到几个关键条件:出发地、目的地、日期、经济/公务/头等舱、带儿童、带婴儿。查询结果带有多个航班信息。在暑期、国庆、春节等中长假期时间内,对热门旅游度假区的航班查询容易造成流量洪峰。

TairSearch如何支持这类的热门航旅查询需求?

TairSearch中存储所有待飞的航班信息,已航班的出发地departure 、 目的地destination 拼接作为keydeparture_destination 。因为航班中多个出发地_目的地在搜索航班中并无关联关系,所以key是相互独立的,可直接使用Tair分布式的集群架构存储,进一步提升并行查询能力。

出发地departure 、目的地destination 、日期date 、经济/公务/头等舱seat 、带儿童/带婴儿with 这几个字段建立索引。同时带有航班号flight_id 、价格price 、起飞时间departure_time 、降落destination_time 。如后期需要加字段,可直接使用tft.updateindex 毫秒级添加索引字段,业务无感知。

tft.createindex zhuhai_hangzhou '{"mappings":{"properties":{"departure":{"type":"keyword"},"destination":{"type":"keyword"},"date":{"type":"keyword"},"seat":{"type":"keyword"},"with":{"type":"keyword"},"flight_id":{"type":"keyword"},"price":{"type":"double"},"departure_time":{"type":"long"},"destination_time":{"type":"long"}}}
}'

将航班信息按照以上字段整理成文档写入到TairSearch中。

tft.adddoc zhuhai_hangzhou '{"departure":"zhuhai","destination":"hangzhou","date":"2022-09-01","seat":"first","with":"baby","flight_id":"CZ1000","price":986.1,"departure_time":1661991010,"destination_time":1661998210
}'

搜索头等舱的航班且按照航班的出发时间排序:

tft.search zhuhai_hangzhou '{"sort":["departure_time"],"query":{"bool":{"must":[{"term":{"date":"2022-09-01"}},{"term":{"seat":"first"}}]}}
}'

使用带use_cache的方式访问可以开启query cache的功能,query_cache的有效期是10s,可以对热点航班自带查询结果的热点缓存功能。
模拟随机写入10天内zhuhai_hangzhou有80个航班,且每个航班有6种配置的价格,压测查询的性能数据:

redis-benchmark -r 1 -n 500000 tft.search zhuhai_hangzhou '{"sort":["departure_time"], "query":{"bool":{"must":[{"term":{"date":"2022-09-01"}},{"term":{"seat":"first"}}]}}}'
100.00% <= 3 milliseconds
20592.23 requests per second

开启query_cache:

redis-benchmark -r 1 -n 500000 tft.search zhuhai_hangzhou '{"sort":["departure_time"], "query":{"bool":{"must":[{"term":{"date":"2022-09-01"}},{"term":{"seat":"first"}}]}}}' use_cache
100.00% <= 2 milliseconds
58920.57 requests per second

结语

TairSearch集缓存与计算于一体的全内存实时全文检索系统,可加速传统关系型数据多列组合查询效率。欢迎大家使用TairSearch产品,任何产品意见和更多的场景需求均可反馈给我们,TairSearch产品技术服务仍在持续迭代完善,期待您的参与。附TairSearch API文档

原文链接

本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/510531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何在 Anolis 8上部署 Nydus 镜像加速方案?

在上一篇文章中详细介绍Anolis OS 是首个原生支持镜像加速 Linux 内核&#xff0c;Nydus 镜像加速服务重新优化了现有的 OCIv1 容器镜像格式&#xff0c;重新定义镜像的文件系统&#xff0c;数据与元数据分离&#xff0c;实现按需加载&#xff0c;本文作为使用 Nydus 的教程将详…

机器学习访存密集计算编译优化框架AStitch,大幅提升任务执行效率

近日&#xff0c;关于机器学习访存密集计算编译优化框架的论文《AStitch: Enabling A New Multi-Dimensional Optimization Space for Memory-Intensive ML Training and Inference on Modern SIMT Architectures》被系统领域顶会ASPLOS 2022接收。 AStitch通过编译优化的手段来…

微前端架构的几种技术选型

背景 随着SPA大规模的应用&#xff0c;紧接着就带来一个新问题&#xff1a;一个规模化应用需要拆分。 一方面功能快速增加导致打包时间成比例上升&#xff0c;而紧急发布时要求是越短越好&#xff0c;这是矛盾的。另一方面当一个代码库集成了所有功能时&#xff0c;日常协作绝…

真正的 HTAP 对用户和开发者意味着什么?

数据库的全称是 DBMS&#xff08;Database Management System&#xff09;&#xff0c;早期是不区分 OLTP 与 OLAP 的&#xff0c;E.F.Codd 在 1970 年就提出了关系模型&#xff0c;Jim Gray 在 1976 年提出了事务模型。随着数据库的应用场景越来越丰富&#xff0c;单一数据库的…

const常见用法

const用法主要是防止定义的对象再次被修改,定义对象变量时要初始化变量 下面我就介绍一下几种常见的用法 1.用于定义常量变量,这样这个变量在后面就不可以再被修改 const int Val 10; //Val 20; //错误,不可被修改 2. 保护传参时参数不被修改,如果使用引用传递参数或按地址传…

微服务治理热门技术揭秘:无损上线

为什么有了无损下线&#xff0c;还需要无损上线&#xff1f;无损上线可以解决哪些问题&#xff1f; 本篇文章将一一回答这些问题。 无损上线功能不得不说是一个客户打磨出来的功能我们将从一次发布问题的排查与解决的过程说起。 背景 阿里云内部某应用中心服务在发布过程中出…

深度强化学习技术概述

深度强化学习介绍 强化学习主要用来学习一种最大化智能体与环境交互获得的长期奖惩值的策略&#xff0c;其常用来处理状态空间和动作空间小的任务&#xff0c;在如今大数据和深度学习快速发展的时代下&#xff0c;针对传统强化学习无法解决高维数据输入的问题&#xff0c;2013…

大屏小程序探索实践 | Cube 技术解读

所谓大屏小程序&#xff0c;是以 Cube 小程序技术栈 为载体&#xff0c;运行在智能电视或智能机顶盒等设备上的一种小程序形态。这些设备的主要特点是&#xff1a; 以 Android 系统为主&#xff0c;系统版本普遍较低&#xff0c;有些设备依然停留在 Android 4.2&#xff0c;An…

阿里云解决方案架构师张平:云原生数字化安全生产的体系建设

关于今天的分享主题——“安全生产”&#xff0c;内容主要分为三大部分&#xff1a; 第一部分是安全生产的背景&#xff0c;以及我们对于安全生产这个领域的理解&#xff1b;第二部分主要介绍阿里巴巴集团的安全生产工作到底是怎么开展的&#xff0c;借此给各位有作为参考和借…

从斜边之长为L的一切直角三角形中,求有最大周长的直角三角形.(多元函数的极值及其求法)

三条直线围成的直角三角形三个顶点A(16,0),B(0,8),C(0,0),设点(x,y)到AB,BC,AC的距离分别是d1,d2,d3,有: |AB|*d1|BC|*d2|AC|*d32S(ABC) 而(|AB|*d1|BC|*d2AC*d3)^24S^(ABC)/(|AB|^2|BC|^2|AC|^2)128/5 等号成立当且仅当|AB|/d1|BC|/d2|AC|/d3 就是40/|x2y-16|8/|x|16/|y| …

全链路灰度新功能:MSE上线配置标签推送

为什么需要配置标签推送 从全链路灰度谈起 在微服务场景中&#xff0c;应用的灰度发布迎来了新的挑战。不同于单体架构中将应用整体打包即可发布测试版本&#xff0c;微服务应用往往由多个服务组合而成。这些服务通常由不同的团队负责&#xff0c;独立进行开发。一个新功能通…

动态尺寸模型优化实践之 Shape Constraint IR Part I

在本系列分享中我们将介绍BladeDISC在动态shape语义下做性能优化的一些实践和思考。本次分享的是我们最近开展的有关shape constraint IR的工作&#xff0c;鉴于篇幅较长&#xff0c;为了提升阅读体验&#xff0c;我们将分享拆分为两个部分&#xff1a; Part I 中我们将介绍问…

云原生事件驱动引擎(RocketMQ-EventBridge)应用场景与技术解析

在刚刚过去的 RocketMQ Summit 2022 全球开发者峰会上&#xff0c;我们对外正式开源了我们的新产品 RocketMQ-Eventbridge 事件驱动引擎。 RocketMQ 给人最大的印象一直是一个消息引擎。那什么是事件驱动引擎&#xff1f;为什么我们这次要推出事件驱动引擎这个产品&#xff1f…

动态尺寸模型优化实践之 Shape Constraint IR Part II

在本系列分享中我们将介绍BladeDISC在动态shape语义下做性能优化的一些实践和思考。本次分享的是我们最近开展的有关shape constraint IR的工作&#xff0c;鉴于篇幅较长&#xff0c;为了提升阅读体验&#xff0c;我们将分享拆分为两个部分&#xff1a; Part I 中我们将介绍问…

PolarDB 助力易仓打造跨境行业生态链协同的产业链 SaaS

2022年7月&#xff0c;易仓ECCANG WMS东南亚版正式上线&#xff01;专为东南亚海外仓业务打造&#xff0c;帮助东南亚海外仓企业排忧解难&#xff0c;实现订单、仓库、人员、财务高效管理。易仓科技是头部的跨境行业SaaS服务商&#xff0c;其生态涵盖了300工厂、100000卖家、17…

iLogtail 社区版使用入门 - 采集 MySQL Binlog

iLogtail是阿里云日志服务&#xff08;SLS&#xff09;团队自研的可观测数据采集Agent&#xff0c;拥有的轻量级、高性能、自动化配置等诸多生产级别特性&#xff0c;可以署于物理机、虚拟机、Kubernetes等多种环境中来采集遥测数据。iLogtail在阿里云上服务了数万家客户主机和…

融合数据库生态:利用 EventBridge 构建 CDC 应用

引言 CDC&#xff08;Change Data Capture&#xff09;指的是监听上游数据变更&#xff0c;并将变更信息同步到下游业务以供进一步处理的一种应用场景。近年来事件驱动架构&#xff08;EDA&#xff09;热度逐步上升&#xff0c;日渐成为项目架构设计者的第一选择。EDA 天然契合…

Pandas+ SLS SQL:融合灵活性和高性能的数据透视

Pandas是什么 Pandas是一个十分强大的python数据分析工具&#xff0c;也是各种数据建模的标准工具。Pandas擅长处理数字型数据和时间序列数据。Pandas的第一大优势在于&#xff0c;封装了一些复杂的代码实现过程&#xff0c;只需要调用接口就行了&#xff0c;避免了编写大量的…

iLogtail 开源之路

2022年6月底&#xff0c;阿里云iLogtail代码完整开源&#xff0c;正式发布了完整功能的iLogtail社区版。iLogtail作为阿里云SLS官方标配的采集器&#xff0c;多年以来一直稳定服务阿里集团、蚂蚁集团以及众多公有云上的企业客户&#xff0c;目前已经有千万级的安装量&#xff0…

迁移 Nacos 和 ZooKeeper,有了新工具

背景 注册中心迁移在行业中主要有两个方案&#xff0c;一个是双注册双订阅模式&#xff08;类似数据库双写&#xff09;&#xff0c;一个是 Sync 模式&#xff08;类似于数据库 DTS&#xff09;&#xff1b;MSE 同时支持了两种模式&#xff0c;对于开通 MSE 服务治理客户&…