表格存储 SQL 查询多元索引

简介: 多元索引是表格存储产品中一个重要的功能,多元索引使用倒排索引技术为表格存储提供了非主键列上的快速检索功能,另外也提供了统计聚合功能。表格存储近期开放了SQL查询功能,SQL引擎默认从原始表格中读取数据,非主键列上的查询需要扫描全表。

image.png

作者 | 政豪
来源 | 阿里技术公众号

多元索引是表格存储产品中一个重要的功能,多元索引使用倒排索引技术为表格存储提供了非主键列上的快速检索功能,另外也提供了统计聚合功能。表格存储近期开放了SQL查询功能,SQL引擎默认从原始表格中读取数据,非主键列上的查询需要扫描全表。开启了多元索引之后,如果一个查询的过滤条件或者统计聚合可以下推至多元索引执行,那么SQL引擎将部分查询计划转换为多元索引请求,将从多元索引中获取数据,提高查询效率。

一 多元索引SQL算子支持

1 前提条件

在使用SQL查询多元索引之前,首先需要在表格上创建多元索引。如果多元索引包含SQL语句中涉及的数据列,则SQL引擎会通过多元索引读取数据并下推多元索引支持的算子。例如有一张表exampletable有a, b, c, d四列,多元索引中包含了b, c, d三列,只有当SQL语句中只涉及b, c, d中的数据列时,才会从多元索引读取数据。

SELECT a, b, c, d FROM exampletable; /* 多元索引不包含a,b,c,d,扫描全表读取数据,不支持算子下推 */
SELECT b, c, d FROM exampletable;    /* 多元索引包含b,c,d,通过多元索引读取数据,支持算子下推 */

2 支持下推的算子

image.png

二 多元索引SQL查询实战

为了直观地展示SQL查询多元索引功能,下文将以某自行车租赁商的订单表为例,使用多元索引上的SQL功能完成一些简单的查询分析任务。某自行车租赁商的订单表如下:

image.png

整张表格名为trips,每一笔租车订单都有唯一的订单号作为主键,订单中记录了租车时长、开始日期、结束日期、开始站点、结束站点等信息。表格中包含120万行数据,在没有开启多元索引的情况下对表格行数进行统计,查询会因为超出扫描配额限制而终止。

image.png

同样地,如果以非主键列作为查询条件进行查询,也会因为涉及全表扫描超过扫描配额而被终止。

image.png

为了能够根据非主键列的值进行查询以及统计聚合,需要创建覆盖全部数据列的多元索引。对于数据量比较大的表格,需要较长的时间等待多元索引同步完成。

image.png

1 过滤条件下推

在开启多元索引之后,即可在非主键列上进行条件查询。例如,下图查询起点编号31208到起点编号31209的租车订单,借助多元索引,SQL引擎能够在500毫秒之内查询到全表中满足条件的140行记录。

image.png

多元索引支持多个条件的组合,例如查询2010年10月1日当天,站点31208的订单。由于外国10月1日不放假,那天的订单数量并不是很多。

image.png

2 统计聚合下推

除了非主键列查询,多元索引还提供了强大的统计聚合能力。在未创建多元索引的时候无法统计行数,但是有了多元索引,能在500毫秒左右查询到行数、站点数、平均租车时长等信息。

image.png

同样地,分组统计聚合也可以快速获取结果,例如列出每个站点总订单数目。

image.png

过滤条件和统计聚合可以一起使用,例如查询2010年10月1日当天每个站点订单数目。

image.png

3 TopN下推

SQL中包含ORDER BY和LIMIT的语句成为TopN查询,多元索引支持快速查询TopN,图中的查询展示了最近的10条数据。

image.png

原文链接
本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/512435.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

好难啊……一个 try-catch 问出这么多花样

作者 | 阿Q来源 | 阿Q说代码刚刚面试回来的B哥又在吐槽了:现在的面试官太难伺候了,放着好好的堆、栈、方法区不问,上来就让我从字节码角度给他分析一下try-catch-finally(以下简称TCF)的执行效率.....今天我们就来好好…

数据是如何被保护的?高质量存储告诉你

简介: 作为关键信息基础设施运营者,阿里云提供了全方位的数据安全保护方案。今天,我们就从数据存储的角度来聊一聊数据是如何被保护的。 原文链接 本文为阿里云原创内容,未经允许不得转载。

Nacos 开源、自研、商业化三位一体战略解读

简介: Nacos作为整个阿里云原生三位战略中的核心组成部分,我们在2018年以Configserver/VIPServer/Diamond为基础通过Nacos开源输出阿里十年沉淀的注册中心和配置中心能力,并且快速成为国内首选。并且通过云产品MSE以BaaS模式输出解决方案能力…

Haystack 太强了!存 2600 亿图片

作者 | 奇伢来源 | 奇伢云存储小文件存储小文件存储,老生常谈的问题。先聊聊小文件存储重点关注的是什么?以前我们提过,对于磁盘来说,小 io 吃 iops,大块 io 吃吞吐。划重点:小文件的重点是 io 次数。为什么…

全国计算机网络教学研讨会,历届全国高校计算机网络教学研讨会

1. 第六届全国高校计算机网络教学研讨会在内蒙古大学成功召开2. 第五届全国高校计算机网络教学研讨会在温州大学成功召开 2012年10月26日-27日,第五届全国高校计算机网络教学研讨会在温州大学召开。会议由中国计算机学会互联网专业委员会和中国计算机学会…

Dubbo 和 HSF 在阿里巴巴的实践:携手走向下一代云原生微服务

简介: HSF 和 Dubbo 的融合是大势所趋。为了能更好的服务内外用户,也为了两个框架更好发展,Dubbo 3.0 和以 Dubbo 3.0 为内核适配集团内基础架构生态的 HSF 3 应运而生。 作者 | 郭浩 Dubbo 和 HSF 都是阿里巴巴目前在使用的微服务 RPC 框架…

apache过滤恶意频繁访问_采用网关过滤器实现权限验证及对异常统一处理

采用网关过滤器实现权限验证1、创建 zuul 项目2、修改 pom.xml 文件<project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0 http://mav…

如何攻破容器持久化存储挑战?

背景 云原生趋势下&#xff0c;应用容器化比例正在快速增长&#xff0c;Kubernetes 也已成为云原生时代新的基础设施。 观察今天的容器和 Kubernetes 的应用现状&#xff0c;可以看到两个普遍的现象&#xff1a; 首先&#xff0c;在云上托管 Kubernetes 已经成为企业上云及运…

用科技共创美好:英特尔助力北京冬奥会新体验

2022年1月24日&#xff0c;北京2022年冬奥会在即&#xff0c;北京冬奥会的气氛愈发浓烈。作为奥运会全球TOP合作伙伴&#xff0c;英特尔以基于英特尔处理器的创新技术支持奥运会&#xff0c;释放科技冬奥的魅力。今天&#xff0c;英特尔在位于前门建成的全新升级的“英特尔北京…

职称计算机Word2003是考什么,2017年职称计算机考试word2003考点

2017年职称计算机考试word2003考点计算机在我们的工作中太重要了&#xff0c;很多工作岗位对计算机都有一定的要求。以下是小编整理的2017年职称计算机考试word2003考点&#xff0c;希望可以为您的学习带来帮助!内置段落样式1、套用段落样式&#xff1a;选中要套用样式的一个或…

李飞飞:新技术变革时代的数据库产业

简介&#xff1a; 云计算将改变数据库格局 近日&#xff0c;阿里云智能数据库事业部负责人李飞飞在媒体沟通会上发表了“新技术变革时代的数据库产业”主题演讲。 李飞飞说&#xff0c;云数据库已经成为数据库最重要的发展方向&#xff0c;从国际国内数据库产业的发展来看&am…

iostat命令详解_对iostat输出结果的理解

前言&#xff1a;日常工作中&#xff0c;线上服务会出现各种奇奇怪怪的问题&#xff0c;每次出现问题都是根据现象猜测出现问题的原因&#xff0c;比如请求响应慢了&#xff0c;就排查整个请求的逻辑&#xff0c;每一步花了多少时间&#xff0c;分析半天终于发现是某一步慢了以…

计算机windows10属性配置,电脑显示属性设置,教你win10系统电脑显示属性的设置教程...

今天小编教你win10系统电脑显示属性的设置教程&#xff0c;显卡作为计算机最为基本的配置和最重要的配件之一&#xff0c;承担着输出显示图形的任务。不知电脑显卡设置在哪里打开及如何设置的用户&#xff0c;请来看看下面的介绍吧。显卡是一台电脑的第二个核心&#xff0c;我们…

庖丁解牛-图解MySQL 8.0优化器查询解析篇

简介&#xff1a; SQL优化器本质上是一种高度抽象化的数据接口的实现&#xff0c;经过该设计&#xff0c;客户可以使用更通用且易于理解的SQL语言&#xff0c;对数据进行操作和处理&#xff0c;而不需要关注和抽象自己的数据接口&#xff0c;极大地解放了客户的应用程序。 作者…

三款典型国产分布式数据库的对比评测

简介&#xff1a; 编者按&#xff1a;近几年国产数据库市场风生水起&#xff0c;涌现了多款优秀的国产数据库产品&#xff0c;本文选取了三款典型的国产分布式数据库进行全方位对比压测&#xff0c;呈现了国产分布式数据库的发展现状。 对于所有的应用系统&#xff0c;数据都是…

bootstraptable中responsehandle获取数据缺失_Python中的向量化字符串操作

Python的一个使用优势是它在处理和操作字符串数据方面相对容易。在此基础上Pandas提供了一套全面的向量化字符串操作(vectorized string operation)&#xff0c;这些操作成为处理现实世界数据时所需的必不可少的功能。在本文中&#xff0c;我们将介绍一些Pandas的字符串操作&am…

15 载专注视频增强技术,小而美的 Imint 蕴藏大匠心

如今视频已深深融入我们的生活和工作中&#xff0c;据 CNNIC 数据显示&#xff0c;截止 2021 年 6 月&#xff0c;我国网民的规模达 10.11 亿&#xff0c;其中短视频用户规模 8.88 亿&#xff0c;占网民整体的 87.8%。 这表明我们正步入“视频社会化”时代&#xff0c;随着人们…

Serverless Devs 2.0 全新发布,让 Serverless 应用开发更简单

简介&#xff1a; 2020 年 10 月 23日&#xff0c;阿里巴巴正式宣布开源其首个 Serverless 开发者平台 Serverless Devs。历经近一年精心打磨&#xff0c;今天 Serverless Devs 2.0 正式版全新发布。Serverless Devs 2.0 在平台能力、应用模板以及开发者套件方面能力提升&#…

疫情防控“漫入调查系统”上线 SENSORO 助力提升筛查效率及精准度

连日来&#xff0c;国内多地报告新增病例&#xff0c;加上因春节临近导致的人员流动和聚集增加&#xff0c;基层防疫面临着比平时更大的挑战。为快速、高效地解决大规模漫入信息筛查任务&#xff0c;缓解一线疫情防控压力&#xff0c;SENSORO&#xff08;北京升哲科技有限公司&…

程序媛如何自我突破?

简介&#xff1a; 很多时候人们是被自己内心的偏见所打败的。作为一名程序媛&#xff0c;保持一种对世界、对人生的不同看法&#xff0c;可以帮助我们树立自己的参照系&#xff0c;不被外部轻易左右。或许我们无法像一些伟人那样打破、推动如此重大的社会认知&#xff0c;但是我…