实时数仓Hologres V2.2发布,Serverless Computing降本20%

Highlight

  • 新发布Serverless Computing,提升大任务稳定性,同时可降低20%计算成本

  • 引擎性能优化,TPC-H 1TB测试相对V1.X 提升100%

  • 实时湖仓加速架构升级,支持Paimon,直读ORC、Parquet数据性能提升5倍以上

  • 新增实例监控指标,可观测性全面提升,新增SQL指纹、Query洞察、SQL 与表索引诊断等

  • 流量分析场景新增路径函数,支持跨可用区容灾、OpenAPI能力升级

升级说明:Hologres支持热升级,可以在实例后台进行自助升级与升级准备。升级流程请查看>>>

一、新发布Serverless Computing,提供大作业隔离与弹性处理

功能说明:通过共享Serverless资源执行DML任务,保证大任务隔离与高可用,降低成本并提升性能。同时支持设置单条SQL使用Serverless的资源上限,支持设置使用Serverless资源的SQL优先级。详细请查看>>>应用场景:

  • 隔离与稳定性。计算资源开销大的任务,不会有争抢资源,OOM等问题。

  • 成本降低。无需为大任务单独购买预付费资源,实际应用可降低20%计算成本。

当前发布地域和可用区:华东1(杭州)的可用区J、华南1(深圳)的可用区F、华东2(上海)的可用区E、华北2(北京)的可用区I。

二、多种引擎能力优化,TPC-H 性能测试结果提升 100%

Hologres V2.2 提升了查询优化器和查询引擎的能力,1.1 版本使用 96CU 在 TPC-H 1T 的总查询耗时为 223.08 秒,在V2.2版本中,测试结果为111.53 秒,性能提升达到100%。详细结果请查看>>>

引擎性能优化包含:向量执行引擎HQE能力提升

  • Runtime Filter能力增强,在Join场景上,支持多种过滤类型,无需手动设置,引擎自适应,在减少数据扫描量的同时也能减少join的计算量和数据的网络传输量,有效提升Join的查询效率约30%。

  • 优化HQE的RPC连边机制,每个Worker内数据先合并再进行Worker间分发,显著降低网络开销,在带有Shuffle的场景上,查询性能提升8%。

查询优化器性能提升,SQL在Plan阶段的处理速度提升40%

  • 优化内存分配机制和Join算法,提升多Join场景的查询性能。

  • 优化DATE_PART函数行为,提升对带有时间属性的字段(如年份)的查询效率。

  • 优化DATE和TIMESTAMP类型字段的比较行为,提升时间字段的查询效率。

  • 优化复杂函数中带有Filter的运算行为,通过调整多个Filter的顺序,减少数据计算量,提升查询效率。

三、实时湖仓架构升级,性能提升5倍,外表元数据自动加载提升分析体验

HologresV2.2版本针对实时湖仓架构进行重构,显著提升了数据湖的查询性能,并通过外表元数据自动加载(Auto Load) 提升实时湖仓的用户使用体验。实时湖仓架构升级包含:

  • 实现HQE引擎直读OSS上的ORC、Parquet数据,相较于原引擎有5倍以上的性能提升

  • 针对ORC、Parquet格式的外部表支持谓词下推过滤,减少数据扫描量,提升查询效率

  • 支持使用内置高速磁盘和内存实现多级缓存

外表元数据自动加载(Auto Load)能力增强:支持一键绑定外部数据源,实现DB或者schema级别的映射,简化和降低外表创建成本,包含:

  • 支持MaxCompute三层模型Project,可以将MaxCompute三层Project中的一个或多个指定schema 数据按需或者全量映射到Hologres

  • 支持MaxCompute外部表的Schema Evolution(如增加列、删除列、修改列名及列顺序)

  • 支持通过DLF元数据自动加载,来加速查询存储于OSS的数据

详情请查看>>>

四、实例诊断能力提升,新增SQL指纹、Query洞察、SQL 与表索引诊断等

新增SQL指纹,快速定位Bad QuerySQL指纹是Hologres提供的一种自动Query聚类分析能力。V2.2版本在存放慢Query查询日志的系统表中,新增digest列以展示SQL指纹。对于SELECT/INSERT/DELETE/UPDATE类型的Query,系统会计算一个MD5哈希值作为该Query的SQL指纹,帮助业务快速识别占用资源的Query以及异常Query等。详情请查看>>>新增Query洞察可视化,全方位获取查询诊断信息在holoweb-诊断与优化中,通过Query ID就能快速获取当前Query的执行信息,例如Query进程的资源消耗、Query所涉及的表的元数据,以及Query对应的执行计划(plan)。同时可以通过Query洞察快速判断当前Query是否产生了DDL冲突,以及表锁情况,辅助业务进一步排查问题和处理问题。详情请查看>>>

新增SQL诊断和表索引诊断,快速完成实例治理在holoweb-诊断与优化中,SQL诊断通过对不同维度的Query趋势、明细分析,可以辅助您了解实例的使用情况并做相应的优化,以达到更好的效果。详情请查看>>>

在holoweb-诊断与优化中,表索引诊断对当前实例的Table Group、表、索引等进行诊断,帮助业务进行实例治理,从而辅助提升实例的稳定性和性能。例如:

  • 一个Table Group的内表总数不建议超过1W张,优化后将提升DDL性能。

  • 对于分区子表超过1W张的分区表,建议使用冷热分层 ,以节约存储成本。

详情请查看>>>

实例监控信息新增15+Metrics,可观测性得到增强在实例列表-监控信息中,新增15+metric指标,提供不同执行引擎的QPS、RPS、Latencty等以及可观测Binlog、Serverless等功能的运行情况,以方便及时了解任务的负载。同时也提供Locks、Analyze等健康度指标,可以帮助业务快速观测实例运行健康状态,及时处理异常。

五、新增路径分析函数,更加丰富流量分析场景函数能力

在流量分析场景,需要计算访问每个流程/步骤的路径分布和情况,以及每个步骤的流入流出情况,原有SQL计算方式较为复杂,并且影响计算性能。Hologres通过一个路径分析函数即可实现路径分析,简化用户路径分析流程,与之前推出的漏斗函数、留存函数、明细圈人函数、Roaring Bitmap函数、BSI函数等结合,实现完整、丰富的流量数据分析方案。详情请查看>>>

六、支持跨可用区容灾,提升生产业务稳定性

跨可用区(AZ)容灾,即在同Region不同可用区部署同构的Hologres容灾实例,如果生产实例所处的地理位置发生自然灾害,或者实例内部出现了故障导致生产实例无法正常对外提供读写服务,那么容灾实例可以切换为生产实例,从而保障业务连续性。详情请查看>>>

例如:杭州Region某个可用区(例如可用区H)中的Hologres实例无法正常运行时,可通过已配置的容灾关系,将同Region其他可用区(例如可用区J)的Hologres实例切换为生产实例,保障业务正常运行。

七、OpenAPI能力升级,提升实例运维管理能力

新增计算组列表与详情、数据湖加速功能、更新实例资源组等OpenAPI,在severless、数据湖分析等场景下,提升实例运维以及管理能力。详情请查看>>>

15000CU时计算包原价5313元,限时新购仅需59元>>>icon-default.png?t=N7T8https://common-buy.aliyun.com/?commodityCode=hologram_cu_dp_cn&request=%7B%22ord_time%22%3A%221%3AYear%22%2C%22order_num%22%3A1%2C%22pack%22%3A%22hologram_cu_dp_cn_20230613172131_0972%22%2C%22ccu_capacity_unit%22%3A%2215000%22%7D前往实时数仓Hologres官网查看详情>>>icon-default.png?t=N7T8https://www.aliyun.com/product/bigdata/hologram实时数仓Hologres V2.1版本发布,新增计算组实例构建高可用实时数仓>>>icon-default.png?t=N7T8https://developer.aliyun.com/article/1418448

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/29002.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM中表格处理与多模态表格理解

文档处理中不可避免的遇到表格,关于表格的处理问题,整理如下,供各位参考。 问题描述 RAG中,对上传文档完成版式处理后进行切片,切片前如果识别文档元素是表格,那么则需要对表格进行处理。一般而言&#x…

JupyterLab使用指南(二):JupyterLab基础

第2章 JupyterLab基础 2.1 JupyterLab界面介绍 JupyterLab的用户界面非常直观和灵活。它包括文件浏览器、工作区、多标签页、命令面板和侧边栏等功能。以下是各个部分的详细介绍: 2.1.1 文件浏览器 文件浏览器位于界面左侧,用于导航和管理文件。你可…

白酒起源传说(三)——仪狄造酒说

在古代文献中,仪狄被记载为酿酒的始祖,这一创造更是与传说中的帝王夏禹相联系。据《吕氏春秋》记载:“仪狄作酒”。而在汉代刘向编纂的《战国策》中,也有着关于仪狄酿酒的故事。在这些古典文字里,仪狄被描述为一个致力…

计算机网络:网络层 - 虚拟专用网 VPN 网络地址转换 NAT

计算机网络:网络层 - 虚拟专用网 VPN & 网络地址转换 NAT 专用地址与全球地址虚拟专用网 VPN隧道技术 网络地址转换 NAT网络地址与端口号转换 NAPT 专用地址与全球地址 考虑到 IP 地址的紧缺,以及某些主机只需要和本机构内部的其他主机进行通信&…

【镜像制作】node.js+pm2的latest版镜像制作

文章目录 简介dockerfile代码 简介 本司的一些nodejs环境基本都运行在pm2的环境下,pm2是一个node环境下的多进程管理工具,通过pm2可以提升不少性能,管理起来也比较方便。在制作nodejspm2镜像时,建议指定版本进行安装,这…

cbsd创建ubuntu jail 时下载系统慢的问题解决

下载时速度慢 使用cbsd创建ubuntu jail的时候 cbsd jconstruct-tui 提示: no base dir in: /usr/jails/basejail/base_amd64_amd64_jammy Select base sources:0 .. CANCELa .. build b .. extract c .. pkg d .. repo 选了pkg没找到 fetch: https://pkg.convec…

【减法网络】Minusformer:通过逐步学习残差来改进时间序列预测

摘要 本文发现泛在时间序列(TS)预测模型容易出现严重的过拟合。为了解决这个问题,我们采用了一种去冗余的方法来逐步恢复TS的真实值。具体来说,我们引入了一种双流和减法机制,这是一种深度Boosting集成学习方法。通过将信息聚合机制从加法转…

Jenkins简要说明

Jenkins 是一个开源的持续集成和持续部署(CI/CD)工具,广泛用于自动化软件开发过程中的构建、测试和部署等任务。它是基于Java开发的,因此可以在任何支持Java的平台上运行,并且能够与各种操作系统、开发工具和插件无缝集…

【第16章】Vue实战篇之跨域解决

文章目录 前言一、浏览器跨域二、配置代理1.公共请求2.代理配置 总结 前言 前后端项目分离衍生出浏览器跨域问题,开发之前我们通过配置代理解决这个问题。 一、浏览器跨域 浏览器的跨域问题主要是由于浏览器的同源策略导致的。同源策略是浏览器的一个安全功能&…

OpenGL3.3_C++_Windows(11)

git submodule项目子模块 Git Submodule (子模块的代码并不直接存储在父仓库中,而是通过一个指针来维护)克隆含有子模块的仓库时,使用git管理Git Clone (复制一份完整的Git仓库到本地)若仓库包含子模块&am…

【设计模式-12】代理模式的代码实现及使用场景

 代理模式是一种应用很广发的结构性设计模式,它的设计初衷就是通过引入新的代理对象,在客户端和目标对象之间起到中介的作用,从而实现控制客户端对目标对象的访问,比如增强或者阉割某些能力。 1. 概述 代理模…

数据库-数据定义和操纵-DML语言的使用

为表的所有字段插入数据: INSERT INTO 表名 (字段名) VALUES (内容); 更新表中指定的内容: update语句三要素: 需要更新的表(table)名; 需要更新的字段(column)名和它的新内容(valu…

JavaScript 中的 AbortController

AbortController 接口是 JavaScript 中 Fetch API 的一部分,引入它是为了处理和控制中止 fetch 请求的信号。这在需要取消正在进行的网络请求时特别有用,例如用户发起的动作取消,通过避免不必要的请求来提高性能,或优雅地处理超时…

揭秘创业加盟:豫腾助力,发掘商机,共赢未来

在我们生活的这个充满活力与机遇的世界里,商业活动如繁星点点,照亮着每个人的创业梦想。 在这个过程中,创业加盟作为一种独特且吸引人的模式,逐渐受到广大创业者的关注。 本文将深入解析创业加盟的精髓,以及如何在其…

【gdb使用】

gdb使用简介 1 gdb安装与调试 1.1 gdb安装 sudo apt-get install gdb1.2 gdb 使用 1.2.1 运行代码 若要使用gdb调试代码,在代码编译时需要添加-g选项。 1)调试程序:gdb bin文件名 2)启动调试:run(r) ​ 如果调…

《优化接口设计的思路》系列:第1篇—什么是接口缓存

一、缓存的定义: 缓存是一种存储数据的技术,用于提高数据访问的速度和效率。缓存通常存储在内存中,因为内存访问速度远快于磁盘和网络。数据接口通常会使用缓存技术,以降低对后端数据存储和处理的压力,提高系统性能。…

⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 学堂在线 习题 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题 学堂在线 课程页面链接 中国大学MOOC 课程页面链接 B 站 视频链…

c++qt合并两张灰度图像

需求:将两张尺寸相同的灰度图像进行合并,合并后的图像,每个像素点灰度值为两张原图对应像素点灰度值之和。若超过255,则最大为255。 方法一: 将图像读取为cv::Mat,再调用opencv的cv::add方法,进…

【ai】初识pytorch

初识PyTorch 大神的例子运行: 【ai】openai-quickstart 配置pycharm工程 简单例子初识一下Pytorch 好像直接点击下载比较慢? 大神的代码 在这个例子中,首先定义一个线性模型,该模型有一个输入特征和一个输出特征。然后定义一个损失函数和一个优化器,接着生成一些简单的线性…

kotlin `FloatArray` 和 `Array<Float>`

FloatArray 原生数组类型:FloatArray 是 Kotlin 的一种原生数 组类型,专门用于存储浮点数。性能:由于是原生类型,FloatArray 在性能上更高效,因为它直接映射到 Java 的原生浮点数组 float[]。内存使用:Flo…