随着全球卫星导航定位系统、传感网、移动互联网、IoT等技术的快速发展,越来越多的终端设备连接至网络,由此产生了大规模的时空位置信息,如车辆轨迹、个人轨迹、群体活动、可穿戴设备时空位置等。这些数据具有动态变化(数据写入频繁)、时空多维、规模巨大、价值随时间推移而衰减、空间搜索和时序查询相结合等特征,这对传统数据库带来了新的挑战。
2018年12月13日,伴随阿里云HBase全新发布X-Pack全托管NoSQL数据库平台,HBase Ganos时空数据库引擎正式上线。Ganos取名于大地女神盖亚(Gaea)和时间之神柯罗诺斯(Chronos),代表着“时空” 结合。HBase Ganos以阿里云飞天操作系统为强大底座,结合云HBase新一代KV、时序、时空、图多模数据综合处理能力以及云上Spark大数据分析计算服务,为迎接在线时空全量大数据应用构筑PaaS(Platform-as-a-Service)平台能力。
1、适用场景举例
互联网出行
互联网出行涉及到运力的调度、拼车、供需预测、热力图等业务。以供需预测为例,基于对历史轨迹数据的分析,并结合实时订单数据,预测当前订单密集区域的分布,提高接单概率并减少司机空驶时间。这背后涉及到大量时空型数据和业务信息的快速读取,并结合业务算法进行预测,利用HBase Ganos可有力支持该业务场景。
IoT
IoT行业产生的数据兼具时序和空间特征。以车联网为例,海量的车辆终端在不断地产生轨迹数据,轨迹数据包含了时间和空间位置。利用HBase Ganos,实时监测车辆的行驶轨迹、是否偏航、是否进入某个限制区域等。除了实时监控外,还可以进行实时时空查询,如查询某段时间的轨迹,某段时间进入该区域的车辆等。结合大数据分析框架(如Spark)还可以进行穿越分析、区域分布热力图等。
智慧物流与外卖递送
在物流与外卖等领域,需要实时监控车辆、骑手的位置,以便进行可靠的时间预测等服务。车辆和骑手的位置需要实时上报,云端需要处理高并发写入并进行实时路径规划、偏航监测等计算,背后都需要大量的时空计算。
传感网与实时GIS
在环保、气象、水利、航空监测等领域,需要通过各种传感器获取天、空、地、海不同地理现象、事件、要素的全生命周期多尺度监测指标,比如污染监测、水位监测、降雨量监测、航标监测等。HBase Ganos可以为构建实时GIS大数据应用提供稳定、可靠、弹性、免运维的PaaS服务,为地理国情常态化监测和智慧城市建设提供基础平台。
2、HBase Ganos主要功能与特性
PB级时空数据存储与高并发写入
基于阿里云HBase存储计算分离和完全分布式系统架构, Ganos引擎可支撑TB-PB级时空数据的存储与管理需求,且存储节点可弹性扩展。针对GNSS、传感网、移动APP等千万甚至上亿终端的数据采集,HBase Ganos在提供高效时空索引的同时,结合HBase LSM模型,可满足高并发数据写入需求,其中一个最小的HBase Ganos集群节点写入速度可达到数十万QPS,数据规模可达千亿记录级别。
遵循OpenGIS标准规范,支持多种空间数据类型与访问接口
引擎遵循OpenGIS标准规范,支持完备的时空点、线、面等常用数据结构,这些数据结构可对应于现实中的POI兴趣点、道路与车辆轨迹、地理围栏等。常见的地理围栏判断、轨迹数据查询与计算、空间搜索等均可完美支持。接口层面上,提供了多种访问方式,包括基于GeoTools API的访问、支持GeoJson作为时空数据结构的REST API、以及即将推出的GeoSQL支持,可最大程度兼容不同用户需求。
高效的时空索引与算法分析包
引擎以Z-Order、Hilbert等空间填充曲线为基础,支持二维和三维时空索引,百亿量级的时空条件查询可到秒级,完全能够满足海量时空数据的在线处理业务需求。此外,针对常用的时空分析场景,引擎在HBase中内嵌了轨迹抽稀、轨迹相似度计算、密度图等分析算法包,可充分利用HBase协处理器等技术带来的并行优势,加快查询性能、减轻业务层代码量。
结合流式计算引擎支撑实时大数据处理
为了满足对实时数据分析计算需求,HBase Ganos流数据处理框架基于Lambda架构设计开发,融合了不可变性、复杂性隔离和读写分离等一系原则,具备低延时、高容错、易于扩展等特性。数据接入层面,支持Kafka等消息中间件的实时接入,将基于事件的数据流直接转换到内部数据源。数据分析层面,与Spark Streaming或Flink流数据引擎无缝集成,具备了实时地在任意大数据集上进行数据流查询分析的能力,帮助用户随时随地快速准确地应对复杂的实时数据处理场景。
3、云上大规模时空数据处理的优势
K-V、时序、时空、图多模型(Multi-Model)助力综合业务场景建模
对于互联网和政企客户而言,时空场景虽然是一种重要业务类型,但要支撑好复杂业务系统开发,更多时候需要具备多模型支撑能力。针对这类业务系统,阿里云HBase X-Pack提供了强大的多模式处理能力,不仅支持时空,还支持K-V、时序和图模型等,每一类模型都内置有丰富数据处理能力。Ganos作为其中的时空数据引擎,能够与其他引擎结合,做到开箱即用,满足用户多维度的查询分析需求,让业务开发效率大幅提升。
冷热混合存储,助你不改代码,1/3成本轻松搞定冷数据处理
时空大数据应用场景下,存储成本占比往往是大头,把存储成本降下来,整体成本才能下降。针对时空数据的价值随时间而衰减的特性,提供了将访问量极少,访问延迟要求不高的历史数据按规则(比如一个月之前的数据)自动转储到阿里云OSS冷存储介质中,其存储成本可下降为高效云盘的1/3,写入性能与云盘相当,并能保证数据随时可读,从而降低存储成本,基本不用改代码就获得了低成本存储能力。
全托管,全面解放运维,为业务稳定保驾护航
大数据应用往往涉及组件多、系统庞杂、开源与自研混合,因此维护升级困难,稳定性风险极高。云HBase Ganos提供的全托管服务相比其他的半托管服务以及用户自建存在天然的优势。依托持续8年在内核和管控平台的研发,以及大量配套的监控工具、跨可用区、跨域容灾多活方案,Ganos的底层核心阿里云HBase提供目前业界最高的4个9的可用性(双集群),11个9的可靠性的高SLA的支持,满足众多政企客户对平台高可用、稳定性的诉求。
4、HBase Ganos实操使用途径
Ganos时空引擎包含SQL版和NoSQL版,此次发布的HBase Ganos为NoSQL版,主要服务于在线全量时空大数据应用。引擎包含在HBase 2.0版本中,用户在购买云上HBase数据库服务时,可以选择Ganos作为其时空引擎。Ganos引擎本身并不额外收费,这对于需要使用GIS或时空大数据功能的用户而言,将大幅降低应用和开发成本。Ganos将逐步沉淀基础时空云计算能力到云计算基础平台,赋能ISV厂商,推动时空云计算作为数字化转型的基础引擎普惠到更多客户。
原文链接
本文为云栖社区原创内容,未经允许不得转载。