华为大数据平台-FusionInsight MRS

1、产品定位

(1) 关于华为的大数据平台,本人之前用过FusionInsight HD版本,近期也在用MRS结合MPP和治理平台做湖仓一体的开发,其实MRS是在HD基础上进行的升级、改版,MRS是集成一些开源的大数据组件,有自己的运维和安全管理系统Manager,中间也做了一些默认的集成,比如Hudi和Hive的同步数据等等。

(2) FusionInsight MRS是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力,可解决各大企业的以下需求:

• 快速地整合和管理不同类型的大容量数据
• 对原生形式的信息提供高级分析
• 可视化所有的可用数据,供特殊分析使用
• 为构建新的分析应用程序提供开发环境
• 工作负荷的优化和调度

在这里插入图片描述

2、技术特点

华为FusionInsight MRS发行版紧随开源社区的最新技术,快速集成最新组件,并在可靠性、安全性、管理性等方面做企业级的增强,持续改进,持续保持技术领先。

FusionInsight MRS的企业级增强主要表现在以下几个方面。

安全
•架构安全
FusionInsight MRS基于开源组件实现功能增强,保持100%的开放性,不使用私有架构和组件。

•认证安全
◾基于用户和角色的认证统一体系,遵从帐户/角色RBAC(Role-Based Access Control)模型,实现通过角色进行权限管理,对用户进行批量授权管理。

◾支持Hadoop Ranger鉴权框架,通过PBAC(Policy-based access control,基于策略的权限控制)方式进行权限管理,可对HDFS、Hive、HBase等组件进行细粒度的数据访问控制策略。

◾支持安全协议Kerberos,FusionInsight MRS使用LDAP作为帐户管理系统,并通过Kerberos对帐户信息进行安全认证。

◾提供单点登录,统一了Manager系统用户和组件用户的管理及认证。

◾对登录FusionInsight Manager的用户进行审计。

•文件系统层加密

Hive、HBase可以对表、字段加密,集群内部用户信息禁止明文存储。

◾加密灵活:加密算法插件化,可进行扩充,亦可自行开发。非敏感数据可不加密,不影响性能(加密约有5%性能开销)。

◾业务透明:上层业务只需指定敏感数据(Hive表级、HBase列族级加密),加解密过程业务完全不感知。

可靠

•所有管理节点组件均实现HA(High Availability)
业界第一个实现所有组件HA的产品,确保数据的可靠性、一致性。NameNode、Hive Server、HMaster、Resources Manager等管理节点均实现HA。

•集群异地灾备
业界第一个支持超过1000公里异地容灾的大数据平台,为日志详单类存储提供了迄今为止可靠性最佳实践。

•数据备份恢复
表级别全量备份、增量备份,数据恢复(对本地存储的业务数据进行完整性校验,在发现数据遭破坏或丢失时进行自恢复)。

•单集群跨AZ
提供单集群下跨AZ级别的数据容灾能力,保障数据可靠性。

易用

•统一运维管理
FusionInsight Manager作为FusionInsight MRS的运维管理系统,提供界面化的统一安装、告警、监控和集群管理。

•易集成
提供北向接口,实现与企业现有网管系统集成;当前支持Syslog接口,接口消息可通过配置适配现有系统;整个集群采用统一的集中管理,未来北向接口可根据需求灵活扩展。

•易开发
提供自动化的二次开发助手和开发样例,帮助软件开发人员快速上手。

3、软件组成

FusionInsight MRS系统逻辑架构图
在这里插入图片描述
FusionInsight MRS对开源组件进行封装和增强,包含Manager和众多组件,分别提供功能如下:

CDL

CDL是一种简单,高效,数据实时集成服务。

ClickHouse

用于联机分析(OLAP)的列式数据库管理系统(DBMS)。

DBService

一个具备高可靠性的传统关系型数据库,为Hive、Hue、Oozie、Loader、Metadata和Redis组件提供元数据存储服务。

Elasticsearch

兼有搜索引擎和NoSQL数据库功能的开源系统,基于JAVA/Lucene构建,开源、分布式、支持RESTful请求。

Flink

一个批处理和流处理结合的统一计算框架,提供数据分发以及并行化计算的流数据处理引擎。

Flume

一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。

FTP-Server

通过通用的FTP客户端、传输协议提供对HDFS文件系统进行基本的操作,例如:文件上传、文件下载、目录查看、目录创建、目录删除、文件权限修改等。

GraphBase

基于HBase和Elasticsearch的分布式图数据库,将数据构建成属性图模型进行存储,提供强大的图查询、分析、遍历能力。

HBase

提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统。

HDFS

Hadoop分布式文件系统(Hadoop Distributed File System),提供高吞吐量的数据访问,适合大规模数据集方面的应用。

HetuEngine

HetuEngine是华为自研高性能交互式SQL分析及数据虚拟化引擎。与大数据生态无缝融合,实现海量数据秒级交互式查询;支持跨源跨域统一访问,使能数据湖内、湖间、湖仓一站式SQL融合分析。

Hive

建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive Query Language语言操作结构化数据存储服务和基本的数据分析服务。

Hue

提供了FusionInsight MRS应用的图形化用户Web界面。Hue支持展示多种组件,目前支持HDFS、Hive、Yarn/Mapreduce、Oozie、Solr、ZooKeeper。

IoTDB

一体化收集、存储、管理与分析物联网时序数据的软件系统。

Kafka

一个分布式的、分区的、多副本的实时消息发布和订阅系统。提供可扩展、高吞吐、低延迟、高可靠的消息分发服务。

KMS

一个基于KeyProvider API编写的密钥管理服务器。

Loader

Loader基于开源Sqoop组件进行了功能增强,实现FusionInsight MRS与关系型数据库、文件系统之间交换数据和文件的数据加载工具;同时提供REST API接口,供第三方调度平台调用。

Manager

作为运维系统,为FusionInsight MRS提供高可靠、安全、容错、易用的集群管理能力,支持大规模集群的安装部署、监控、告警、用户管理、权限管理、审计、服务管理、健康检查、问题定位、升级等。

Mapreduce

提供快速并行处理大量数据的能力,是一种分布式数据处理模式和执行环境。

Metadata

为数据仓库类型的组件(Hive和HBase)提供元数据的抽取能力,并且可以人工为每个元数据进行标签设定,用于后向的数据分析、搜索等扩展功能。

Oozie

提供了对开源Hadoop组件的任务编排、执行的功能。以Java Web应用程序的形式运行在Java servlet容器(如:Tomcat)中,并使用数据库来存储工作流定义、当前运行的工作流实例(含实例的状态和变量)。

Ranger

Ranger是一个基于Hadoop平台,旨在为复杂数据提供监控、操作、管理等权限管控接口的集中式框架。

Redis

一个开源的、高性能的key-value分布式存储数据库,支持丰富的数据类型,弥补了memcached这类key-value存储的不足,满足实时的高并发需求。

SmallFS

提供小文件后台合并功能,能够自动发现系统中的小文件(通过文件大小阈值判断),在闲时进行合并,并把元数据存储到本地的LevelDB中,来降低NameNode压力,同时提供新的FileSystem接口,让用户能够透明的对这些小文件进行访问。

Solr

一个高性能,基于Lucene的全文检索服务器。Solr对Lucene进行了扩展,提供了比Lucene更为丰富的查询语言,同时实现了可配置、可扩展,并对查询性能进行了优化,并且提供了一个完善的功能管理界面,是一款非常优秀的全文检索引擎。

Spark

基于内存进行计算的分布式计算框架。

Tez

支持有向无环图的分布式计算框架。

Yarn

资源管理系统,它是一个通用的资源模块,可以为各类应用程序进行资源管理和调度。

ZooKeeper

提供分布式、高可用性的协调服务能力。帮助系统避免单点故障,从而建立可靠的应用程序。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/705297.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LabVIEW光伏逆变器低电压穿越能力测试

LabVIEW光伏逆变器低电压穿越能力测试 随着光伏发电技术的迅速发展,光伏逆变器的低电压穿越(LVRT)能力日益成为影响电网稳定性的关键因素。为了提升光伏逆变器的并网性能,开发了一套基于LabVIEW的光伏逆变器LVRT测试系统。该系统…

05-验证整数输入

需求分析 我们在脚本中验证整数输入可谓是小菜一碟,但如果你也想接受负数的话,可就没那么容易了。问题在于每个数值只能有一个负号,而且还必须出现在数值的最开始部分。下面脚本可以确保正确地格式化负数,另外还能检查其值是否位…

JAVA工程师面试专题-《并发编程篇》

目录 一、线程 1、并发与并行的区别 2、同步和异步的区别 3、Java中创建线程有哪些方式? 4、Thread和Runnable的区别 5、Java中的Runnable、Callable、Future、FutureTask的区别和联系? 6、说一下你对 CompletableFuture 的理解 7、volatile关键字有什么用&…

Ansible script 模块 该模块用于将本机的脚本在被管理端的机器上运行。Ansible服务执行本机脚本

目录 过程首先,我们写一个脚本,并给其加上执行权限直接运行命令来实现在被管理端执行该脚本验证错误演示 过程 该模块直接指定脚本的路径即可 首先,我们写一个脚本,并给其加上执行权限 vim /tmp/df.sh编辑脚本内容 这个脚本内容…

信钰证券:无任何氢能产品形成收入,这只氢能概念股却八连板了

受氢能方针面影响,多个氢能股迎来连涨潮。 2月26日,蓝科高新(601798.SH)涨停,截至收盘报11.01元,涨幅9.99%,完成八连板,总市值39.03亿元。首要因其地点氢能板块全体上涨影响。 同日同花顺氢动力概念下&am…

【底层解读】ArrayList源码学习

成员变量 学习源码前,我们还是先看一下ArrayList中成员变量有哪些 构造函数 ArrayList一共有三个构造函数。 第一个:带有指定初始容量的构造函数 第二个:空参构造 第三个:包含指定集合的构造函数 OK,看完构造函数&a…

120KW OBC充电机定期检测的必要性

随着电动汽车的普及,充电设备的需求也在不断增加,其中,120KW OBC(On-Board Charger)充电机作为电动汽车的重要充电设备,其性能和安全性直接关系到电动汽车的使用体验和安全。因此,对120KW OBC充…

Python日志记录库——loguru

文章目录 一. 概述二、基本使用2.1 安装2.2 日志输出 三、进阶用法3.1 显示格式3.2 写入文件3.3 模块名参数化3.4 日志留存、压缩与清理3.5 序列化为json格式3.6 并发安全 参考资料 一. 概述 在 Python 中用到日志记录,那就不可避免地会用到内置的 logging标准库 。…

Spring全面精简总结

Spring两大核心功能:IOC控制反转、AOP面向切面的编程 控制反转(loC,Inversion of Control),是一个概念,是一种思想。指将传统上由程序代码直接操控的对象调用权交给容器,通过容器来实现对象的装配和管理。控制反转就是…

雷达一维成像:基于数据集的实践

雷达一维成像:基于数据集的实践 (距离压缩\距离-时间图\距离-多普勒图\微多普勒图) 说明 雷达成像技术是雷达发展的一个重要里程碑:从此雷达的功能不仅仅是将所观测的对象视为点目标,并只测量它的位置与运动参数。雷达成像技术使得我们可以获…

【Linux C | 网络编程】套接字选项、getsockopt、setsockopt详解及C语言例子

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 🤣本文内容🤣&a…

雾锁王国服务器配置怎么选择?阿里云和腾讯云

雾锁王国/Enshrouded服务器CPU内存配置如何选择?阿里云服务器网aliyunfuwuqi.com建议选择8核32G配置,支持4人玩家畅玩,自带10M公网带宽,1个月90元,3个月271元,幻兽帕鲁服务器申请页面 https://t.aliyun.com…

电商数据api接口大全,商品API,店铺API,订单API,获取请求key详细接入案例

电商数据API接口大全包括商品API、店铺API和订单API等,以下是一些常见的API接口以及获取请求key的详细接入案例: 获取请求key的详细接入案例: 以淘宝商品API为例,获取请求key的步骤如下: 注册成为开放平台的开发者&a…

GB28181 —— Ubuntu20.04下使用ZLMediaKit+WVP搭建GB28181流媒体监控平台(连接带云台摄像机)

最终效果 简介 GB28181协议是视频监控领域的国家标准。该标准规定了公共安全视频监控联网系统的互联结构, 传输、交换、控制的基本要求和安全性要求, 以及控制、传输流程和协议接口等技术要求,是视频监控领域的国家标准。GB28181协议信令层面使用的是SIP(Session Initiatio…

k8s节点负载使用情况分析命令kubectl describe node [node-name]

1.到任意安装了kubectl节点命令的节点上执行kubectl describe node [node-name] 上面的Requests最小分配 Limits最大分配是所有pod之和,最小分配之和不能超过服务器实际参数,否则新的pod会因为资源不够起不来,最大分配是预设之和&#xff0…

程序员眼中的“祖传代码”:魔法书中的智慧和技巧

目录 前言1 祖传代码的传承与传统2 家传宝贝:珍贵的遗产3 祖传秘方:独特的问题解决奥秘4 祖传代码中的故事:技术的发展轨迹结语 前言 在编程的奇妙世界中,存在着一种特殊的代码,被程序员们亲切地称之为“祖传代码”。…

Spring6学习技术|事务

学习材料 尚硅谷Spring零基础入门到进阶,一套搞定spring6全套视频教程(源码级讲解) 事务 什么是事务?好像是数据库部分的词,我自己的理解是对数据库进行的操作序列,要么一起完成,要么都不完成…

2024年AI行业专题报告:AI巨轮滚滚向前

2024年AI行业专题报告:AI巨轮滚滚向前。 1 Sora、Gemini 1.5 Pro 相继发布,AIGC 新时代已至 1.1 大模型 Sora 震撼登场,AI 生成视频领域里程碑 OpenAI 在 2024 年 2 月 16 日发布文生视频模型 Sora,突破了 AIGC 的高地&#xff0…

经营分析到底要做什么?

​做经营分析,不是只看数据这么简单,我们要从目标-分析-决策-预警,全流程实现。 基于数据中台底座,实现从制定战略目标到执行落地的数据应用闭环。主要从四个维度来做: 第一步,就是基于预算管理进行战略目…

Python中高效的爬虫框架,你用过几个?

在信息时代,数据是无价之宝。许多开发者和数据分析师需要从互联网上采集大量的数据,用于各种用途,如分析、建模、可视化等。Python作为一门强大的编程语言,提供了多种高效的爬虫框架,使数据采集变得更加容易和高效。本…