Hadoop集成对象存储和HDFS磁盘文件存储

1.环境配置

1.1 版本说明

组件版本是否必须其他事项
Hadoop3.3.0+hadoop3.3.0之后原生支持国内主要对象存储
Hive3.1.3实测没有Hive也可以使用sparksql,使用hive更好的管理HDFS数据
spark3.3.1hive和spark整合后,语法为HSQL,自定义函数按照hive使用即可
cos未知

说明:由于部分生产日志过大,且需要对近期数据进行分析,HDFS文件存储成本较高,因此定于将近期热数据存储与hdfs,冷数据存储在更便宜的对象存储之上。

1.2 相关组件官网

Hadoop官网:https://hadoop.apache.org/docs/r3.3.4/hadoop-cos/cloud-storage/index.html
腾讯对象存储cos使用官网:https://cloud.tencent.com/document/product/436/6884
spark官网:https://spark.apache.org/docs/3.3.1/

1.3 cos与hadoop集成特征

  • 支持 Hadoop MapReduce 和 Spark 将数据写入 COS 并直接从 COS 中读取。

  • 实现了Hadoop文件系统的接口,提供了与HDFS相同的伪层次目录结构。

  • 支持大文件分段上传。单个文件最大支持19TB

  • 高性能和高可用性。Hadoop-COS 与 HDFS 的性能差异不超过 30%。

1.4 使用限制

对象存储不是文件系统,它有一些限制:

  1. 对象存储是一种键值存储,它天然不支持分层目录。通常,使用对象键中的目录分隔符来模拟分层目录,例如“/hadoop/data/words.dat”。

  2. COS 对象存储目前不支持对象的追加操作。这意味着您不能将内容附加到现有对象(文件)的末尾。

  3. 删除和重命名操作都是非原子的,这意味着操作会被中断,操作结果可能会处于不一致的状态。

  4. 对象存储有不同的授权模型:

  • 目录权限报告为 777。

  • 文件权限报告为 666。

  • 文件所有者被报告为本地当前用户。

  • 文件组也被报告为本地当前用户。

  1. 支持大文件(最大40TB)分段上传,但分段数量限制为10000。

  2. 每次列出的文件数量限制为 1000 个。

2.Hadoop与HDFS集成

详见本博客《最全Hadoop实际生产集群高可用搭建》

3.Hadoop与yarn集成

3.1 概念

  • Bucket:COS 中存储数据的容器,名称由用户自定义的 BucketName 和用户 AppID 组成。

  • Appid:用户维度的唯一资源标识符。

  • SecretId:用于验证用户身份的 ID

  • SecretKey:用于验证用户身份的密钥

  • Region:桶所在的区域。

  • CosN:Hadoop-COS 使用cosn作为其 URI 方案,因此 CosN 通常用来指代 Hadoop-COS。

3.2 依赖关系

  • cos_api(5.4.10 或更高版本)
  • cos-java-sdk(推荐2.0.6版本)
  • joda-time(推荐2.9.9版本)
  • httpClient(推荐4.5.1或更高版本)
  • Jackson:jackson-core、jackson-databind、jackson-annotations(2.9.8 或更高版本)
  • bcprov-jdk15on(推荐1.59版本)

3.3 属性配置

如果您计划使用 COS 作为 Hadoop 或其他大数据系统的默认文件系统,则需要在 core-site.xml 中将fs.defaultFS配置为 Hadoop-COS 的 URI。Hadoop-COS 使用cosn作为其 URI 方案,并使用存储桶作为其 URI 主机。同时,您需要显式设置fs.cosn.userinfo.region来指示您的存储桶所在的区域。

对于 Hadoop-COS,fs.defaultFS是一个选项。如果您只是暂时使用 COS 作为 Hadoop 的数据源,则无需设置该属性,只需在使用时指定完整的 URI 即可。例如:hadoop fs -ls cosn://testBucket-125236746/testDir/test.txt。

fs.cosn.userinfo.region是 Hadoop-COS 的必需属性。原因是 Hadoop-COS 必须知道使用存储桶的区域,才能准确构造 URL 来访问它。

COS支持多区域存储,不同区域默认有不同的访问域。建议根据自己的业务场景选择就近的存储区域,以提高对象上传下载速度。

3.3.1 配置core-site.xml

hadoop官网的配置名称有些问题,建议参考腾讯的官网来配置

 <!-- URI 和区域属性 --><!-- 此配置适用于将cos位置默认的存储位置<property><name>fs.defaultFS</name><value>cosn://<bucket-appid></value><description>Optional: If you don't want to use CosN as the default file system, you don't need to configure it.</description></property> --><property><name>fs.cosn.bucket.region</name><value>ap-xxx</value><description>The region where the bucket is located</description></property><!--用户身份验证属性-->
<property><name>fs.cosn.credentials.provider</name><value>org.apache.hadoop.fs.auth.SimpleCredentialProvider</value>
</property><property><name>fs.cosn.userinfo.secretId</name><value>xxxx</value><description>Tencent Cloud Secret Id </description></property><property><name>fs.cosn.userinfo.secretKey</name><value>xxxx</value><description>Tencent Cloud Secret Key</description></property><!--Integration Properties-->
<property><name>fs.cosn.impl</name><value>org.apache.hadoop.fs.CosFileSystem</value><description>The implementation class of the CosN Filesystem</description></property><property><name>fs.AbstractFileSystem.cosn.impl</name><value>org.apache.hadoop.fs.CosN</value><description>The implementation class of the CosN AbstractFileSystem.</description></property>
<!--Other Runtime Properties-->
<property><name>fs.cosn.tmp.dir</name><value>/tmp/hadoop_cos</value><description>Temporary files would be placed here.</description></property><property><name>fs.cosn.buffer.size</name><value>33554432</value><description>The total size of the buffer pool.</description></property><property><name>fs.cosn.block.size</name><value>8388608</value><description>Block size to use cosn filesysten, which is the part size for MultipartUpload. Considering the COS supports up to 10000 blocks, user should estimate the maximum size of a single file. For example, 8MB part size can allow  writing a 78GB single file.</description></property><property><name>fs.cosn.maxRetries</name><value>3</value><description>The maximum number of retries for reading or writing files to COS, before throwing a failure to the application.</description></property><property><name>fs.cosn.retry.interval.seconds</name><value>3</value><description>The number of seconds to sleep between each COS retry.</description></property>

3.3.2 属性配置介绍

特性描述默认值必需的
fs.defaultFS配置Hadoop使用的默认文件系统。没有任何
fs.cosn.credentials.provider此选项允许用户指定如何获取凭据。如果未指定,凭证提供程序的默认顺序为:1. org.apache.hadoop.fs.auth.SimpleCredentialsProvider2.org.apache.hadoop.fs.auth.EnvironmentVariableCredentialsProvider。没有任何
fs.cosn.userinfo.secretId/secretKey您账户的API密钥信息没有任何是的
fs.cosn.bucket.region桶所在区域。没有任何是的
fs.cosn.implCosN 文件系统的实现类。没有任何是的
fs.AbstractFileSystem.cosn.implCosN AbstractFileSystem 的实现类。没有任何是的
fs.cosn.tmp.dir程序运行过程中,cosn生成的临时文件会存放在这里。/tmp/hadoop_cos
fs.cosn.缓冲区大小缓冲池的总大小。要求大于或等于块大小。33554432
fs.cosn.块大小文件块的大小。考虑到每个文件最多可以分为10000个上传的限制,必须根据使用的单个文件的最大大小来设置该选项。例如,8MB 的部分大小可以允许写入 78GB 的​​单个文件。8388608
fs.cosn.upload_thread_pool文件流式传输到 COS 时并发上传的线程数。CPU核心数*3
fs.cosn.read.ahead.block.size每个预读块的大小。524288 (512KB)
fs.cosn.read.ahead.queue.size预读队列的长度。10
fs.cosn.maxRetries在向应用程序抛出故障之前,向 COS 读取或写入文件的最大重试次数。3
fs.cosn.重试.间隔.秒每次重试之间休眠的秒数3

3.3.3 更新其他位置的core-site.xml

hive和spark的core-site.xml文件并分发

3.4 依赖包配置

3.4.1 获取 Hadoop-COS 分发包及其依赖

下载地址:Hadoop-COS release

3.4.2 安装hadoop-cos

  1. 将hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HADOOP_HOME/share/hadoop/tools/lib下。

NOTE: 根据hadoop的具体版本选择对应的jar包,若release中没有提供匹配版本的jar包,可自行通过修改pom文件中hadoop版本号,重新编译生成。

  1. 修改 hadoop_env.sh 在 $HADOOP_HOME/etc/hadoop目录下,进入 hadoop_env.sh,增加如下内容,将 cosn 相关 jar 包加入 Hadoop 环境变量:
for f in $HADOOP_HOME/share/hadoop/tools/lib/*.jar; doif [ "$HADOOP_CLASSPATH" ]; thenexport HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$felseexport HADOOP_CLASSPATH=$ffi
done
  1. 将hadoop-cos-{hadoop.version}-x.x.x.jar和cos_api-bundle-5.x.x.jar 拷贝到 $HIVE_HOME/lib下

4.测试使用

4.1 hadoop测试

hadoop fs -ls -R cosn://examplebucket-1250000000000/<路径>
hadoop fs -ls -R /<路径>(配置了fs.defaultFS选项为 cosn:// 后)#例如:
hadoop fs -ls -R cosn://hdfs-test-1252681929/
-rw-rw-rw-   1 root root       1087 2018-06-11 07:49 cosn://hdfs-test-1252681929/LICENSE
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/2018
-rw-rw-rw-   1 root root       1087 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-12 03:26 cosn://hdfs-test-1252681929/hdfs/2018/ReadMe
drwxrwxrwx   - root root          0 1970-01-01 00:00 cosn://hdfs-test-1252681929/hdfs/test
-rw-rw-rw-   1 root root       1087 2018-06-11 07:32 cosn://hdfs-test-1252681929/hdfs/test/LICENSE
-rw-rw-rw-   1 root root       2386 2018-06-11 07:29 cosn://hdfs-test-1252681929/hdfs/test/ReadMe

4.2 hive及spark测试

hive测试

-- 测试数据分区插入对象存储
CREATE TABLE `student1`(
id int, name string)
PARTITIONED BY (`part_day` string)
ROW FORMAT SERDE'org.apache.hadoop.hive.ql.io.orc.OrcSerde'
STORED AS INPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat'
LOCATION'cosn://hdfs-test-1252681929/test/student1';set spark.yarn.queue=xxxx;
insert into table student1 values(1,'abc','20231217');

spark类似

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/579785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入理解 golang 中的反射机制

目录 什么是反射 反射的使用方法 反射的应用场景 反射的性能考量 反射的最佳实践 小结 反射机制是计算机科学中的一个重要概念&#xff0c;程序通过反射可以在运行时访问、检测和修改自身的状态和行为。Golang 作为静态类型的编译型语言&#xff0c;虽然在设计上倾向于简…

机器学习——决策树(三)

【说明】文章内容来自《机器学习——基于sklearn》&#xff0c;用于学习记录。若有争议联系删除。 1、案例一 决策树用于是否赖床问题。 采用决策树进行分类&#xff0c;要经过数据采集、特征向量化、模型训练和决策树可视化4个步骤。 赖床数据链接&#xff1a;https://pan…

大语言模型激活函数绘图

使用torch中的激活函数&#xff0c;绘制多个激活函数多一个图中对比展示 引入依赖 import torch from torch.nn import functional as F import matplotlib.pyplot as plt plt.rcParams[font.sans-serif] [Arial Unicode MS]定义单个曲线图的绘制函数 def draw_single_plot…

解决Pycharm pip安装模块太慢问题,pycharm2022没有manage repositories配置镜像源

解决方案 方法清华阿里云中国科技大学华中理工大学 或者直接-i 加镜像 方法 URL写下面任意一个 清华 https://pypi.tuna.tsinghua.edu.cn/simple阿里云 http://mirrors.aliyun.com/pypi/simple/中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/华中理工大学 http:/…

钦丰科技(安徽)股份有限公司携卫生级阀门管件盛装亮相2024发酵展

钦丰科技(安徽)股份有限公司携卫生级阀门管件盛装亮相2024济南生物发酵展&#xff01; 展位号&#xff1a;2号馆A65展位 2024第12届国际生物发酵产品与技术装备展览会&#xff08;济南&#xff09;于3月5-7日在山东国际会展中心盛大召开&#xff0c;展会同期将举办30余场高质…

LENOVO联想笔记本小新Pro 14 IRH8 2023款(83AL)电脑原装出厂Win11系统恢复预装OEM系统

链接&#xff1a;https://pan.baidu.com/s/1M1iSFahokiIHF3CppNpL4w?pwdzr8y 提取码&#xff1a;zr8y 联想原厂系统自带所有驱动、出厂主题壁纸、Office办公软件、联想电脑管家等自带的预装软件程序 所需要工具&#xff1a;16G或以上的U盘 文件格式&#xff1a;ISO 文件…

django之drf框架(两个视图基类、5个扩展视图类、9个视图子类)

两个视图基类 APIView和GenericAPIView drf提供的最顶层的父类就是APIView&#xff0c;以后所有的类都继承自他 GenericAPIView继承自APIView&#xff0c;他里面封装了一些工能 基于APIViewModelSerializerResposne写5个接口 子路由&#xff1a;app01>>>urls.py …

【C++】开源:fast-cpp-csv-parser数据解析库配置使用

&#x1f60f;★,:.☆(&#xffe3;▽&#xffe3;)/$:.★ &#x1f60f; 这篇文章主要介绍fast-cpp-csv-parser数据解析库配置使用。 无专精则不能成&#xff0c;无涉猎则不能通。——梁启超 欢迎来到我的博客&#xff0c;一起学习&#xff0c;共同进步。 喜欢的朋友可以关注一…

perl使用find函数踩坑

前言 写了一个脚本可以同时检查多个仿真log文件&#xff0c;并生成html表格。按照文件修改时间从新到旧排序。然后一直无法使用stath函数获取ctime。 结论&#xff1a;find函数会改变程序执行的当前目录&#xff0c;find(\&process_files, $dir);函数是在$dir目录下运行的…

【AI】人工智能爆发推进器之生成对抗网络

目录 一、什么是生成对抗网络 二、发展历程 三、应用场景 四、小案例&#xff1a;使用GAN生成手写数字 4.1 问题描述 4.2 代码实现 一、什么是生成对抗网络 生成对抗网络&#xff08;Generative Adversarial Networks&#xff0c;简称GAN&#xff09;是深度学习中的一种…

linux开放tomcat 8080端口

1、查看8080是否开放 firewall-cmd --query-port8080/tcp查看已开启的端口 firewall-cmd --list-ports开启防火墙 systemctl start firewalld2、永久开放8080端口 firewall-cmd --zonepublic --add-port8080/tcp --permanent3、重加载&#xff08;重启防火墙&#xff09; …

UDP信号多个电脑的信息传输测试、配置指南

最近要做一个东西&#xff0c;关于一个软件上得到的信号&#xff0c;如何通过连接的局域网&#xff0c;将数据传输出去。我没做过相关的东西&#xff0c;但是我想应该和软件连接数据库的过程大致是差不多的&#xff0c;就一个ip和一个端口号啥的。 一.问题思路 多个设备同时连…

【宇宙猜想】AR文创入驻今日美术馆、北京天文馆等众多展馆,在AR互动中感受科技魅力!

近日&#xff0c;由「宇宙猜想」推出的AR系列文创产品先后入驻今日美术馆、北京天文馆、国家自然博物馆、上海天文馆、国家海洋馆、中华手工展馆等各大馆场并与其展开相关合作。 「宇宙猜想」致力于创造虚拟空间价值&#xff0c;用AR技术与文创产品碰撞出新的火花&#xff0c;为…

SQL语言之DDL

目录结构 SQL语言之DDLDDL操作数据库查询数据库创建数据库删除数据库使用某个数据库案例 DDL操作表创建表查看表结构查询表修改表添加字段删除字段修改字段的类型修改字段名和字段类型 修改表名删除表案例 SQL语言之DDL ​ DDL&#xff1a;数据定义语言&#xff0c;用来定义数…

Unix常用命令整理

Unix常用命令 1. 文件和目录管理命令2. 文本文件处理命令3. 进程管理命令4. 网络管理命令5. 其他常用命令 本文列举了一些Unix操作系统中常用的命令和工具。对于开发人员和系统管理员来说&#xff0c;熟练使用这些命令和工具是非常必要的。此外&#xff0c;还有很多其他的命令和…

数据结构与算法(C语言版)P10——图

1、图的基本概念和术语 前面学过&#xff1a; 线性是一对一树形是一对多 而今天要学习的图形结构是多对多。 图的定义&#xff1a; G(V,E) V&#xff1a;顶点(数据元素)的__有穷非空__集合。E&#xff1a;边的有穷集合。 __有向图&#xff1a;__每条边都是有方向的 __无…

Hive实战:词频统计

文章目录 一、实战概述二、提出任务三、完成任务&#xff08;一&#xff09;准备数据文件1、在虚拟机上创建文本文件2、将文本文件上传到HDFS指定目录 &#xff08;二&#xff09;实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS文件创建外部表4、利用Hive SQL…

物联网协议Coap之Californium CoapServer解析

目录 前言 一、CoapServer对象 1、类对象定义 2、ServerInterface接口 3、CoapServer对象 二、CoapServer服务运行分析 1、CoapServer对象实例化 1.1 调用构造方法 1.2 生成全局配置 1.3 创建Resource对象 1.4-1.8、配置消息传递器、添加CoapResource 1.9-1.12 创建线…

跨境电商企业使用阿里云服务器解决方案

跨境电商具有高并发压力、安全风险监控以及缺乏营销手段等痛点&#xff0c;使用阿里云服务器、负载均衡、国际短信及安全合规等产品店铺搭建工具&#xff0c;阿里云服务器网aliyunfuwuqi.com分享阿里云跨境电商支持&#xff1a; 阿里云助力跨境电商 跨境电商业务痛点&#xf…

dev express 15.2图表绘制性能问题

dev express 15.2 绘制曲线 前端代码 <dxc:ChartControl Grid.Row"1"><dxc:XYDiagram2D EnableAxisXNavigation"True"><dxc:LineSeries2D x:Name"series" CrosshairLabelPattern"{}{A} : {V:F2}"/></dxc:XYDi…