华为开源carbondata中的使用问题处理

carbondata中的使用问题处理
Q:什么是不良记录?

A:由于数据类型不兼容而无法加载到CarbonData中的记录或为空或具有不兼容格式的记录被归类为不良记录。
Q:CarbonData中的不良记录存储在哪里?

A:不良记录存储在carbon.properties文件的carbon.badRecords.location中设置的位置。
Q:如何启用不良记录日志?

A:在加载数据时,我们可以指定处理不良记录的方法。 为了分析错误记录的原因,必须将参数BAD_RECORDS_LOGGER_ENABLE设置为TRUE。可以通过参数BAD_RECORDS_ACTION指定多种处理错误记录的方法。
• 使用NULL值填充不正确的CSV行值并加载 在CarbonData中的数据中,在查询中设置以下内容:‘BAD_RECORDS_ACTION’=‘FORCE’
• 要在原始CSV中写入错误记录而不用NULL填充不正确的值(在参数carbon.badRecords.location中设置),请设置以下内容 在查询中:‘BAD_RECORDS_ACTION’=‘REDIRECT’
Q:如何忽略不良记录?

A:若要忽略不良记录以免它们存储在原始csv中,我们需要在查询中设置以下内容:‘BAD_RECORDS_ACTION’=‘IGNORE’。
Q:创建Carbon会话时如何指定存储位置?

A:Carbon数据使用创建Carbon会话时指定的存储位置来存储元数据,如架构,字典文件,字典元数据和排序索引。
尝试使用以下指定的storepath创建carbonsession 方式:val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession(<store_path>)
Example: val carbon = SparkSession.builder().config(sc.getConf).getOrCreateCarbonSession(“hdfs://localhost:9000/carbon/store”)
Q:什么是Carbon锁类型?

A:Apache CarbonData获取文件上的锁,以防止并发操作修改相同的文件。 锁的类型取决于存储位置,对于HDFS,我们将其指定为HDFSLOCK类型。 默认情况下,它设置为LOCALLOCK。 属性carbon.lock.type配置指定在表的并发操作期间要获取的锁的类型。 可以使用以下值设置此属性:LOCALLOCK-此锁定在本地文件系统上作为文件创建。 当一台机器上仅运行一个Spark驱动程序(旧式服务器)并且没有同时启动其他CarbonData Spark应用程序时,此锁定很有用。 HDFSLOCK:此锁在HDFS文件系统上作为文件创建。 当启动多个CarbonData Spark应用程序并且集群上没有任何ZooKeeper运行且HDFS支持基于文件的锁定时,此锁定很有用。
Q:如何解决抽象方法错误?

A:为了构建CarbonData项目,必须指定Spark版本。使用Maven生成项目时,需要指定Spark版本。
Q:在异常情况下执行插入操作时,Carbon的行为如何?

A:Carbon支持插入操作,可以参考DML Operations on CarbonData中提到的语法。首先,在spark-sql中创建一个源表,并将数据加载到该创建的表中。

CREATE TABLE source_table(id String,name String,city String)ROW FORMAT DELIMITED FIELDS TERMINATED BY “,”

SELECT * FROM source_table;
id name city
1 jack beijing
2 erlu hangzhou
3 davi shenzhen

场景 1:
假设carbon表中的列顺序与源表中的列顺序不同,使用脚本“ SELECT * FROM碳表”进行查询,将获得与源表类似的列顺序,而不是像期望中那样在carbon表中列顺序。

CREATE TABLE IF NOT EXISTS carbon_table(id String,city String,name String)STORED BY ‘carbondata’;

INSERT INTO TABLE carbon_table SELECT * FROM source_table;

SELECT * FROM carbon_table;
id city name
1 jack beijing
2 erlu hangzhou
3 davi shenzhen

结果显示,第二列是carbon表中的城市,但里面是名称,例如jack。此现象与将数据插入到hive表中相同。如果要将数据插入到carbon表中的相应列中,则必须在插入语句中指定相同的列顺序。

场景 2:

当Carbon表中的列数与select语句中指定的列数不同时,插入操作将失败。以下插入操作将失败。

INSERT INTO TABLE carbon_table SELECT id, city FROM source_table;

场景 3:
carbon表中的列类型与select语句中指定的列不同时。插入操作仍然会成功,但是您可能会得到NULL,因为在转换类型失败时NULL将是替代值。
Q:为什么聚合查询没有从聚合表中获取数据?

A:以下是无法从汇总表中获取数据的汇总查询:

方案1:当查询中存在SubQuery谓词时。

create table gdp21(cntry smallint, gdp double, y_year date) stored by ‘carbondata’;
create datamap ag1 on table gdp21 using ‘preaggregate’ as select cntry, sum(gdp) from gdp21 group by cntry;
select ctry from pop1 where ctry in (select cntry from gdp21 group by cntry);

方案2:当聚合函数与“ in”过滤器一起使用时。

create table gdp21(cntry smallint, gdp double, y_year date) stored by ‘carbondata’;
create datamap ag1 on table gdp21 using ‘preaggregate’ as select cntry, sum(gdp) from gdp21 group by cntry;
select cntry, sum(gdp) from gdp21 where cntry in (select ctry from pop1) group by c

方案3:当聚合函数具有“ join”且过滤条件相等时。
create table gdp21(cntry smallint, gdp double, y_year date) stored by ‘carbondata’;
create datamap ag1 on table gdp21 using ‘preaggregate’ as select cntry, sum(gdp) from gdp21 group by cntry;
select cntry,sum(gdp) from gdp21,pop1 where cntry=ctry group by cntry;
Q:为什么即使在驱动程序端Dataload Command失败后,所有执行程序仍在Spark UI中显示成功?

A:在最大重试尝试次数后,Spark executor显示任务失败,但是加载具有不良记录的数据并将BAD_RECORDS_ACTION(carbon.bad.records.action)设置为“ FAIL”将仅尝试一次,但会向驱动程序发送信号给失败 而不是抛出异常重试,因为如果发现不良记录并且BAD_RECORDS_ACTION设置为失败,就没有重试的可能性。因此,Spark执行程序将这一尝试显示为成功,但是命令实际上执行失败。 可以检查任务尝试或执行程序日志以观察失败原因。
Q:为什么查询SDK Writer输出时选择查询输出的时区结果不同?

A:SDK Writer是一个独立的实体,因此SDK Writer可以从具有不同时区的非群集计算机生成Carbondata文件。 但是在群集中,当读取这些文件时,它总是占用群集时区。 因此,时间戳记和日期数据类型字段的值不是原始值。 如果要在写入时控制数据的时区,请通过调用以下API在SDK Writer中设置集群的时

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/136053.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录day2

目录 vscode 自定义代码模板Reference vscode 自定义代码模板 select User snippets from Settings on the bottom left corner. select a certain language for example: cpp create your own snippets 格式如下&#xff0c;防着写 第一行"cpp template",模板…

【Web安全】CORS跨域资源共享漏洞

文章目录 前言一、漏洞概述二、漏洞原理三、CORS响应头类型四、漏洞挖掘五、修复建议前言 本篇文章主要介绍CORS跨域漏洞产生的原理,漏洞复现过程,挖掘手段以及如何进行修复,文章难免会有失误,烦请留下宝贵建议,谢谢! 一、漏洞概述 跨域资源共享(CORS)是一种浏览器机制…

Git 入门使用 —— 建库、代码上下传、常用命令

目录 一、Git 入门 1.1 Git简介 1.2 Git安装 1.3 创建码云仓库 二、Git 使用 2.1 git初始化操作 2.2 代码上传 2.3 代码下载 2.4 代码更新 2.4.1 仓库管理者 2.4.1 仓库使用者 三、Git 常用命令 一、Git 入门 1.1 Git简介 Git是一个开源的分布式版本控制系统&am…

app自动化测试——capability 配置参数解析

一、Capability 简介 功能&#xff1a;配置 Appium 会话&#xff0c;告诉 Appium 服务器需要自动化的平台的应用程序 形式&#xff1a;键值对的集合&#xff0c;键对应设置的名称&#xff0c;值对应设置的值 主要分为三部分 公共部分 ios 部分 android 部分 二、Session Appi…

muduo源码剖析之InetAddress

InetAddress InetAddress 类是 muduo 网络库中的一个重要类&#xff0c;用于表示网络中的 IP 地址和端口号。 InetAddress 类在 muduo 网络库中被广泛使用&#xff0c;用于表示网络中的通信实体的地址信息&#xff0c;例如服务器地址、客户端地址等。通过 InetAddress 类&…

第14章,lambda表达式与流处理例题

package 例题;import java.util.List; import java.util.stream.Collectors; import java.util. stream.Stream;public class 例题19 { public static void main(String[] args){List<例题14> list 例题14.get例题14List();//获取公共类的测试数据Stream<例题14>…

Win11 Edge浏览器进入朔日考试系统(无纸化测评系统)的方法

Win11 Edge浏览器进入朔日考试系统&#xff08;无纸化测评系统&#xff09;的方法 笔记本型号&#xff1a;联想 使用浏览器&#xff1a;edge浏览器 操作系统&#xff1a;Windows11 网址&#xff1a;http://172.31.0.139/WZHEDU/ 注意:使用此方法打开edge浏览器会频繁出现弹窗&a…

派金SDK接入文档

一、接入SDK 1、将sdk文件手动导入到目标项目中&#xff0c;如下图所示&#xff1a; 2、该SDK需接入其他三方广告&#xff0c;通过pod的方式接入&#xff0c;在Profile中加入如下代码&#xff1a; pod GDTMobSDK, ~> 4.14.40pod BaiduMobAdSDK, ~> 5.313pod KSAdSDK…

猫罐头怎么选?千万别错过这5款好吃放心的猫罐头推荐!

猫罐头不仅美味可口&#xff0c;而且营养丰富&#xff0c;是专为猫咪打造的美食。那么&#xff0c;猫罐头怎么选&#xff1f;作为一位经营宠物店7年的店长&#xff0c;我对猫猫的饮食都非常重视&#xff0c;也见证了很多猫咪品尝各种猫罐头的瞬间&#xff0c;现在我对各个品牌的…

0基础学习VR全景平台篇第119篇:利用蒙版航拍补天 - PS教程

上课&#xff01;全体起立~ 大家好&#xff0c;欢迎观看蛙色官方系列全景摄影课程&#xff01; 嗨&#xff0c;大家好。欢迎收看蛙色VR系列教程之PS利用蒙版航拍补天。 我们之前已经教过大家如何进行航拍调色&#xff0c;不知道大家学的怎么样呢&#xff1f; 会不会发现&…

VS Code+DevChat助力非专业开发也能玩转代码编程

一、前言 偶然间网上瞎逛&#xff0c;看到DevChat 发布了一款 VS Code 插件&#xff0c;可提供类似chatgpt一样的“一站式 AI 辅助编程”体验。据说&#xff0c; DevChat 直接对接 GPT-4 还让免费用&#xff0c;目前免费注册收邮件即可获取key&#xff0c;再也不用麻烦的外部手…

使用EasyExcel时踩过的坑

目录 一、问题描述二、使用EasyExcel的版本三、场景复现四、问题修复 一、问题描述 使用EasyExcel读取文件数据时&#xff0c;出现数据无法读取情况。 二、使用EasyExcel的版本 <dependency><groupId>com.alibaba</groupId><artifactId>easyexcel&l…

Flink(二)【Flink 部署模式】

前言 今天是Flink学习的第二天&#xff0c;我的心情异常的复杂哈哈哈&#xff08;苦笑&#xff09;&#xff0c;学习上还是比较顺利的&#xff0c;感情上我并不擅长&#xff0c;所以心情波动大在所难免。害&#xff0c;至少还有学习让我不被各种糟糕琐碎的日常生活里的人和事所…

Python(四)字符串

程序员的公众号&#xff1a;源1024&#xff0c;获取更多资料&#xff0c;无加密无套路&#xff01; 最近整理了一波电子书籍资料&#xff0c;包含《Effective Java中文版 第2版》《深入JAVA虚拟机》&#xff0c;《重构改善既有代码设计》&#xff0c;《MySQL高性能-第3版》&…

Vue3指令

Vue 指令&#xff08;Directives&#xff09;是 Vue.js 的一项核心功能&#xff0c;它们可以在 HTML 模板中以 v- 开头的特殊属性形式使用&#xff0c;用于将响应式数据绑定到 DOM 元素上或在 DOM 元素上进行一些操作。 Vue 指令是带有前缀 v- 的特殊 HTML 属性&#xff0c;它赋…

c语言练习第10周(1~5)

根据公式求和 输入样例20输出样例 534.188884 #include<stdio.h> #include<math.h> int main() {int i,n;scanf("%d", &n);double s 0,t0;for (i 1; i < n; i) {t t sqrt(i);s s t;}printf("%.6lf", s);return 0; } 第一行输入…

获取AAC音频的ADTS固定头部信息

文章目录 前言一、AAC音频中的ADTS二、解析ADTS信息1.标准文档中介绍2.解析3.采样率索引和值4.下载AAC标准文档 前言 调试嵌入式设备中播放aac音频的过程中&#xff0c;了解了aac音频格式&#xff0c;记录在此&#xff0c;防止遗忘。 一、AAC音频中的ADTS ADTS&#xff08;Audi…

深度学习 opencv python 实现中国交通标志识别 计算机竞赛

文章目录 0 前言1 yolov5实现中国交通标志检测2.算法原理2.1 算法简介2.2网络架构2.3 关键代码 3 数据集处理3.1 VOC格式介绍3.2 将中国交通标志检测数据集CCTSDB数据转换成VOC数据格式3.3 手动标注数据集 4 模型训练5 实现效果5.1 视频效果 6 最后 0 前言 &#x1f525; 优质…

思谋科技进博首秀:工业多模态大模型IndustryGPT V1.0正式发布

大模型技术正在引领新一轮工业革命&#xff0c;但将其应用于工业制造&#xff0c;仍面临许多挑战&#xff0c;专业知识的缺乏是关键难点。11月5日&#xff0c;香港中文大学终身教授、思谋科技创始人兼董事长贾佳亚受邀参加第六届中国国际进口博览会暨虹桥国际经济论坛开幕式。虹…

物联网水表电子阀工作原理是怎样的?

随着科技的不断发展&#xff0c;物联网技术逐渐深入到我们的生活之中。作为智能家居的重要组成部分&#xff0c;物联网水表电子阀凭借其智能化、节能环保等优势&#xff0c;受到了越来越多用户的青睐。接下来&#xff0c;合众小编将来为大家介绍下物联网水表电子阀工作原理。 一…