【Apache Doris】周FAQ集锦:第 16 期

【Apache Doris】周FAQ集锦:第 16 期

  • SQL问题
  • 数据操作问题
  • 运维常见问题
  • 其它问题
  • 关于社区

欢迎查阅本周的 Apache Doris 社区 FAQ 栏目!
在这个栏目中,每周将筛选社区反馈的热门问题和话题,重点回答并进行深入探讨。旨在为广大用户和开发者分享有关 Apache Doris 的常见问题。
通过这个每周 FAQ 栏目,希望帮助社区小伙伴更好地了解和应用 Apache Doris,促进经验交流和技术共享。

SQL问题

❓Q1 hive catalog 查询时报:

Wrong data type for colum xxx

💡A1 通常是进行了schema change导致,可以刷新或重建hive catalog重新查询。

❓Q2 doris的key是否可以创建主键索引?
💡A2 doris中key是排序的,在主键上的条件通常比较快,不需要其它索引。

数据操作问题

❓Q3 compaction会影响集群性能?
💡A3 如果是小批量写,每次写的少,会导致小版本比较多,compaction 不是很理想;对比直接使用 insert into select 写入一个大批量的数据,相同的数据下,可能insert into select 写完的表,查询性能会快些,因为一次 insert into 之后数据就是个大的版本了,所以查询性能也会比较好。
Compaction 原理 | 实践全析可查阅:
https://mp.weixin.qq.com/s/hb3DqVZdf8LyzE0OH1QvMA

❓Q4 export和select into outfile这两种将数据导出到本地文件的方式,所生成的文件是否可以指定存放到任意一台be?
💡A4 目前暂不支持export和select into outfile指定导出至具体的服务器(be)。

❓Q5 ccr跨集群数据同步中binlog会不会占用太多空间,是否需要限制它的大小?
💡A5 ccr不会占用太多空间,并且可以设置binlog的过期时间,目前默认是一天。
CCR跨级群同步内容可查阅:
https://doris.apache.org/zh-CN/docs/2.0/admin-manual/data-admin/ccr

运维常见问题

❓Q6 部署doris集群的be时,服务器有多块磁盘,使用lvm将多块磁盘组成一组pv、vg、lv挂载至一个目录下和单独将磁盘分区格式化挂载至多个目录,在性能上有没有区别?另外对于compaction而言,lvm划分的磁盘compaction_task_num_per_disk会为每个物理磁盘分配多个task?
💡A6 如下:

1. 直接分区格式化挂载多块磁盘到不同目录,可以减少管理层级,会减少I/O路径上的开销,利于提高性能。
即少依赖一层,会让系统简单稳定一些,效率也会高,并且doris会自动管理多盘,包括负载均衡。
所以使用doris,不需要用lvm、raid之类的操作。 
2. lvm 挂盘之后,compaction认为BE只有一个磁盘,会按照一个磁盘分配task。 
3. 任何系统和架构越简单越好。

❓Q7 fe内存居高不下时,如何排查?
💡A7 如下:

1. 观察profile是否是开启的,如果开启的话全局关闭2. 导入任务多的话,可能是label堆积,可以修改label的保留时间
fe.conf
label_keep_max_second = 14400; 
streaming_label_keep_max_second = 14400;3. 将FE JVM GC算法修改为G1,CMS算法修改为G1 算法
# G1 JAVA OPTS
JAVA_OPTS="-Djavax.security.auth.useSubjectCredsOnly=false -Xss4m -Xmx8192m -XX:+UnlockExperimentalVMOptions -XX:+UseG1GC -XX:MaxGCPauseMillis=200 -XX:+PrintGCDateStamps -XX:+PrintGCDetails -Xloggc:$DORIS_HOME/log/fe.gc.log.$CUR_DATE -Dlog4j2.formatMsgNoLookups=true"
-Xmx改成一致的,注意下CUR_DATE这个环境变量,在老版本可能叫DATE4. 在内存较高时,可以打个jmap看看哪些模块占用较多:jmap -histo:live pid > 1.jmp

❓Q8 doris的fe/meta/image目录下多久会生成image.XX镜像文件?
💡A8 同时满足两个条件:

  1. master 节点的日志条数达到阈值(默认10w 条)
  2. 符合checkpoint线程执行周期(默认六十秒)

❓Q9 doris如何把测试库所有表发布到生产环境?
💡A9 doris在0.15之后的版本已经支持通过 mysqldump 工具导出数据或者表结构。
mysql-dump内容可查阅:
https://doris.apache.org/zh-CN/docs/2.0/data-operate/export/export-with-mysql-dump

其它问题

❓Q10 apache doris + apachehudi 如何快速搭建?

💡A10 湖仓一体(Data Lakehouse)融合了数据仓库的高性能、实时性以及数据湖的低成本、灵活性等优势,帮助用户更加便捷地满足各种数据处理分析的需求。在过去多个版本中,Apache Doris 持续加深与数据湖的融合,已演进出一套成熟的湖仓一体解决方案。为便于用户快速入门,我们将通过系列文章介绍 Apache Doris 与各类主流数据湖格式及存储系统的湖仓一体架构搭建指南,包括 Hudi、Iceberg、Paimon、OSS、Delta Lake、Kudu、BigQuery 等,欢迎持续关注。
Apache Doris + Apache Hudi 快速搭建指南:
https://mp.weixin.qq.com/s/C2Bje0NrFVyhdQ80ak7nlg

在这里插入图片描述


一臻数据

关于社区

doris_new03.png

Apache Doris 是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。
如果您对 Apache Doris 感兴趣,可以通过以下入口访问官方网站、社区论坛、GitHub和dev邮件组:

💡官方文档

💡社区论坛

💡GitHub

💡dev邮件组:dev@doris.apache.org

非常欢迎您在社区论坛中与其他用户分享您的使用经验和技巧,或者向dev邮件组提交反馈和意见。

相信,您的参与将帮助Apache Doris变得更加完善。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/47712.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

简单工厂、工厂方法与抽象工厂之间的区别

简单工厂、工厂方法与抽象工厂之间的区别 1、简单工厂(Simple Factory)1.1 定义1.2 特点1.3 示例场景 2、工厂方法(Factory Method)2.1 定义2.2 特点2.3 示例场景 3、抽象工厂(Abstract Factory)3.1 定义3.…

【JavaEE-多线程背景-线程等待-线程的六种状态-线程安全问题-详解】

🌈个人主页:SKY-30 ⛅个人推荐:基于java提供的ArrayList实现的扑克牌游戏 |C贪吃蛇详解 ⚡学好数据结构,刷题刻不容缓:点击一起刷题 🌙心灵鸡汤:总有人要赢,为什么不能是我呢 &…

C语言实现冒泡排序

冒泡排序是一种简单的排序算法,它重复地遍历要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。 遍历数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元…

数据包的跨层封装

首先,我们先简单地分析一下数据包的组成结构: 如图 数据包简略地分为以下几层: 二层:封装MAC地址(数据链路层) 三层:封装IP地址 — 表明源IP和目标IP,主要用于路由器之间的信息转发…

【人工智能】Transformers之Pipeline(三):文本转音频(text-to-audio/text-to-speech)

​​​​​​​ 一、引言 pipeline(管道)是huggingface transformers库中一种极简方式使用大模型推理的抽象,将所有大模型分为音频(Audio)、计算机视觉(Computer vision)、自然语言处理&#x…

挖矿宝藏之硬盘分区

目录 一、硬盘分区的相关知识 二、主分区、活动分区、扩展分区、逻辑盘和盘符 三、硬盘分区原因 1.减少硬盘空间的浪费 2.便于文件的分类管理 3.有利于病毒的防治 四、硬盘分区的原则 1.方便性 2.实用性 3.安全性 五、利用Diskpart进行分区 1.命令行工具Diskpart …

ARM体系结构和接口技术(五)封装RCC和GPIO库

文章目录 一、RCC(一)思路1. 找到时钟基地址2. 找到总线的地址偏移(1)AHB4总线(2)定义不同GPIO组的使能宏函数(3)APB1总线(4)定义使能宏函数 二、GPIO&#x…

捷配笔记-混合信号PCB布局设计的基本准则是什么?

混合信号PCB设计需要对模拟和数字电路有基本的了解,以最大限度地减少(如果不能防止的话)信号干扰。现代系统由数字域和模拟域均可操作的组件组成,这些组件必须经过精心设计,以确保整个系统的信号完整性。 在混合信号系…

MySQL学习记录 —— 이십이 MySQL服务器文件系统(2)

文章目录 1、日志文件的整体简介2、一般、慢查询日志1、一般查询日志2、慢查询日志FILE格式TABLE格式 3、错误日志4、二进制日志5、日志维护 1、日志文件的整体简介 中继服务器的数据来源于集群中的主服务。每次做一些操作时,把操作保存到重做日志,这样崩…

vscode+wsl2+anaconda环境的配置与使用

目录 下载anaconda Anaconda使用参考 vscodeubuntuanaconda 先用vscode连接本地ubuntu。 如果没有安装wsl2与ubuntu,可点击下面的链接。 问题:wsl install 无法解析服务器 成功记录: 在vscode终端用ubuntu安装anaconda。 创建pytho…

Spring如何管理Mapper

目录 一、背景二、猜测三、源码查看步骤1、创建MapperScannerConfigurer.java2、MapperScan注解3、MapperScannerRegistrar执行registerBeanDefinitions方法4、MapperScannerConfigurer执行postProcessBeanDefinitionRegistry方法5、执行doscan6、设置beanClass7、使用jdk生成代…

万界星空科技电线电缆MES系统实现线缆全流程追溯

MES系统通过高度集成的数据平台,对电线电缆的生产全过程进行实时监控与记录,从原材料入库开始,到生产过程中的各个关键控制点,再到成品出库,每一步操作都被详细记录并可追溯。这种全流程追溯能力主要体现在以下几个方面…

在组件中显示tuku的照片

一、问题 (1)错误:域名前面一定要加http://要不然会报错 (2)在使用 defineModel传值时一定要动态绑定,要不然图片不显示 (3)改完后在商品列表中显示图片信息必须 在显示的图片中取…

Linux入门笔记(指令)

操作系统是什么? 操作系统是一款做软硬件管理的软件。计算机系统自下而上可以大致分为4部分:硬件、操作系统、应用程序和用户。操作系统管理各种计算机硬件,为应用程序提供基础,并且充当计算机硬件与用户之间的中介。重点&#x…

Mybatis——生命周期和作用域

理解不同作用域和生命周期类别是至关重要的,因为错误的使用会导致非常严重的并发问题。 SqlSessionFactoryBuilder: 一旦创建了 SqlSessionFactory,就不再需要它了。 局部方法变量 SqlSessionFactory: 可以想象为&…

力扣145题:二叉树的后序遍历

给你一棵二叉树的根节点 root ,返回其节点值的 后序遍历 。 示例 1: 输入:root [1,null,2,3] 输出:[3,2,1]示例 2: 输入:root [] 输出:[]示例 3: 输入:root [1] 输出…

C++复习的长文指南

C复习的长文指南 一、入门语法知识1.预备1.1 main函数1.2 注释1.3 变量1.3 常量1.4 关键字1.5 标识符明明规则 2. 数据类型2.1 整型2.1.1 sizeof关键字 2.2 实型(浮点型)2.3 字符型2.4 转义字符2.5 字符串型2.6 布尔类型bool2.7 数据的输入 3. 运算符3.1…

SwiftUI 6.0(Xcode 16)新 PreviewModifier 协议让预览调试如虎添翼

概览 用 SwiftUI 框架开发过应用的小伙伴们都知道,SwiftUI 中的视图由各种属性和绑定“扑朔迷离”的缠绕在一起,自成体系。 想要在 Xcode 预览中泰然处之的调试 SwiftUI 视图有时并不是件容易的事。其中,最让人秃头码农们头疼的恐怕就要数如…

对redis进行深入学习

目录 1. 什么是redis?1.1 为什么使用redis作为缓存?1.1.0 数据库(MySQL)与 redis1. 存储介质不同(408选手应该都懂hh)2. 数据结构优化3. I/O模型差异4. CPU缓存友好性5. 单线程与多线程差异6. 持久化与缓存…

进程的地址空间

一、写个代码见一见地址空间 1、问题 在代码中我们在第五秒时会在子进程中改变全局变量 g_val 但是我们发现了一个奇怪的现象:在子进程中改变 g_val ,由于进程的独立性,所以子进程和父进程的值不一样是可以理解的,但是为什么变量…