背景
Doris 1.0 版本总是出现副本损坏问题,机器资源充足,FE 和 BE 数据足够,每日的数据量一般,但是总是隔三差五出现入库时副本损坏问题。Doris 已经发布了2.0 版本,本周又发布了新版本 2.0.5。升级 Doris 能否解决副本损坏问题呢?本周做了 Doris 的升级及压测,测试程序运行一周,暂时还没有出现副本损坏问题。
本文记录 Doris 2.0.4 集群部署流程及遇到的问题,此外还验证了从 Doris1.0.0 升级到 Doris2.0.4 时数据的迁移过程。
主要内容:
- Doris2.0.4 集群部署流程。
- Be 启动时 Cluster Id 无效问题及解决办法。
- Be 上报磁盘信息失败时,FE 无法识别 Be 而不能创建分区问题。
- Doris1.0.0 升级到 Doris2.0.4 的方法,很简单,部署 2.0.4 之后拷贝 1.0.0 对应角色的数据目录即可。
机器准备
官方文档对环境的要求:
Doris 集群需要的硬件内存和磁盘需要充足,至少 16 G。机器不够,按开发环境,部署 1个 FE 、3 个 BE,Doris 版本 2.0.4 【介质下载两天后又发布了 2.0.5 】:
机器 | 角色 |
---|---|
node A | FE |
node A | BE |
node B | BE |
node C | BE |
机器需要安装 JDK,且内存充足,尽量少部署其他应用。
安装包下载
安装包根据目标机器对 avx2 指令的支持情况分为两种,查看是否支持 avx2 的命令:
cat /proc/cpuinfo |grep avx2
flags 指令集中是否包含 avx2 确定需要下载的名称:
我用的三台机器,有一台支持 avx2,其他两台不支持,需要两个都下载。2.0 的安装包 2.8G,比 1.0 的安装包整整大了一倍,所以找一台配置了 DNS 域名解析的主机后台执行安装包下载操作:
wget -b https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-2.0.4-bin-x64.tar.gzwget -b https://apache-doris-releases.oss-accelerate.aliyuncs.com/apache-doris-2.0.4-bin-x64-noavx2.tar.gz
等待下载完成后,将安装包发送到其他两台机器上。
环境配置
Doris 程序安装之前,需要执行一些操作系统配置信息。
1、设置打开文件数。执行编辑命令 vim /etc/security/limits.conf
,在文件末尾输入:
root soft nofile 65535
root hard nofile 65535
* soft nofile 65535
* hard nofile 65535
* soft nproc 255446
* hard nproc 255446
2、设置系统中每个进程可以拥有的最大内存映射区域数量 ,vi /etc/sysctl.conf
尾部添加:
vm.max_map_count=2000000
3、加载并应用内核,执行 sysctl -p
生效。
4、执行 swapoff -a
命令,关闭系统上的 swap 分区,将其从可用的交换空间中移除。
有一台机器上执行该命令时卡住了,一直没有结果,参考《swapoff -a 卡住问题》 该文然后主要设置 vm.overcommit_memory = 0
后才能执行成功。
后面的启动就比较顺利了。
部署 FE
1、解压安装包并重命名:
tar -xvf apache-doris-2.0.4-bin-x64-noavx2.tar.gz
mv apache-doris-2.0.4-bin-x64-noavx2 doris2.0.4
2、Doris 的默认端口都是未被占用的,使用默认配置就可以。直接启动 FE :
bin/start-fe.sh --daemon
3、MySQL 客户端登录,初始默认密码为空,直接访问,然后修改密码:
mysql -h 192.168.xx.a -P 9030 -uroot -p##修改 doris 用户 root 的密码
SET PASSWORD FOR 'root' = PASSWORD('XXX');
4、查看 FE 信息 show proc ‘/frontends’ \G :
疑惑的地方,前端 Host 信息,这个 IP 不知道是哪里设置的,反正不是 FE 所在主机的地址。
5、FE 的 Web 管理界面访问地址 http://192.168.xx.a:8030/home 。
部署 BE
1、使用默认配置,直接启动 BE :
bin/start-be.sh --daemon
2、鉴于 Doris 太大了,除了 nodeA 机器上同时部署了 FE 和BE,其他俩机器上删除 fe 之外的其他目录以节省空间。
3、BE 加入 FE 集群,MySQL 客户端登录 FE 后,通过命令依次将 nodeA 、nodeB、nodeC 三个节点的 BE 都加入 FE 集群:
ALTER SYSTEM ADD BACKEND "192.168.xx.a:9050";
ALTER SYSTEM ADD BACKEND "192.168.xx.b:9050";
ALTER SYSTEM ADD BACKEND "192.168.xx.c:9050";
show proc '/backends'\G;
注意,集群部署正常的标志并不仅仅是 Alive : true ,还必须能得到 BE 的磁盘资源信息:
如果出现 AvailCapacity 这个属性是 1.00 B 的时候,就需要注意了
,FE 在创建分区的时候就不会将这个 BE 视为正常可用的 backend ,数据库建表语句都会出现异常:
最初部署的时候,以为是部署过程有问题,反复重新部署还是不能创建表分区。又部署了1.0 的版本,都是正常的。最后把 FE 的部署位置换了后,集群配置成功了,终于看到了和 1.0 版本相同的 BE 信息。
BE 通信无效 cluster_id
中途碰到 FE 连接不到 BE 的情况:
这个问题的解决办法是编辑 BE 的 storage 下的 cluster_id 文件中的值改成 FE 发送心跳时的集群 ID,然后重启 BE 就可以了。
至于这个问题是怎么产生的呢,官网是这么解释的:
1.0 升级 2.0 的数据
从 1.0 升级到 2.0 的数据迁移,比我想象的容易一点,直接将 1.0 的 FE 和 BE 的数据目录拷贝到 2.0 对应目录即可。
我验证的时候,数据比较少,只有几百条,升级到 2.0 后数据能正常检索。
启示录
集群部署还是很简单的,后面卡在了建表那,查不到卡了半天,一度怀疑新版本有问题。后面想到在同一台机器上部署 FE 和 BE 测测 1.0 版本,正常;又继续只部署一个 FE 和 BE 的2.0 版本,竟然也正常。
卡了好久的问题,竟然换机器就好了,也挺意外的!今天又碰到了 BE 向 FE 的心跳里面磁盘资源信息为 1.000B 的情况,重启了 BE 后又正常了,还没有细究日志。