OpenMLDB v0.8.4 诊断工具全面升级

新的v0.8.4版本中,我们对于诊断工具进行了全面系统化的升级,以提供更加完整和智能化的诊断报告,有助于高效排查 OpenMLDB 集群问题,大幅提升运维效率。

相比于之前的版本,新的诊断工具增添一键诊断功能,使用openmldb_tool inspect就可以一键诊断集群的健康状态。提供的信息包括XX DetailSummary & Hint两个部分。XX Detail部分提供集群现状信息;Summary & Hint部分总结了重点需要关注的信息点,并且智能提示可能有问题的地方及相应的对策,帮助用户进行集群修复。 一般情况下,Summary & Hint部分的信息足够用户对集群进行对应的修复;对于更棘手的情况,用户可参照XX Detail里的现状信息进行处理,或者向我们提供报告,我们可以更快速地定位集群问题、进行修复指导。诊断工具的具体详情可以参见文档(https://openmldb.ai/docs/zh/main/maintain/diagnose.html)。 接下来我们简单演示如何使用一键诊断功能来查看集群状态以及如何快速解决常见问题。

报告讲解与演示

以OpenMLDB Demo镜像为例,启动OpenMLDB集群。一键诊断后,用户可以直接检查末尾的Summary & Hint报告总结章,它将总结整个集群的状态,包括Server是否在线,和Table是否健康。

健康状态

绿色提示Server均在线和Table均健康,是正常的状态。
file

异常状态

如果某台Tablet Server掉线了,总结将提示:
file

Server异常状态

报告中,我们首先看到“offline servers”,报告提示我们需要先重启它们。除非该节点是无数据的,其他任何情况,请优先恢复下线server节点,再对表的健康情况进行诊断。

Table异常状态

我们已经将下线server恢复,再次诊断集群,报告如下图所示。此时仍存在不健康的表。状态有两种:

  • 红色Fatal状态,说明此时表处于危险状态,可能会读写失败,需要立即处理。
  • 黄色Warn状态,说明表的主分片都在活动中,读写是可以的,但也请及时处理,只是没有Fatal紧急。

file
请注意这些表虽然仍然不健康,但它们有一些关联的后台OP正在执行。它们是集群自动发起的修复,用户此时不需要手动修复,需要等待后台OP完成。一般情况下,集群自动修复完成后,一键诊断会显示集群已健康。

Table特别异常状态

在实际的运维过程中,可能因为一些意外情况,导致类似下图的情况。Table处于异常状态且并没有后台OP正在运行,它意味着集群并未触发自动修复或修复已经失败。
file
这时候,就需要用户手动操作了,根据报告末尾的提示链接进行recoverdata。如果recoverdata提示成功,可再次一键诊断,确认集群已恢复健康。

详细报告

对于更棘手的情况,我们可以通过报告中的Detail部分来对当前集群进行分析。

Table Partition Detail

Table Partition Detail部分可以让我们直观地了解各个表现在处于什么样的状态。每个Partition分片的主从副本位于哪台Tablet,副本本身是什么状态,都有清晰的展示。结合Example,我们可以看到,一个分片pX代表其分片id,各个副本在Tablet Server上是元信息丢失,还是信息异常等。
file

Ops Detail

Ops Detail可以提示我们集群当前的后台情况,是否自动修复失败等。我们可以通过最后一个OP的时间和最后10个非完成OP的详细状态,来判断集群是未触发自动修复,还是正在修复,或者是修复已失败,或者是部分表修复失败。

提供报告

用户如果通过以上流程,仍无法修复集群,请向我们提供Detail部分的信息,我们可以更快速地定位集群问题、进行修复指导。

相关阅读

  • OpenMLDB 官网: https://openmldb.ai/
  • OpenMLDB GitHub 主页: https://github.com/4paradigm/OpenMLDB
  • OpenMLDB 文档: https://openmldb.ai/docs/zh/
  • OpenMLDB 微信交流群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/166094.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

首个央企量子云计算项目,中标!

6月29日,北京玻色量子科技有限公司(简称“玻色量子”)成功中标中国移动云能力中心“2023—2024年量子算法及光量子算力接入关键技术研究项目”,这是玻色量子继与移动云签订“五岳量子云计算创新加速计划”后🔗&#xf…

杰发科技AC7801——EEP内存分布情况

简介 按照文档进行配置 核心代码如下 /*!* file sweeprom_demo.c** brief This file provides sweeprom demo test function.**//* Includes */ #include <stdlib.h> #include "ac780x_sweeprom.h" #include "ac780x_debugout.h"/* Define …

Python,FastAPI,mLB网关,无法访问/docs

根源就是js和ccs文件访问路由的问题&#xff0c;首先你要有本地的文件&#xff0c;详情看https://qq742971636.blog.csdn.net/article/details/134587010。 其次&#xff0c;你需要这么写&#xff1a; /unicontorlblip就是我配置的mLB网关路由。 app FastAPI(titleoutpaint…

【力扣:421,2935】数组内最大异或对问题

思路&#xff1a;从最高位向低位构造&#xff0c;对每一位利用哈希表寻找是否存在可使此位为1的数 第一轮找1&#xff1a;清空哈希表&#xff0c;1&#xff0c;2存1&#xff0c;到3发现1^01&#xff0c;res|1<<3 第二轮找11&#xff1a;清空哈希表&#xff0c;1存10&…

如何开发洗鞋店用的小程序

随着人们生活水平的提高&#xff0c;洗护行业是越来越细分化了&#xff0c;从最开始的干洗店包含洗护行业的所有服务到现在有专门为洗鞋开的店&#xff0c;如果开发一款洗鞋店用的小程序&#xff0c;可以实现用户在家下单直接有人上门取鞋的话&#xff0c;应该如何去开发呢&…

将 Spring 微服务与 BI 工具集成:最佳实践

软件开发领域是一个不断发展的领域&#xff0c;新的范式和技术不断涌现。其中&#xff0c;微服务架构和商业智能&#xff08;BI&#xff09;工具的采用是两项关键进步。随着 Spring Boot 和 Spring Cloud 在构建强大的微服务方面的普及&#xff0c;了解这些微服务如何与 BI 工具…

11-@Transaction与AOP冲突解决

如题&#xff0c;最近碰到了一个问题&#xff0c;在public方法上添加Transaction没有生效&#xff0c;事务没有回滚。 我自己模拟了一个功能&#xff0c;向数据库表User里面插入用户数据。说一下代码背景&#xff0c; 数据库MySQL&#xff0c;持久化层Mybatis&#xff0c;项目使…

Vue3(setup)中使用vue-cropper图片上传裁剪插件,复制代码直接使用

最近在项目中用到上传裁剪&#xff0c;看了一下代码&#xff0c;觉得这插件可可以。梳理了一下代码分享给大家 前端UI组件element-plus 如果你也用到了 &#xff0c;快速帮你解决了问题,别忘记点赞收藏 1.首先看效果图 因为版本vue-cropper 众多 &#xff0c;虽然网上有各…

阿里云windwos 安装oracle数据库,外部用工具连接不上,只能在服务器本机通过127.0.0.1 连接

1. 首先检查阿里云服务器安全组端口是否开放 oracle 数据库端口 2. 其次找到oracle 安装的目录&#xff0c;打开这俩个文件&#xff0c;将localhost 修改为 服务器本机名称 3.重启oracle 监听服务&#xff0c;就可以连接了

技术部工作职能规划分析

前言 技术部的职能。以下是一个基本的框架,其中涵盖了技术部在公司中的关键职能和子职能。 主要职能 技术部门的主要职能分为以下几个板块: - 技术规划与战略: 制定技术规划和战略,与业务团队合作确定技术需求。 研究和预测技术趋势,引领公司在技术创新和数字化转型方…

基于springboot实现智慧党建系统项目【项目源码】计算机毕业设计

基于springboot实现智慧党建系统演示 Java技术 Java是由Sun公司推出的一门跨平台的面向对象的程序设计语言。因为Java 技术具有卓越的通用性、高效性、健壮的安全性和平台移植性的特点&#xff0c;而且Java是开源的&#xff0c;拥有全世界最大的开发者专业社群&#xff0c;所以…

【Unity细节】Unity中为什么用字符串加载对象,检查多便都加载不出来—(命名细节)

&#x1f468;‍&#x1f4bb;个人主页&#xff1a;元宇宙-秩沅 hallo 欢迎 点赞&#x1f44d; 收藏⭐ 留言&#x1f4dd; 加关注✅! 本文由 秩沅 原创 &#x1f636;‍&#x1f32b;️收录于专栏&#xff1a;unity细节和bug &#x1f636;‍&#x1f32b;️优质专栏 ⭐【…

【Python】itertools模块,补充:可迭代对象、迭代器

Python中 itertools模块创建高效迭代器、处理序列数据集。 此模块所有函数返回迭代器&#xff0c;可用for循环获取迭代器中的内容&#xff0c;也可用list(...)用列表形式显示内容。 import itertools[ x for x in dir(itertools) if not x.startswith(_)] # 结果&#xff1a;…

什么是网络爬虫技术?它的重要用途有哪些?

网络爬虫&#xff08;Web Crawler&#xff09;是一种自动化的网页浏览程序&#xff0c;能够根据一定的规则和算法&#xff0c;从互联网上抓取和收集数据。网络爬虫技术是随着互联网的发展而逐渐成熟的一种技术&#xff0c;它在搜索引擎、数据挖掘、信息处理等领域发挥着越来越重…

通俗理解词向量模型,预训练模型,Transfomer,Bert和GPT的发展脉络和如何实践

最近研究GPT&#xff0c;深入的从transfomer的原理和代码看来一下&#xff0c;现在把学习的资料和自己的理解整理一下。 这个文章写的很通俗易懂&#xff0c;把transformer的来龙去脉&#xff0c;还举例了很多不错的例子。 Transformer通俗笔记&#xff1a;从Word2Vec、Seq2S…

6 个有效且可用的顶级 Android 数据恢复工具

经过测试 42 种数据恢复软件产品&#xff0c;发现奇客数据恢复安卓版是 Android 设备的最佳选择。 过去几十年来&#xff0c;我一直在科技行业工作&#xff0c;经常帮助人们应对计算机灾难&#xff0c;包括丢失数据。 Android 数据恢复应用程序不在您的设备上运行&#xff0c…

IDEA中注释快捷键及模板

单行注释 将光标放置于要注释所在行&#xff0c;使用 Ctrl /&#xff0c; 添加行注释&#xff0c;再次使用&#xff0c;去掉行注释 若需要将多行进行单行注释&#xff0c;只需要选中要注释的多行&#xff0c;然后使用 Ctrl /&#xff0c; 添加行注释&#xff0c;再次使用&a…

聚焦数据要素跨域运营,构建数据要素统一大市场地方数据局局长闭门会正式召开

11月23日&#xff0c;在第二届全球数字贸易博览会期间&#xff0c;杭州市数据资源局、中国电子云、杭州数据交易所联合组织各地数据主管部门&#xff0c;召开构建数据要素统一大市场地方数据局局长闭门会&#xff0c;交流数据要素统一大市场构建思路&#xff0c;共探公共数据运…

基于springboot实现农机电招平台系统项目【项目源码+论文说明】

基于springboot实现农机电招平台系统演示 摘要 随着农机电招行业的不断发展&#xff0c;农机电招在现实生活中的使用和普及&#xff0c;农机电招行业成为近年内出现的一个新行业&#xff0c;并且能够成为大群众广为认可和接受的行为和选择。设计农机电招平台的目的就是借助计算…

软件开发中对图片的加工处理的一些个人思考和总结

前言&#xff1a; 最近在公司做项目的时候&#xff0c;有一个业务场景就是同一张图片&#xff0c;在不同的位置上展示的效果是不一致的&#xff0c;其实理解起来也很简单&#xff0c;就以大家熟悉的微信头像而言&#xff0c;我们在正常使用的情况下&#xff0c;一个微信头像的大…