HDFS EC文件损坏恢复方法

HDFS EC文件损坏恢复方法

diannao/2025/4/4 13:49:16/文章来源:https://blog.csdn.net/liangrui1988/article/details/140050922

HDFS EC低版本存在许多bug，导致文件损坏，这些bug是在一定的条件下才有机率性的错误重构。

我们当前版本是3.1.1，使用前已修复部署EC patch了，但还是损坏了文件，而且这些文件是无任何提示异常的。是在进行读数据的时候发现数据损坏，这是很严重的问题。

在3.1.1版本中增加了这个补丁，就是在EC重构的时候进行验证，如果验证异常让NN重试。并增加了相关日志输出，根据日志告警和排查问题。[HDFS-15759] EC: Verify EC reconstruction correctness on DataNode - ASF JIRA

如果坏块没有全部损坏，比如RS-3-2-1024K的，只有2个节点损坏，这种情况还是能恢复的。

恢复思路，屏蔽损坏的datanode节点，强制数据从好节点上读取，这里需要用到hdfs api的方式处理，修改了hdfs client的逻辑，增加skip ip参数进行跳过损坏的ip，RS-3-2-1024K 是5x个节点需要for循环所有ip，相关逻辑请看代码。

然后再对文件进行验证，目前我实现了 orc parquet text textGzip的表验证，如果验证到最后，还是不能读取则文件确实损坏了3个节点的数据。

相关代码如下：

https://github.com/liangrui1988/hadoop-client-op/blob/main/src/main/java/com/yy/bigdata/orc/OpenFileLine.java

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/37509.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

从0开始学习pyspark--pyspark的启动模式[第1节]

从0开始学习pyspark--pyspark的启动模式[第1节]

PySpark是Apache Spark的Python API，它能够在分布式计算环境中处理大规模数据。PySpark可以在几种不同的模式下运行，主要包括以下三种： 本地模式（Local Mode）集群模式（Cluster Mode）客户端模式…

阅读更多...

springboot中使用springboot cache

springboot中使用springboot cache

前言：SpringBoot中使用Cache缓存可以提高对缓存的开发效率此图片是SpringBootCache常用注解 Springboot Cache中常用注解第一步：引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId…

阅读更多...

使用ExpandableListView创建可扩展列表

使用ExpandableListView创建可扩展列表

使用ExpandableListView创建可扩展列表大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天我们将深入探讨如何使用Android中的ExpandableListView创建可扩展列…

阅读更多...

【linux】gcc快速入门教程

【linux】gcc快速入门教程

目录一.gcc简介二.gcc常用命令一.gcc简介 gcc 是GNU Compiler Collection（GNU编译器套件）。就是一个编译器。编译一个源文件的时候可以直接使用，但是源文件数量太多时，就很不方便，于是就出现了make 工具二.gcc…

阅读更多...

vue实现鼠标拖动元素把二级分组放入一级分组

vue实现鼠标拖动元素把二级分组放入一级分组

拖动案例demo实现 <template><div><div class"group one-level"><divclass"group-item"v-for"(group, index) in groups":key"group.id"draggable"true"dragstart"dragStart(group, $event)"…

阅读更多...

STM32第十一课：ADC采集光照

STM32第十一课：ADC采集光照

文章目录需求一、ADC概要二、实现流程1.开时钟，分频，配IO2.配置ADC工作模式3.配置通道4.复位校准5.数值的获取三、需求的实现总结需求通过ADC转换实现光照亮度的数字化测量，最后将实时测量的结果打印在串口上。一、ADC概要 ADC全称是A…

阅读更多...

【面试系列】Python 高频面试题

【面试系列】Python 高频面试题

欢迎来到我的博客，很高兴能够在这里和您见面！欢迎订阅相关专栏： ⭐️ 全网最全IT互联网公司面试宝典：收集整理全网各大IT互联网公司技术、项目、HR面试真题. ⭐️ AIGC时代的创新与未来：详细讲解AIGC的概念、核心技术、…

阅读更多...

手机数据恢复篇：如何在Android手机上查找和恢复已删除的文件

手机数据恢复篇：如何在Android手机上查找和恢复已删除的文件

移动设备中的回收站已成为 Android 用户的一项基本功能，它提供了防止意外删除的安全网。与计算机一样，移动回收站会临时存储已删除的文件，允许用户在需要时检索它们。此功能在当今的数字时代特别有用，因为只需轻轻一按&#xff0c…

阅读更多...

SEO与AI的结合：如何用ChatGPT生成符合搜索引擎优化的内容

SEO与AI的结合：如何用ChatGPT生成符合搜索引擎优化的内容

在当今数字时代，搜索引擎优化（SEO）已成为每个网站和内容创作者都必须掌握的一项技能。SEO的主要目标是通过优化内容，使其在搜索引擎结果页面（SERP）中排名更高，从而吸引更多的流量。然而&#xf…

阅读更多...

使用 AutoGen 的 AI 智能体设计模式

使用 AutoGen 的 AI 智能体设计模式

1.Auto Gen框架在Auto中，每种智能体分别扮演不同的角色。 ConversableAgent 作为最高级别的智能体抽象，为所有具体智能体提供了基础的通信能力。这包括发送和接收信息的能力，以及基于这些信息进行内部状态更新的能力。所有从这个类派生的智能体都继承了这些基本功能…

阅读更多...

硬件实用技巧：刚挠板pcb是什么

硬件实用技巧：刚挠板pcb是什么

若该文为原创文章，转载请注明原文出处本文章博客地址：https://hpzwl.blog.csdn.net/article/details/140060334 长沙红胖子Qt（长沙创微智科）博文大全：开发技术集合（包含Qt实用技术、树莓派、三维、OpenCV…

阅读更多...

elasticsearch导出和导入数据

elasticsearch导出和导入数据

这里我使用的是离线操作的方式， 前提：安装了node, 安装elasticdump命令： npm install elasticdump -g 安装成功后进入elasticdump所在的目录： cd /usr/local/nodejs/lib/node_modules/elasticdump/bin 导出目标索引的映射结构…

阅读更多...

Helm部署高可用redis k8s分片集群

Helm部署高可用redis k8s分片集群

安装部署添加bitnami仓库并查找redis helm repo add bitnami https://charts.bitnami.com/bitnami helm repo update [kmning@k8s-register-node ~]$ helm search repo redis NAME CHART VERSION APP VERSION DESCRIPTION bitnami/redis …

阅读更多...

深入浅出：npm 常用命令详解与实践

深入浅出：npm 常用命令详解与实践

在现代的前端开发流程中，npm（Node Package Manager）已经成为了不可或缺的一部分。它不仅帮助我们有效地管理项目中的依赖包，还提供了一系列强大的命令来优化开发体验。在这篇博客中，我们将深入探讨 npm 的常用命令&…

阅读更多...

高频面试题基本总结回顾1（含笔试高频算法整理）

高频面试题基本总结回顾1（含笔试高频算法整理）

干货分享，感谢您的阅读！ （暂存篇---后续会删除，完整版和持续更新见高频面试题基本总结回顾（含笔试高频算法整理）） 备注：引用请标注出处，同时存在的问题请在相关博客留言…

阅读更多...

如何在Java中使用Lambda表达式？

如何在Java中使用Lambda表达式？

如何在Java中使用Lambda表达式？ 大家好，我是免费搭建查券返利机器人省钱赚佣金就用微赚淘客系统3.0的小编，也是冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将探讨如何在Java中使用Lambda表达式。Lambda表…

阅读更多...

qt 可以在一个函数中读一个文件，然后再将内容写入另一个文件中

qt 可以在一个函数中读一个文件，然后再将内容写入另一个文件中

是的，Qt 允许你在一个函数中读取一个文件的内容，并将这些内容写入到另一个文件中。这可以通过结合使用 QFile 和 QTextStream（或 QDataStream，取决于你的具体需求）来实现。以下是一个简单的示例，展示了如何…

阅读更多...

【FFmpeg】avformat_write_header函数

【FFmpeg】avformat_write_header函数

FFmpeg相关记录： 示例工程： 【FFmpeg】调用ffmpeg库实现264软编【FFmpeg】调用ffmpeg库实现264软解【FFmpeg】调用ffmpeg库进行RTMP推流和拉流【FFmpeg】调用ffmpeg库进行SDL2解码后渲染流程分析： 【FFmpeg】编码链路上主要函数的简单分…

阅读更多...

GPT-4o首次引入！全新图像自动评估基准发布！

GPT-4o首次引入！全新图像自动评估基准发布！

目录 01 什么是DreamBench？ 02 与人类对齐的自动化评估 03 更全面的个性化数据集 04 实验结果面对层出不穷的个性化图像生成技术，一个新问题摆在眼前：缺乏统一标准来衡量这些生成的图片是否符合人们的喜好。对此，来自清华大…

阅读更多...

sql server启动、连接与 navicat连接sql server

sql server启动、连接与 navicat连接sql server

一、sql server 启动 1.搜索cmd->以管理员身份运行 2.输入以下命令 net start mssqlserver 3.服务器启动成功二、sql server连接 1.打开ssms，输入，连接 2.右键，属性 3.连接，勾选允许远程连接到此服务器三、navicat连接sq…

阅读更多...

最新文章