大数据之数据抽取架构演变过程

架构演变之Flink架构的演变过程

     一、 起初搭建整个大数据平台是基于CDH这一套资源管理和整合的CM资源管理器搭建的

     整个平台包括了: HDFS,YARN,HIVE,zoozie,FLINK,Spark,Zookeeper等组件搭建而成,

   

刚开始搭建的时候,所有的资源管理都是依靠YARN进行资源的管理,调度和任务的查看,

而当时我们搭建的Flink集群是基于YARN进行资源管理和调度的,因为YARN中不仅仅包含着FLInk的资源,也有hive,zoozie,hdfs等等的资源,这样容易造成yarn资源的过度使用,容易引起整个底座的cpu以及内存的使用问题,经过排查,主要是由于FLink的使用资源引起的,所以后续就把Flink从整个集群中剥离出来,进行资源的隔离,最后Flink采用了StandAlone HA部署(但是这个目前还是存在问题,后续根据项目进行优化)

参考: FlinkHA 高可用集群部署

二、数据抽取架构的演变

    

  直接用FLinkCDC抽取任务,会导致源端数据库的cpu和内存急速上升以至于宕机

采用ogg的方式,本质上是由源端库自动触发变化和全量数据,解决了上面的问题

在抽取的过程中遇到的问题:

  1.ogg推送数据的数据格式:

  

如果不是这种格式,导致kafka消费数据,没有数据

2.

create table if not exists xxx(

    `ID` DECIMAL(19,0),

     XXXX,

   primary key(ID) not enforced

) with (

    'connector' = 'kafka',

    'topic' = '表名',

    'properties.bootstrap.servers' = '10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092,10.100.XXX.XXXX:9092',

    'scan.startup.mode' = 'earliest-offset',

    'properties.group.id' = 'xxx',

    'format' = 'ogg-json'

);

注意这个format,一定是那种形式推送,采用那种形式的格式化json

3.注意源端数据库子段类型(根据字段数据值的大小,决定属于那种类型) 

flink ogg官网:

 Ogg | Apache Flink

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/47821.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

面试问题:React基本概念,和所遇到的CPU和IO问题

在官方文档里面可以看见React基本设计概念,React是用 JavaScrip构建快速响应的大型Web应用程序的首选方式,但是快速响应用一定的是依赖,CPU的性能和IO的约束。 首先CPU性能原因:大部分浏览器的刷新频率为60HZ,及16.6ms…

golang 基础 泛型编程

(一) 示例1 package _caseimport "fmt"// 定义用户类型的结构体 type user struct {ID int64Name stringAge uint8 }// 定义地址类型的结构体 type address struct {ID intProvince stringCity string }// 集合转列表函数&#…

java内存回收

要回收哪些地方的内存:虚拟机堆、元空间(持久代 -常量池、类名、方法名、字段) 确认哪些对象可以被回收:引用计数法 、 可达性分析法(gcroot) 回收方法:标记清除法(产生碎片&#…

第十届能源材料与电力工程国际学术会议(ICEMEE 2024)

第十届能源材料与电力工程国际学术会议(ICEMEE 2024) 2024 10th International Conference on Energy Materials and Electrical Engineering 重要信息 ICEMEE 2024已通过SPIE - The International Society for Optical Engineering (ISSN: 0277-786X)单独出版…

【深度学习】fooocusapi,docker,inpainting图像

基础镜像制作来源 fooocusapi接口官方写的: docker run -d --gpusall \-e NVIDIA_DRIVER_CAPABILITIEScompute,utility \-e NVIDIA_VISIBLE_DEVICESall \-p 8888:8888 konieshadow/fooocus-api会下载一些模型,下载完后推这个镜像 docker commit 4dfd1…

typer 模块与装饰器

当使用 Typer 模块时,可以创建一个简单的命令行应用程序示例。以下是一个使用 Typer 创建的示例: import typerapp typer.Typer()app.command() def greet(name: str):typer.echo(f"Hello, {name}!")app.command() def answer(name: str):ty…

Linux入门以及Linux文件编程学习

Linux学习必备 首先我们学习Linux必须安装一个虚拟机,我是跟着韦东山老师安装的,具体可以跟着视频操作,简单易懂:安装虚拟机 Linux入门最基本简单的指令 一、Vi的使用 Vi文件名 创建或者打开一个文件,进入默认命令行…

notes for datawhale summer camp NPL task3

了解 Transformer 模型,并基于 Transformer 模型实现在机器翻译任务上的应用! Transformer 介绍 基于循环或卷积神经网络的序列到序列建模方法是现存机器翻译任务中的经典方法。然而,它们在建模文本长程依赖方面都存在一定的局限性。 为了…

Java多线程游戏——坦克大战

一.游戏登陆界面 package TankFight;import javax.swing.*; import java.awt.*;public class GameUI {public void initUI() {JFrame jf new JFrame();jf.setSize(1100, 900);//设置窗口大小jf.setTitle("坦克大战" );//设置窗口标题jf.setLocationRelativeTo(null…

[PM]产品运营

生命周期 运营阶段 主要工作 拉新 新用户的定义 冷启动 拉新方式 促活 用户活跃的原因 量化活跃度 运营社区化/内容化 留存 用户流失 培养用户习惯 用户挽回 变现 变现方式 付费模式 广告模式 数据变现 变现指标 传播 营销 认识营销 电商营销中心 拼团活动 1.需求整理 2.…

大数据之路 读书笔记 Day7 实时技术 简介及流式技术架构

回顾: Day6 离线数据开发之数据开发平台Day5 数据同步遇到的问题与解决方案 1. 简介 阿里巴巴在流式数据处理方面采用了多种技术和框架,这些技术的特点包括: 高可伸缩性: 阿里巴巴使用Apache Flink进行大规模数据处理&#xff0c…

docker 容器内安装pdo_mysql扩展

1. 首先确定php配置文件(php.ini)打开了pdo_mysql注释。(php.ini位置:运行容器时挂载文件时,指定的php.ini位置) 2. 进入倒php容器内:docker exec -it 容器名 bash 3. 确认php扩展目录没有pdo…

Springboot项目远程部署gitee仓库(docker+Jenkins+maven+git)

创建仓库 创建一个Springboot项目,勾选web将该项目创建git本地仓库,再创建远程仓库推送上去 创建TestController RestControllerRequestMapping("/test")public class TestController {GetMapping("/hello")public String sayHell…

6.Kafka Acks详解

目录 概述Replication(分区副本)In-sync replicasAcknowledgementsacks0acks1acksallAck实用建议Minimum in-sync replicaCaveat(警告) 概述 本文对 kafka 的一些核心概念进行解释,也是 kafka 需要调优的一些地方。 官方原文速递 Replication(分区副本) 对于每个分…

如何识别Android init 中的缓慢操作

Android 14 开机时间优化措施汇总-CSDN博客 Android 14 开机时间优化措施-CSDN博客根据systrace报告优化系统时需要关注的指标和优化策略-CSDN博客Android系统上常见的性能优化工具-CSDN博客Android上如何使用perfetto分析systrace-CSDN博客Android系统设置kernel log level的…

222.买卖股票的最佳时机(力扣)

代码解决 class Solution { public:int maxProfit(vector<int>& prices) {// 初始化最小买入价为第一个价格int min1 prices[0];// 初始化最大利润为0int max1 0;// 从第二天开始遍历价格数组for (int i 1; i < prices.size(); i) {// 计算当前价卖出的利润&a…

windows edge自带的pdf分割工具(功能)

WPS分割pdf得会员&#xff0c;要充值&#xff01;网上一顿乱找&#xff0c;发现最简单&#xff0c;最好用&#xff0c;免费的还是回到Windows。 Windows上直接在edge浏览器打开PDF&#xff0c;点击 打印 按钮,页面下选择对应页数 打印机 选择 另存为PDF&#xff0c;然后保存就…

硬件开发——UART/I2C/SPI协议

硬件开发——UART/I2C/SPI协议 小狼http://blog.csdn.net/xiaolangyangyang 1、UART 电压&#xff1a; TTL电平&#xff1a;1&#xff1a;&#xff08;3.3V~5V&#xff09;&#xff0c;0&#xff1a;&#xff08;0V&#xff09;RS232电平&#xff1a;1&#xff1a;&#xff0…

【C++题解】1212. 移动数组元素

问题&#xff1a;1212. 移动数组元素 类型&#xff1a;数组找数 题目描述&#xff1a; 在一个不重复的数组中&#xff0c;请将这个数组的最小数和数组第一个数交换&#xff0c;最大数和数组最后一个数交换。 输入&#xff1a; 第一行有一个整数 n ( 5≤n≤100 &#xff09;…

Windows 11登录密码遗忘后如何在登录

在现代社会中&#xff0c;随着信息技术的迅猛发展&#xff0c;计算机操作系统如Windows 11已经成为我们日常生活和工作中不可或缺的一部分。然而&#xff0c;有时我们可能会遇到忘记登录密码的尴尬情况。为了帮助大家解决这个问题&#xff0c;本文将详细讲解如何快速破解Window…