我的大数据之路 - 关于大数据平台上任务管理的思考

本文于2019年7月16日完成,发布在个人博客网站上。


作业,比如提交一个hive脚本到计算平台上运行,这个脚本宏观上称为一个作业。
任务,比如mapper,reducer等。
资源,比如CPU时间,内存,硬盘IO,网络IO,墙钟等。

期望计算平台提供的信息,比如:

  1. 当前有哪些作业在运行。
  2. 作业占用的资源。
  3. 作业总共使用了哪些运算节点。
  4. 指定的作业使用了哪些节点,分别占用了多少资源。
  5. 每个节点上分配了哪些任务,分别占用了多少资源。
  6. 每个作业有多少stage,分别有多少任务,各占用多少资源。
  7. 各分类的排名。
  8. 各个mapper,reducer读入的数据量,输出的数据量。
  9. 数据表的访问频率,访问数据量。
  10. SQL的执行计划。

监控和通知,比如:

  1. 针对上述信息,例行发送指标值。
  2. 针对上述信息,定义阈值,当超出阈值,发送给指定的群组。
  3. 针对上述信息,提供趋势图,供指定人查看。
  4. 运行时占用资源多的作业,执行计划,输入数据量,输出数据量等。

日常工作中需要回答的问题:

  1. 计算平台的资源使用情况,有什么变化,变化趋势怎么样。
  2. 计算平台的资源使用情况是否合理。
  3. 计算平台是否需要扩容。
  4. 任务的数量,近期是否有什么变化。
  5. 任务处理的数据量,输出的数据量,是否有什么变化,变化的特点是什么,是否合乎业务特点。
  6. 任务占用的资源,是否有什么变化,变化的特点是什么。
  7. 任务运行时,stage,mapper,reducer的数量,使用的资源等,是否有什么变化,变化的特点是什么。
  8. 对于给定的某个作业,占用的资源是否充足或者过多。
  9. 对于给定的某个作业,对应的代码,是否需要优化,优化空间有多大。

分配资源的原则,充分利用资源,比如:

  1. 重点业务,优先保障。
  2. 非重点业务,合理安排调度启动时间,控制等待时间和墙钟时间。
  3. 监测资源瓶颈,避免争用。
  4. 制定扩容计划,及时实施。

有了上述数据,就有了调整资源的依据,减少无效的沟通,提高生活质量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/620606.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

28 星际旋转

效果演示 实现了一个太阳系动画,其中包括了地球、火星、金星、土星、水星、天王星、海王星以及火卫二号等行星的动画效果。太阳系的行星都被放在一个固定的容器中,并使用CSS动画来实现旋转和移动的效果。当太阳系的行星绕着太阳运行时,它们会…

PHP运算符汇总

⭕️前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家(点击跳转到网站)⭕️ 一、算数运算符 基础理解 加减乘除、求余数、整数除法&#xff08;向下取整&#xff09;、字符串拼接等 <?php $x10; $y…

电子学会C/C++编程等级考试2021年09月(四级)真题解析

C/C++编程(1~8级)全部真题・点这里 第1题:最佳路径 如下所示的由正整数数字构成的三角形: 7 3 8 8 1 0 2 7 4 4 4 5 2 6 5 从三角形的顶部到底部有很多条不同的路径。对于每条路径,把路径上面的数加起来可以得到一个和,和最大的路径称为最佳路径。你的任务就是求出最佳路径…

Rust-trait

Rust语言中的trait是非常重要的概念。 在Rust中&#xff0c;trait这一个概念承担了多种职责。在中文里&#xff0c;trait可以翻译为“特征”“特点”“特性”等。 成员方法 trait中可以定义函数。用例子来说明&#xff0c;我们定义如下的trait: 上面这个trait包含了一个方法…

【C++入门到精通】智能指针 [ C++入门 ]

阅读导航 引言一、什么是智能指针二、为什么需要智能指针三、内存泄漏1. 什么是内存泄漏&#xff0c;内存泄漏的危害2. 内存泄漏的示例&#xff0c;以及解决方法3. 内存泄漏分类&#xff08;1&#xff09;堆内存泄漏(Heap leak)&#xff08;2&#xff09;系统资源泄漏 4. 如何检…

FFmpeg 的使用与Docker安装流媒体服务器

本文阐述的均为命令行的使用方式&#xff0c;并不牵扯FFmpeg 的 C音视频开发内容&#xff0c;补充一句&#xff0c;C的资料真的少&#xff0c;能把C学好的人&#xff0c;我真的是觉得巨佬。 我主要是使用FFmpeg 推流方面的知识&#xff0c;案例大都是靠近这方面。 一、FFmpeg…

常用Java代码-Java中的并发集合(ConcurrentHashMap、CopyOnWriteArrayList等)

在Java中&#xff0c;并发集合是一组为多线程环境设计的集合类&#xff0c;它们提供了线程安全的操作。这些集合类包括ConcurrentHashMap&#xff0c;CopyOnWriteArrayList等。以下是对这两个类的一个简单的代码解释。 1.ConcurrentHashMap ConcurrentHashMap是Java并发包jav…

如何在“Microsoft Visual Studio”中使用OpenCV构建应用程序

我在这里描述的所有内容都将应用于 OpenCV 的界面。我首先假设您已经阅读并成功完成了 Windows 中的安装教程。因此&#xff0c;在进一步操作之前&#xff0c;请确保您有一个包含 OpenCV 头文件和二进制文件的 OpenCV 目录&#xff0c;并且您已按照此处所述设置环境变量 设置 O…

迅腾文化用网络集成化生态系统助力品牌之路的坚实后盾

商业竞争激烈&#xff0c;品牌不仅是企业的标志和形象&#xff0c;更是其核心价值和竞争力的体现。然而&#xff0c;企业在品牌推广过程中面临着诸多如缺乏有效的渠道管理、品牌形象模糊以及竞争激烈的市场环境等。这些阻碍着企业的品牌发展和市场占有率的提升。本文将通过企业…

C语言辨析——深入理解格式字符的用法

1. 问题 下面程序为什么的输出结果为什么不是25而是0&#xff1f;问题出在哪&#xff1f; #include <stdio.h> #include <math.h> int main() {int a3,b4; printf("%d\n",pow(a,2)pow(b,2)); return 0; } 2. 分析 函数pow的返回类型是double&…

双周赛121(模拟、位运算、BFS、数位DP上下界)

文章目录 双周赛121[2996. 大于等于顺序前缀和的最小缺失整数](https://leetcode.cn/problems/smallest-missing-integer-greater-than-sequential-prefix-sum/)模拟 [2997. 使数组异或和等于 K 的最少操作次数](https://leetcode.cn/problems/minimum-number-of-operations-to…

线上剧本杀小程序搭建,未来线上剧本杀有哪些发展优势?

剧本杀游戏是当下比较流行的一种新型游戏模式&#xff0c;它能够让玩家在游戏中进行角色扮演&#xff0c;体验不同的角色人生&#xff0c;沉浸式玩游戏&#xff0c;因此受到了众多年轻人的喜欢。随着互联网科技的发展&#xff0c;剧本杀的发展也转型到了互联网上&#xff0c;为…

爬虫—抓取表情党热门栏目名称及链接

爬虫—抓取表情党热门栏目名称及链接 表情党网址&#xff1a;https://qq.yh31.com/ 目标&#xff1a;抓取表情党主页的热门栏目名称及对应的链接&#xff0c;如下图所示&#xff1a; 按F12&#xff08;谷歌浏览器&#xff09;&#xff0c;进入开发者工具模式&#xff0c;进行…

【打卡】牛客网:BM84 最长公共前缀

自己写的&#xff1a; 题目要求时间复杂度是o(n*len)&#xff0c;说明可以遍历所有的字符。 空间复杂度o(1)&#xff0c;说明不能用字符串存储公共前缀&#xff0c;所以用下标来记录。 调试过程&#xff1a; 大概花了20min。 我调试前的做法是&#xff0c;在while循环中&…

网络设备远程运维管理解决方案

在当今高度信息化的时代&#xff0c;网络设备远程运维管理已成为企业运营中的一项核心任务。随着设备数量不断增加&#xff0c;分布日益广泛&#xff0c;传统的现场维护方式已无法满足企业对效率和经济性的需求。如何寻找一种高效、便捷的设备远程运维管理系统&#xff0c;已成…

【WPF.NET开发】文档批注

本文内容 便笺要点数据锚定匹配批注与批注对象 在纸质文档上编写说明或注释毫不稀奇&#xff0c;我们几乎认为这是理所当然的。 这些说明或注释就是“批注”&#xff0c;我们将其添加到文档&#xff0c;用于标注信息或突出显示兴趣项以供日后参考。 虽然在打印文档上编写注释…

c++语言基础21-图形的面积(面向对象)

21 图形的面积 题目描述 考虑一个简单的图形类层次结构&#xff0c;包括基类 Shape 和两个派生类 Rectangle 和 Circle。每个类都有一个用于计算面积的方法。你的任务是编写一个程序&#xff0c;根据输入数据创建一个图形对象&#xff0c;然后计算并输出其面积。 输入描述 输…

大数据StarRocks(七):数据表创建

1. 基本概念 1.1 Row & Column 一张表包括行&#xff08;Row&#xff09;和列&#xff08;Column&#xff09;。Row 即用户的一行数据。Column 用于描述一行数据中不同的字段。 ⚫ 在默认的数据模型中&#xff0c;Column 只分为排序列和非排序列。存储引擎会按照排序列对…

RK3568笔记八: Display子系统

modetest 是由 libdrm 提供的测试程序&#xff0c;可以查询显示设备的特性&#xff0c;进行基本的显示测试&#xff0c;以及设置显示的模式。 我们可以借助该工具来学习 Linux DRM 应用编程&#xff0c;另外为了深入分析 Rockchip DRM driver&#xff0c;有必要先了解一下这个…

Hive基础知识(十三):Hive的Group by语句与Having语句

1. Group By 语句 GROUP BY 语句通常会和聚合函数一起使用&#xff0c;按照一个或者多个列队结果进行分组&#xff0c;然后对每个组执行聚合操作。 1&#xff09;案例实操&#xff1a; &#xff08;1&#xff09;计算 emp 表每个部门的平均工资 hive (default)> select de…