【运维实践项目|001】:高可用性云基础设施部署与升级项目

目录

项目名称

项目背景

项目目标

项目成果

我的角色与职责

我主要完成的工作内容

本次项目涉及的技术

本次项目遇到的问题与解决方法

本次项目中可能被面试官问到的问题

1、什么是ELK?

2、什么是Elasticsearch、Logstash 和Kibana?

3、ELK 三个组件 如何协同工作?

4、你们公司采用的虚拟化平台是哪一个?

5、你们本次项目共多少人?

6、你们本次项目共使用了多少台虚拟机,配置分别是什么样的?

经验教训与自我提升

展望未来


项目名称

项目简称或代号:CUO(这个可以自己随便编一个,每个公司的每个项目简称或代号都是内部任意起名的,显得专业一点,一般是项目关键词的首拼,比如这个CUO是:comprehensive upgrade and optimization)

项目全名:高可用性云基础设施部署与升级项目

项目背景

随着公司业务的迅速扩张,对数据中心的可靠性和性能要求越来越高。为了应对这一挑战,公司决定对现有的IT基础设施进行升级,构建一个基于云计算的高可用性平台。作为运维团队的一员,我深度参与了这一项目的规划、实施和优化工作。

项目目标

  1. 构建一个稳定、可靠、可扩展的云计算平台,支持公司业务的快速增长。

  2. 实现自动化部署和监控,提高运维效率。(比如日志监控采用ELK,服务器性能及网络流量等监控采用Prometheus+grafana监控,对于这两个监控平台的部署和相面试官考察时候只需要能大概说一下这两个监控平台的原理、功能就可以了)

  3. 优化系统性能,确保关键业务应用的稳定运行。

项目成果

  1. 成功构建了一个基于云计算的高可用性平台,为公司业务的快速增长提供了有力支持。

  2. 实现了自动化部署和监控,提高了运维效率,降低了人力成本。

  3. 通过对系统性能的优化,确保了关键业务应用的稳定运行,提高了客户满意度。

我的角色与职责

  1. 需求分析:与业务团队紧密合作,了解业务需求和技术要求,为云平台的规划和设计提供有力支持。

  2. 架构设计:参与云平台的整体架构设计,包括网络、存储、计算和安全等方面的规划。

  3. 系统部署:负责云平台的搭建和部署工作,包括虚拟化环境的配置、操作系统的安装、应用软件的部署等。

  4. 自动化脚本编写:编写自动化脚本,实现服务器的批量部署、配置和更新,提高运维效率。

  5. 监控与告警:配置和管理监控系统,实时监控云平台的运行状态,及时发现并处理潜在问题。同时,设置告警机制,确保关键业务应用的稳定运行。

  6. 性能优化:分析系统性能瓶颈,制定优化方案并实施,提高系统的整体性能。

  7. 文档编写:编写运维手册、操作指南等文档,为团队成员提供技术支持和参考。

我主要完成的工作内容

  1. 需求分析与文档编写

    • 与业务团队和开发团队进行深入沟通,明确业务需求和技术要求。

    • 编写项目需求文档,明确项目目标、范围、时间表和关键里程碑。

  2. 云平台架构设计

    • 根据业务需求和技术要求,设计云平台的整体架构,包括网络、存储、计算和安全等方面的规划。

    • 制定详细的架构图和设计文档,为后续的部署和运维提供指导。

  3. 系统部署与配置

    • 负责云平台的服务器、网络设备和存储设备的部署和配置工作。

    • 安装和配置虚拟化环境,包括虚拟机管理器和虚拟机模板的创建。

    • 部署操作系统和应用软件,并进行必要的配置和优化。

  4. 自动化脚本编写

    • 编写自动化脚本,实现服务器的批量部署、配置和更新。

    • 开发自动化监控和告警脚本,确保系统稳定运行。

  5. 性能监控与优化

    • 配置和管理监控系统,实时监控云平台的运行状态和性能指标。

    • 分析系统性能瓶颈,制定优化方案并实施,如调整系统参数、优化数据库查询等。

  6. 文档编写与技术支持

    • 编写运维手册、操作指南等文档,为团队成员提供技术支持和参考。

    • 参与内部培训和知识分享活动,提升团队整体技能水平。

本次项目涉及的技术

  1. 虚拟化技术:使用VMware或KVM等虚拟化技术搭建和管理虚拟机环境。

  2. 自动化工具:利用Ansible、Shell脚本等实现自动化部署、配置和监控。

  3. 监控工具:使用Zabbix、Prometheus等监控工具实时监控系统的运行状态和性能指标。

  4. 存储技术:涉及NFS、SAN、NAS等存储技术的配置和管理。

  5. 网络技术:包括VLAN、VPN、负载均衡等网络技术的配置和优化。

(关于这些技术知识点,只需要网上搜索各个技术点的基本原理等就可以了。面试官提问时候能回答上个一二三基本就差不多了,面试官也不会深入提问的,如果有些技术被提问了你不会回答,就说这一部分工作内容是另一个同事做的)

本次项目遇到的问题与解决方法

  1. 问题:虚拟机性能不足,影响业务应用运行。

    • 解决方法:调整虚拟机资源配置,如增加CPU、内存和存储资源。同时,对虚拟机进行优化,如关闭不必要的服务和应用,减少资源消耗。

  2. 问题:监控系统告警频繁,导致误报率较高。

    • 解决方法:对监控系统的阈值进行调整和优化,减少误报率。同时,对告警进行分类和优先级划分,确保重要告警能够及时得到处理。

  3. 问题:自动化脚本执行失败,导致部署和配置失败。

    • 解决方法:对自动化脚本进行调试和修改,确保脚本的正确性和健壮性。同时,对执行环境进行排查和修复,确保脚本能够正常运行。

  4. 问题:网络延迟较高,影响业务应用性能。

    • 解决方法:对网络设备和配置进行排查和优化,如调整路由策略、优化网络带宽等。同时,与网络团队紧密合作,确保网络环境的稳定性和可靠性。

  5. 问题:存储资源不足,无法满足业务需求。

    • 解决方法:扩展存储资源,如增加存储设备、优化存储架构等。同时,对存储资源进行合理规划和分配,确保资源的充分利用和高效运行。

本次项目中可能被面试官问到的问题

1、什么是ELK?

答:ELK 是三个开源项目的首字母缩写:Elasticsearch、Logstash 和 Kibana。这些项目通常一起使用来构建一个集中的日志管理和分析系统

2、什么是Elasticsearch、Logstash 和Kibana?

答:

  1. Elasticsearch

    • Elasticsearch 是一个基于 Lucene 的搜索和分析引擎。它提供了全文搜索、结构化搜索、分析以及实时分析的能力。

    • Elasticsearch 是一个分布式系统,设计用于处理大规模数据,支持水平扩展和容错。

    • 它通常用于存储、搜索和分析日志、监控数据、时间序列数据等。

  2. Logstash

    • Logstash 是一个数据收集、处理和转发的管道。它可以接收来自各种来源的数据(如文件、数据库、网络等),然后对其进行处理(如解析、转换、过滤等),最后将处理后的数据发送到其他系统(如 Elasticsearch)。

    • Logstash 使用灵活的配置文件来定义数据流,可以轻松地修改和扩展以处理各种数据格式和场景。

    • Logstash 也可以与 Elasticsearch 和 Kibana 一起使用,形成一个完整的日志管理解决方案。

  3. Kibana

    • Kibana 是一个数据可视化和分析平台,专门为 Elasticsearch 设计。它提供了一个用户友好的界面,用于浏览、搜索、分析和可视化存储在 Elasticsearch 中的数据。

    • Kibana 提供了各种可视化选项,如图表、表格、地图等,可以帮助用户更好地理解数据。

    • Kibana 还支持自定义仪表板,允许用户根据自己的需求创建和保存复杂的可视化布局。

3、ELK 三个组件 如何协同工作?

  • Logstash 负责从各种来源收集日志数据,并进行必要的处理和转换。

  • 处理后的数据被发送到 Elasticsearch 进行存储和索引。

  • Kibana 从 Elasticsearch 中检索数据,并提供用户友好的界面进行搜索、分析和可视化。

通过这种方式,ELK Stack 提供了一个完整的日志管理解决方案,可以帮助组织更好地理解和利用他们的日志数据。

4、你们公司采用的虚拟化平台是哪一个?

答:VMware ESXI虚拟化平台,部署简单、可视化界面对虚拟机管理方便。

流程:购买物理服务器,然后下载VMware ESXI的iso镜像包,找VMware官方购买授权证书。通过U盘将VMware ESX镜像刻一个启动盘,用U盘给服务器装VMware ESXI虚拟化系统,然后在配置ip地址。这样就可以通过笔记本上下载个VMware ESXI客户端连接上这台服务器,在这台服务器上安装多个虚拟机。

5、你们本次项目共多少人?

答:共5人

一个项目经理、1个业务开发工程师、1个测试工程师、2个运维工程师

6、你们本次项目共使用了多少台虚拟机,配置分别是什么样的?

答:共44台虚拟机

23台虚拟机:用来部署公司业务服务的。公司的服务是分布式部署的(就是一个软件由多个组件组成,然后每个组件都是拆开单独部署在一台虚拟机上,然后通过ip端口或其他策略来实现把这些组件都串起来组成完整的服务,大概就是这么个意思),公司有两个服务,一个是C开发的服务共10个组件,分别部署在10台虚拟机上,每台服务器2核心4G配置。还有一个是JAVA开发的服务共13个组件,分别部署在13台虚拟机上,因为JAVA服务比较吃内存,所以每台虚拟机为2核8G配置。

8台mysql虚拟机:用来存储数据、公司服务数据一共存储在4个库中,每台mysql中创建了一个库。每个库中有几十上百张表。每个数据库都做了主备架构,分别为8核16G

3台redis虚拟机:用来做mysql的中间件,进行数据缓存的,以减轻mysql压力分别为8核16G

2台LB负载均衡虚拟机,用来负责流量分发分别为8核心16G

2台nginx虚拟机:用来搭建web页面,代理后端业务虚拟机。分别为4核8G

3台ELK虚拟机:Elasticsearch 消耗两台,因为Elasticsearch 主要用来存储数据,LK两个服务部署在同一台机器上分别为2核4G

1台性能监控虚拟机:用来部署Prometheus和grafana服务.4核心8G。

7、本次升级项目中你们你们数据备份是通过什么命令实现的?

mysql数据是通过mysqldump命令进行数据备份的

Elasticsearch 是通过elasticdump命令进行数据备份的

8、你们数据量有多大?是怎么迁移的?

总数据量大概有10TB左右,用linux命令进行迁移太过耗时,可能得好几天。所以是用的第三方工具。

经验教训与自我提升

  1. 在项目过程中,我深刻体会到了团队协作的重要性。与业务团队、开发团队等成员的紧密合作是项目成功的关键。

  2. 不断学习和掌握新技术是运维工程师的必修课。通过参与这个项目,我深入了解了云计算、自动化运维等前沿技术,并不断提升自己的技能水平。

  3. 在遇到问题时,保持冷静和耐心是解决问题的关键。同时,及时总结和分享经验教训也是提高团队整体能力的重要途径。

展望未来

随着云计算、大数据等技术的不断发展,运维工程师的角色和职责也在不断变化。未来,我将继续学习和掌握新技术,提高自己的专业技能和综合素质,为公司的发展贡献更多力量。同时,我也期待与更多优秀的团队成员一起合作,共同推动公司IT基础设施的升级和优化工作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/836886.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《intel开发手册卷3》读书笔记1

1、CPU工作模式 1)实模式:8086的寄存器只有16位,我们也习惯于称8086的工作模式为16位模式。后续的CPU为了保持兼容性,在芯片上了电以后,还必须运行于16位模式之下。这种模式还有个正式的名字叫做实模式。在实模式下&am…

【游戏引擎】unity

目录 Unity入门教程:从零到英雄的旅程前言第一步:下载和安装Unity第二步:创建你的第一个Unity项目第三步:熟悉Unity界面第四步:创建一个简单的游戏对象第五步:编写脚本赋予游戏对象生命第六步:运…

Leetcode 222:完全二叉树的节点个数

给你一棵 完全二叉树 的根节点 root ,求出该树的节点个数。 递归遍历1 public static int countNodes(TreeNode root){return preorder(root);}//计算树的节点个数public static int preorder(TreeNode root){int count0;if(rootnull) return 0;int leftpreorder(…

C语言每日一题—查找子串个数

用函数编程实现计算字符串中子串出现的次数。 函数原型: int FindString(char *str,char *sub) 要求: 在主函数中输入字符串和子串,调用FindString()函数,输出子串出现的次数。输入格式:"%c" 输出格式&#…

探索车路云深度融合的优化与实践

项目背景与业务场景 目前,我国车联网行业处于与 5G 技术的深度融合时期。随着汽车从传统交通工具向着智能化、网联化和电动化方向演进,车联网成为 5G 交通和汽车领域跨界融合最具潜力的应用,已经成为我国战略性新兴产业的重要发展方向。通过…

【前端每日基础】day8 src和href

src 和 href 是两个常用的 HTML 属性&#xff0c;它们分别用于不同类型的资源引用&#xff0c;有以下区别&#xff1a; src&#xff08;source&#xff09;&#xff1a; src 属性用于指定外部资源的地址&#xff0c;比如图像、音频、视频、嵌入框架等的地址。 在 < img &g…

Linux perf:系统性能监控和分析工具

1. 写在前面 Linux perf 是 Linux 2.6 后内置于内核源码树中的性能剖析&#xff08;profiling&#xff09;工具,它基于事件采样&#xff0c;以性能事件为基础&#xff0c;针对 CPU 相关性能指标与操作系统相关性能指标进行性能剖析&#xff0c;可用于性能瓶颈查找与热点代码的…

保研机试之【x86/x86-64体系结构中的寄存器】

先来看一下这六个选项的功能&#xff1a; 举一个例子&#xff1a; 对于CR2寄存器和中断向量表&#xff1a; 也就是先通过CR2寄存器找到引发错误的虚拟地址&#xff0c;然后操作系统分析错误原因&#xff0c;通过IDTR寄存器找到IDT&#xff08;中断向量表&#xff09;&#xff0…

栈与递归的实现

1. 栈的概念及结构 栈&#xff1a;一种特殊的线性表&#xff0c;其只允许在固定的一端进行插入和删除元素操作。 进行数据插入和删除操作的一端 称为栈顶&#xff0c;另一端称为栈底。 栈中的数据元素遵守后进先出LIFO&#xff08;Last In First Out&#xff09;的原则&#x…

光纤VS紫外:如何选择最适合您生产线的激光打标机?

光纤激光打标机和紫外激光打标机在制造业中都有其独特的应用&#xff0c;但两者在原理、特点和应用范围上存在一些差异。 光纤激光打标机是一种采用光纤输出激光&#xff0c;并通过高速扫描振镜系统实现打标功能的新一代激光打标机系统。它电光转换效率高&#xff0c;达到30%以…

【第21章】spring-mvc之整合druid

文章目录 前言一、准备1. 引入库2. 添加配置2.1 jdbc.properties2.2 spring-mvc.xml 二、测试1.测试类2.测试结果 总结 前言 【第5章】spring命名空间和数据源的引入 在spring章节已经简单的介绍了数据源的引入&#xff0c;两者差别不大。 一、准备 1. 引入库 <dependen…

Mockito框架,帮助创建模拟对象进行测试的利器

在现代软件开发中&#xff0c;单元测试作为确保代码质量和可靠性的重要环节&#xff0c;已逐渐成为开发流程中不可或缺的一部分。为了让单元测试更加灵活、独立&#xff0c;开发者们通常使用 Mocking&#xff08;模拟&#xff09;框架来替代真实对象&#xff0c;从而更好地模拟…

C++进阶:AVL树详解及模拟实现(图示讲解旋转过程)

C进阶&#xff1a;AVL树详解及模拟实现&#xff08;图示讲解旋转过程&#xff09; 之前在搜索二叉树最后早就埋下伏笔&#xff0c;来介绍AVL树和红黑树&#xff0c;今天就先来第一个吧 文章目录 1.AVL树介绍1.1概念介绍1.2核心性质 2.项目文件规划3.整体框架&#xff08;节点和…

JDK 1.8 HashMap扩容机制

我们首先来看利用无参构造函数创建HashMap如何扩容。首先创建一个无参构造出来的hashmap HashMap hashMap new HashMap();该构造函数源码如下&#xff1a; public HashMap() {this.loadFactor DEFAULT_LOAD_FACTOR; // all other fields defaulted}此时&#xff0c;该构造函…

linux笔记5--shell命令2

文章目录 一. linux中的任务管理1. 图形界面2. 命令① top命令② grep命令③ ps命令补充&#xff1a; ④ kill命令图形界面杀死进程 二. 挂载(硬盘方面最重要的一个知识点)1. 什么是挂载2. 关于挂载目录① Windows② linux查看硬件分区情况(/dev下)&#xff1a;更改挂载目录结束…

揭秘 HTTP 代理:增强在线活动的安全性和匿名性

HTTP 代理在保护您的在线隐私、增强安全性以及允许访问受限内容方面发挥着关键作用。了解 HTTP 代理的工作原理以及如何有效地利用它们可以让您掌控自己的在线状态和浏览体验。让我们深入研究 HTTP 代理的世界&#xff0c;探索它们的优势、应用程序以及最大化其效用的最佳实践。…

【Unity Shader入门精要 第6章】基础光照(二)

1. 获取环境光 unity shader中可以通过 UNITY_LIGHTMODEL_AMBIENT获取当前环境光颜色信息。 fixed4 frag(v2f i) : SV_Target {return UNITY_LIGHTMODEL_AMBIENT; }2. 漫反射 2.1 兰伯特模型 创建Chapter_6_Diffuse_Lambert作为测试材质创建Chapter_6_Diffuse_Lambert作为测…

ollama api只能局域网访问,该怎么破?

安装ollama: ollama离线安装,在CPU运行它所支持的那些量化的模型-CSDN博客文章浏览阅读178次,点赞2次,收藏6次。ollama离线安装,在CPU运行它所支持的哪些量化的模型 总共需要修改两个点,第一:Ollama下载地址;第二:Ollama安装包存放目录。第二处修改,修改ollama安装目…

洛谷官方提单——【入门4】数组——python

洛谷官方提单——【入门4】数组 小鱼比可爱题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示代码 小鱼的数字游戏题目描述输入格式输出格式样例 #1样例输入 #1样例输出 #1 提示数据规模与约定 代码 【深基5.例3】冰雹猜想题目描述输入格式输出格式样例 #1样例输入 …

matlab打开文件对话框

在使用matlab GUI制作时&#xff0c;为了便于用户交互使用&#xff0c;经常设置文件打开对话框&#xff0c;让用户根据实际需要选择打开的文件。下面以打开一张图片为例&#xff0c;matlab代码如下&#xff1a; [temp_filepath,temp_filename]uigetfile(*.jpg,请选择要打开的图…