技术与业务同行:我是如何在业务中成长的?

作者:慕扉

应用实时监控服务ARMS(Application Real-Time Monitoring Service)是一款应用性能管理(APM)产品,包含应用监控、Prometheus监控和前端监控三大子产品,涵盖分布式应用、容器环境、浏览器、小程序、App 等领域的性能管理,能帮助用户实现全栈式性能监控和端到端全链路追踪诊断,让应用运维从未如此轻松高效。

我主要负责阿里云ARMS前端监控平台,该业务更偏向于技术类产品。我想聊聊如何在业务中成长,期间也有困惑和迷茫,希望我的经历或者方式方法能给有类似情况的前端同学有所帮助。

我个人的成长主要分为三个阶段,分别是:

(1)监控领域初接触,建立自身监控知识体系
(2)业务痛点跟进,打造监控平台核心能力
(3)业务场景不断拓展,建立保障业务稳定体系

监控领域初接触,建立自身监控知识体系

最初业务面临的问题:业务上线之后,用户在实际访问时遇到错误,业务方无法快速感知;发生线上故障后,很多场景无法快速复现和排查原因等。基于业务的这些痛点,团队决定搭建前端监控平台来解决这些问题。

我是从Retcode2.0正式开始接触前端监控领域,面对一个新的领域,需要快速从0-1建立自身监控知识体系。这个过程是非常充实且充满挑战的,但当你完成这个阶段后会非常有成就感。面对未知和挑战,这里总结一下我认为比较重要的经验。

勇于打破自己的边界,拓展自己的技术栈

前端监控的整个体系简单总结一下:采集、日志存储、日志切分&计算、数据分析、告警,也就是工作不再局限于前端业务的开发工作,需要有Nginx服务运维能力、实时/离线分析能力、Node应用开发运维能力等等,所以我迈出了第一步,从前端->全栈的转变,让我整体熟悉并能把控前端监控从采集到最后告警诊断整个流程,在这个基础上让我后续能Cover整个监控平台。

Owner意识

对于负责的产品需要具备较强的Owner意识,把工作做大做强,服务好客户。每一个功能的开发、迭代、优化及创新,认真对待,保障每个环节做到最好。在这个过程中,我的角色也发生了改变,从最初的功能实现落地者到产品能力的主导技术方案的选型拍板者,这段时间的复盘让我不经意间意识到自己的这些变化。

以我自己的一个经历为例:最初日志服务器的部署是运维同学直接在机器上配置好,再提供服务。我接手后就遇到了一个比较大的问题:扩容。正常应用扩容是很简单的事情,通过PSP提交扩容申请单,可快速完成扩容。但当前Nginx日志服务没有基线配置,无法直接PSP扩容,只能手动配置。

对于扩容来说,当前的方案存在2个问题:

(1)手动配置扩容时间成本高
(2)无法有效保证所有机器上各类包的版本号一致。

为了解决这些问题,就需要了解Nginx日志服务的能力及运维相关的能力,通过与PE、后端同学讨论,最终决定采用Dokcer的形式解决当时扩容的问题,不仅提升了运维效率,也为后续海外业务支持打好了基础。
所以给到大家的建议是,不要单纯的完成产品的一个个功能,而是要有Owner意识,认真审视业务面临的问题,能够主动去跟进和改变,慢慢积累后续会产生质变。

业务痛点跟进,打造监控核心能力

平台从0-1搭建完成后,为了服务更多的业务,打磨产品能力,正式上云升级为阿里云ARMS前端监控平台。监控的基础能力已全部上线,后续如何发展是我需要思考的问题。如果后续在这个基础上一直做迭代优化,产品和个人都没有明显的突破与成长。

针对技术类产品,大部分是技术同学主导,在产品发展到一个阶段后,就会面临如何做后续的突破问题。我有两点建议:

(1)深入业务面临的问题,制定技术解决方案。

首先问自己几个问题:
• 业务方是谁?
• 现在业务在用自己的产品的时候都有哪些问题?
• 业务的诉求是什么?
• 自己的产品存在哪些问题?

深入挖掘这些问题,列出TOP5的答案,会发现有很多值得去做和突破的事情。

在最初的前端监控领域,产品都集中在针对采集上报的数据做统计展示阶段,通过数据指标的波动情况发现异常,然后接下来异常的定位则直接依赖于原始日志,原始日志如果覆盖不到信息,则只能靠业务同学自己复现和排查了。更多时候统计的数据无法解释,直接导致业务同学对数据的准确性产生质疑。所以监控产品要从最初的数据统计演进为问题定位。在这个阶段,主导并补齐相应的问题诊断链路。

(2)拓展视野 (技术&业务)

在主导一个产品方案/制定技术方案前,需要提前调研,辅助做出决策。调研的目的是拓展自己的技术&业务视野,其中对应的途径可以有:

• 竞品分析:当前成熟的产品听云、dynatrace、oneAPM等;

• 相关联领域同学输入/讨论:产品、后端应用监控同学等。

一个线上问题的排查,不是独立的前端监控或者应用监控就直接给到原因的,拓展自己认知的领域后,与后端中间件同学讨论,最终制定提供全链路监控的方案,来满足业务排查问题的诉求。通过这个案例可以看到,如果不跨出一步,是看不到也无法给出方案的。

业务场景不断拓展,建立保障业务稳定体系

在产品能力整体趋于稳定后,如何寻找自己的突破口?我也曾经走过误区,希望自己在技术上能有突破,所以出发点是现在有哪些技术可以在我的产品上体现出深度,直接导致越考虑越迷茫。其实,正确的出发点仍然是第二部分提到的:从业务痛点出发来制定解决方案。在这一部分不再是单点解决问题,而是体系化的考虑方案。

我有几点经验可以分享下:

开放的心态,合作共赢

技术类产品会收到各个业务方的诉求,在人力有限的情况下要支持各类诉求难度很大。这时候摆正心态,可以拉诉求方同学合作共建,更好的满足业务方诉求,同时让产品也不断拓展支持场景。

前端技术发展非常迅速,在最初小程序迅猛发展的时候,小程序的监控诉求也随之而来。但当时团队对于小程序的技术架构等并不熟悉,在此基础上做监控成本较大。其中钉钉有较多的访问量级较大的小程序,对于监控有较强的的诉求,在综合考虑业务诉求和产品拓展后,与钉钉同学合作共建支持各类小程序的监控诉求。在这次合作中,让我深刻体会到优势互补、事半功倍的效果。

体系化建设

在前期完成对于整个体系的了解,后续可以从这个体系涉及的各个环节来综合考虑解决方案。

随着业务的不断接入,监控所需的计算资源、存储资源等问题不断暴露出来,这时候我的工作不仅要保障业务稳定,更要保障平台稳定,所以在采集阶段、上报阶段、存储阶段、计算阶段考量制定保障方案。完成体系化稳定性建设后,不仅可以在大促前1分钟发现风险,也可以保障平台稳定支持大促中各类站点的监控诉求,并且在大促后沉淀赋能于日常的稳定性运维工作。

结束语

每个人的经历与负责的工作各不相同,无法直接照搬别人成功的经验,同时很多总结的点都是知易行难,但可以从优秀同学的经验及总结中找到自己认可的内容,坚持并不断在自己身上实践,只有不断实践才能慢慢转化为自己的能力。

 

 

原文链接
本文为阿里云原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/515040.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

启明星辰集团:文化筑底,战略引领信息安全之路

4月30日,“启明星辰集团年度业绩说明与战略发布会”在上海成功举办,启明星辰集团总裁严立、集团CFO张媛、集团董秘姜朋出席会议,为投资者、用户、媒体解读企业未来战略布局,就行业状况、生产经营、财务状况进行说明,探…

【数据湖加速篇】 —— 如何利用缓存加速服务来提升数据湖上机器学习训练速度

简介: JindoFS提供了一个计算侧的分布式缓存系统,可以有效利用计算集群上的本地存储资源(磁盘或者内存)缓存OSS上的热数据,从而减少对OSS上数据的反复拉取,消耗网络带宽。 背景介绍 近些年,机…

OnlyOffice 二次开发定制化部署

文章目录一、与前准备1. 功能点总览2. 上传中文字体3. 上传镜像包4. 创建目录5. 字体挂载6. 加载镜像二、与前准备2.1. 创建容器2.2. 浏览器验证2.3. 在线编辑一、与前准备 1. 功能点总览 功能兼容性说明并发20限制去除√并发数999中文字体√41种常用字体中文字号√文件下载大…

何为“边缘计算”?

来源 | 无敌码农责编 | 寇雪芹头图 | 下载于视觉中国在云原生除了K8S、微服务,还有...?中和大家聊了下关于云原生的话题,在云原生的概念中比较明确的一个特点就是云原生是基于云计算的。在这种模式下用户的计算请求会被发送到云端服务进行处理&#xff…

用尽每一寸GPU,阿里云cGPU容器技术白皮书重磅发布!

简介: 云原生已经成为业内云服务的一个趋势。在云原生上支持异构计算有助于提升CPU的利用率。一文分析业内主流GPU共享方案,并告诉你阿里云cGPU牛在哪里!阿里云异构计算推出的cGPU(container GPU)容器技术,…

钉钉轻松顶住信息洪流的原因,竟然是它

简介: 在9月18日云栖大会上,阿里云智能高级技术专家木洛就为我们详细介绍了,表格存储Tablestore是如何助力钉钉消息存储架构的升级,帮助钉钉顶住持续增长的流量。 今年的疫情来势汹汹,新冠病毒作为2020最具代表性的黑…

说到 SASE,新的安全范式有哪些

来源 | 好奇瞅瞅责编 | 寇雪芹头图 | 下载于视觉中国前言本系列目录:深入理解SASE(一):什么是云化深入理解SASE(二):网络云化及演进方向深入理解SASE(三):什么…

从零入门 Serverless | SAE 场景下,应用流量的负载均衡及路由策略配置实践

简介: 本节课程包含三部分内容:单应用的负载均衡配置、多应用的路由策略配置以及自建微服务网关。 作者 | 落语 阿里云云原生技术团队 本文整理自《Serverless 技术公开课》,“Serverless”公众号后台回复“入门”,获取 Serverle…

聚焦2020云栖大会 边缘计算专场畅谈技术应用创新

简介: 一年一度科技圈盛事—云栖大会如期上演,本届大会以“数智未来,全速重构”为主题,与业界同仁、合作伙伴共同打造了一场数字时代的云上相聚。于9月18日下午举办的边缘计算技术应用创新专场中,阿里云携手甘肃省公路…

springboot word aspose 转换PDF 在线预览

文章目录1. 依赖2. 工具类3. 实现类4. controller5. application.yml6. license.xml7. 目录结构8. 测试验证1. 依赖 <dependencies><dependency><groupId>org.projectlombok</groupId><artifactId>lombok</artifactId><version>1.1…

【数据湖加速篇】 —— 数据湖结构化数据优化与查询加速方案

简介&#xff1a; 近几年&#xff0c;数据湖架构的概念逐渐兴起&#xff0c;很多企业都在尝试构建数据湖。相比较大数据平台&#xff0c;数据湖在数据治理方面提出了更高的要求。对于数据湖场景所提出的新需求&#xff0c;“传统”的大数据工具在很多方面都面临着新的挑战。Jin…

Kubernetes 也有局限性吗?

作者 | Draveness来源 | 真没什么逻辑头图 | 下载于视觉中国2014 年发布的 Kubernetes 在今天俨然已成为容器编排领域的事实标准&#xff0c;相信谈到 Kubernetes 的开发者都会一再复述上述现象。如下图所示&#xff0c;今天的大多数个人或者团队都会选择 Kubernetes 管理容器&…

Kubernetes 新玩法:在 yaml 中编程

简介&#xff1a; 如何做性能测试&#xff1f;要么是通过编码的方式完成&#xff0c;写一堆脚本&#xff0c;用完即弃&#xff1b;要么是基于平台&#xff0c;在平台定义的流程中进行。对于后者&#xff0c;通常由于目标场景的复杂性&#xff0c;如部署特定的 workload、观测特…

对话猿辅导:阿里云远程办公零信任落地创新安全

简介&#xff1a; 大型实战场景验证&#xff0c;灵活应对复杂环境。 2020&#xff0c;一场突如其来的新冠疫情&#xff0c;引发了史上最大规模的远程办公。疫情让安全问题暴露得更加突出&#xff0c;与疫情的对抗也是阿里云安全的战场。 9月18日&#xff0c;2020云栖大会技术…

北森完成2.6亿美金融资,一体化×低代码引领HR数字化风潮

5月11日&#xff0c;中国最大的一体化HR SaaS及人才管理平台北森在京举办F轮融资暨春季产品发布会&#xff0c;宣布完成2.6亿美元规模F轮融资&#xff0c;同时发布2021年春季系列新产品新特性&#xff0c;以“一体化HR SaaS低代码平台”为核心&#xff0c;持续布局人力资源云服…

继承WebMvcConfigurationSupport后自动配置不生效的问题及如何配置拦截器

网上有很多文章说从spring boot2.0之后在构造spring配置文件时建议推荐直接实现WebMvcConfigurer或者直接继承WebMvcConfigurationSupport &#xff0c;经测试实现WebMvcConfigurer是没问题&#xff0c;但继承WebMvcConfigurationSupport类是会导致自动配置失效的。 一、继承W…

阿里云发布边缘计算视频上云解决方案 为海量视图处理提供城市级云基础设施

简介&#xff1a; 2020云栖大会在云上成功召开&#xff0c;此次大会汇聚行业领袖&#xff0c;共同见证数智未来的重构进程。在9月18日的产品发布大厅&#xff0c;阿里云正式发布边缘计算视频上云解决方案&#xff0c;旨在依托城市级云计算基础设施&#xff0c;实现海量视图数据…

Springboot2中WebMvcConfigurer接口详解

用途&#xff1a;跨域、拦截器、静态资源处理 接口方法的作用&#xff1a; addInterceptors&#xff1a;拦截器addViewControllers&#xff1a;页面跳转addResourceHandlers&#xff1a;静态资源configureDefaultServletHandling&#xff1a;默认静态资源处理器configureView…

数据湖元数据服务的实现和挑战

简介&#xff1a; 数据湖元数据服务为大数据而生&#xff0c;为互通生态而生&#xff0c;期望后续继续完善其服务能力和支撑更多的大数据引擎&#xff0c;通过开放的服务能力、存储能力、统一的权限及元数据管理能力&#xff0c;为客户节省管理/人力/存储等各项成本&#xff0c…

美国燃油“动脉”被黑客切断,网络安全走向哪里?专访山石网科|拟合

从无序中寻找踪迹&#xff0c;从眼前事探索未来。 > 2021 年正值黄金十年新开端&#xff0c;CSDN 以中立技术社区专业、客观的角度&#xff0c;深度探讨中国前沿 IT 技术演进&#xff0c;推出年度重磅企划栏目——「拟合」&#xff0c;通过对话企业技术高管大咖&#xff0c;…