【全观测系列】Elasticsearch应用性能监控实践

简介:本文介绍了应用性能监控的应用价值以及解决方案等。

1、什么是全观测?

要了解全观测,我们先看看传统运维存在哪些问题。

  • 数据孤岛,分散在不同部门,分析排查故障困难;
  • 多个厂商的多种工具,无法自动化统一分析;
  • 故障是立体的,日志、指标等都只能看到一方面的可观察性;
  • 只进行收集,没有真正深入分析,不能发挥大数据的价值;

而全观测是对传统运维的改进。它将日志、指标、APM数据,汇总在一个平台,让运维、开发、业务人员对所有的数据从统一视角进行观察分析,可以实现——

  • 建立统一的可视化视图、对齐时间、过滤条件;
  • 建立统一的基于规则的监控和告警;
  • 建立统一的机器学习的智能监控和告警。

在整个全观测中包括日志、指标,APM这三要素中,大家相对比较陌生的可能是APM。

2、什么是应用性能监测APM

APM定义:企业应用APM对自身复杂的软件及应用程序的运行状态进行监测、诊断和分析,从而缩短故障定位时间和提升故障的定位准确度,进而提升应用运行效益和优化用户的使用体验。

APM涉及的技术类型包括人工智能、大数据、云计算,它的核心是用户体验,提升应用可靠性性,提升应用质量,降低IT总拥有成本。

随着当今应用的多元化和复杂化,我们需要通过APM这样一个应用性能监测,实现端到端业务性能的分析,同时帮助了解我们的服务,比如说时间都花在了什么上面,服务崩溃的原因是什么,整个服务的瓶颈在哪里,从而使我们更好的去跟踪、优化终端用户的体验。

3、应用性能监测APM场景

3.1 APM应用场景及痛点

•   应用异常诊断

—   分布式微服务架构的应用进行故障排查时存在问题定位难的现象;

—   业务逻辑复杂化使企业对应用架构梳理和治理难度增加。

•   应用体验管理

—   用户体验直接影响应用服务发展前景,但获取用户访问系统时的真是和具体情况难。需要及时且快速定位新故障或复现用户反馈的问题场景,高效解决故障,防止客户流失

•   应用异常诊断

—   多视角分析关联指标和告警数据,并生成故障根因分析报告

—   结合历史数据与运维经验,实时分析异常事务的发生原因

3.2 APM能力及业务价值

•   主动监测与被动监测,注重终端用户体验优化

•   实时、可视化应用架构,协助用户全面了解复杂的基础设施

•   应用数据积累及实时更新,为解决不同平台问题提供数据支撑

•   路径跟踪与及时预警,降低故障损失

•   深入监控应用组件,侧重监控工具之间运作的成效,助力用户快速定位和处理问题

4、阿里云Elasticsearch应用性能监测功能发布

基于开源Elastic APM构建,提供云上一键托管的阿里云Elasticsearch应用性能监控Server节点服务拉起,支持使用阿里云Elasticsearch作为其数据存储,并允许实时监控数千个应用程序的性能。

用户可通过Agent收集包含传入请求、数据库查询、缓存调用、外部HTTP请求、错误及异常等多种详细的性能信息,并通过Elasticsearch进行存储及可视化分析,为企业及开发者提供高效的应用程序性能优化与监控能力。

4.1 用户根据默认提供的代理Agent及数据采集模板进行数据收集

用户可使用与服务相同的语言编写的开源库,代理程序会挂钩应用程序并收集性能指标和错误,所有数据都会收集并发送到Server端。

4.2 云上托管阿里云ES应用性能监控Server实例创建与管理

一键拉起Server节点并进行灵活的扩缩及配置,Server通过JSON HTTP API从代理接收数据,单个节点通常可以处理来自数百个代理的数据。

4.3 配置关联阿里云ES实例,结合Kibana进行性能指标数据存储及分析

结合阿里云ES自研日志Indexing Service以及海量存储Openstore,可以达到高并发的写入能力,以及低成本、近实时地存储搜索海量数据。云上免费托管拉起的Kibana节点提供丰富的数据分析及可视化能力。

5、全观测场景技术难点和解决方案

如何通过云上Elastic Stack能力去解决全观测-日志场景下的痛点。

5.1 全观测场景面临哪些痛点

  • 日志/指标获取难

机器、业务系统、网络链路、操作系统,诸多指标及日志获取手段不一,落地过程复杂;

  • 日志/指标规格化要求高

上下游链路配合衔接过程中,如何将有效信息从海量日志中获取;

  • 高并发写入、系统稳定性差

业务/流量抖动,日志写入峰值往往会很高,旁路系统稳定性受到很大的挑战;

  • 海量数据存储成本高

日志场景涉及海量数据,TB级别起步,甚至PB级;

  • 日志分析和指标监控统一难

借助时序系统可以很好的完成监控,但异常分析困难相反,如何在统一平台完成;

  • 系统可扩展性要求高

业务调整带来的技术演进一直在发生,技术组件更新快,运维框架需要有强大的兼容性;

5.2 云上ELK全观测解决方案能力

  • Beats/APM获取日志/指标

轻量化的提供各类metic、logs、APM数据采集能力;

  • 数据清洗SQL化更简易

支持各类网络格式的日志/指标采模板,实时计算Flink提供完整流式SQL能力;

  • 云上ES写入托管及超强稳定性

提供Indexing service自研ES写入托管服务,及跨机房部署、同城容灾、场景内核优化;

  • 低成本数据存储

阿里云ES提供冷热分离数据存储方式,及自研存储引擎Openstore优化存储压缩算法;

  • 日志分析、指标监控、APM能力齐全

阿里云ElastiStack全托管,提供日志分析、监控、Tracing一站式能力;

针对时序场景,针对性优化引擎,保证时序日志监控和分析的性能;

  • 开源生态具备强大的可扩展性

基于分布式架构,以及灵活开放的RestAPI和Plugin框架,支持各种扩展能力。

6、ES全观测解决方案实现日志监控/运维/分析

  • 方案选型:100%兼容开源,与各类开源生态组件无缝衔接;支持多云/跨云的日志监控、运维分析场景
  • 方案优势:云上Elasticsearch端到端的采集传输及分析能力,提供面向海量数据的高性能读写、高弹性、低成本解决方案

7、时序日志场景痛点分析

写多读少的日志场景下会遇到什么问题?

(1)高峰期写入压力大弹性扩展难以有效实施

(2)海量计算+存储资源成本高低峰期资源闲置

(3)为保证系统稳定性集群运维管理复杂

8、阿里云Elasticsearch日志增强版

基于云原生自研引擎技术的全观测数据写入托管及海量存储能力

  • 日志写入Serverless

自研写入加速Indexing Service,支持ES日志场景海量数据写入,写入按实际流量计费,提供极致的弹性和强大的业务系统洪峰应对能力,客户无须预留资源并维护大规模集群;

  • 海量存储Openstore

可根据实际数据的存储量按量计费,无须提前预留集群存储容量,数据兼容ES原生查询。单据节点可存储百TB数据并通过灵活易用的数据生命周期策略进行数据管理

  • 云端10倍写入弹性扩缩

云端海量算例突破写入瓶颈,无须提前预留资源,无低峰闲置浪费

  • 成本降低50%以上

按需使用,按实际写入流量付费,云端按量写入,优化资源成本

  • 存储超低成本

相较于高效云盘存储成本降低70%,无须提前预留资源,无低峰闲置浪费

  • 海量数据可查询

相较于高效云盘存储成本降低70%,存储Serverless按实际用量用多少付多少

9、应用服务数据链路追踪与分析

某汽车品牌案例(SLA/KPI指标跟踪、销售支撑系统链路追踪与日志分析),基于阿里云Elasticsearch的“汽车行业应用服务数据链路追踪和日志分析”介绍。

(1)场景需求

在整体汽车行业推动业务全流程数字化转型的背景下,内部支撑系统,以及依赖的IT组件(如:移动网关),快速上云后,内部系统产生大量的Metric、TraceLog、Log等数据,需要在云上快速落地。

某汽车品牌企业IT部门下,有多个内容管理系统(CMS)、分销商经营办公系统(DMO)、运营质量监控系统(QIS)、营销经营分析系统(MMP)、BI系统等内部支撑系统。

•IT业务系统复杂,既要满足持续的业务需求,又要整体上云,需要有快速平迁、对接原有云上/云下的IT系统的产品,并能保证技术架构的灵活、开放性,支持后续的自由拓展;

• 预期未来的日志数据规模超PB级(180天),底层技术架构需要兼备低成本存储、快速获取、按需检索和分析的能力;

(2)方案价值点

  1. 极低迁移/改造成本:外资/合资背景的车企IT架构借鉴外资方海外的IT架构,ES是非常普及的技术架构方案,阿里云ES完全兼容开源,客户运维系统上云的迁移/改造成本极低,最快一周内完成系统上线;
  2. 低存储成本:存储的数据量很大(客户单个日志集群240TB存储量)。提供分级存储的存储介质。例:OSS中存储的1 PB日志12.6W/月,每月多付3W元/月,日志即可获得秒级模糊检索、聚合分析查询等能力(比自建ELK直接使用高效云盘便宜了20.9W/月);
  3. 真正的弹性伸缩:提供Serverless(服务化)存算分离架构,按流量收取写入费用,没有流量不收钱,真正意义上的“瞬时弹性伸缩”;

整体方案架构

10、ES应用性能APM Server创建

3min快速拉起APM Server进行数据传输,最低仅需180元/月

在APM server控制台列表,可以查看有多少个APM server在运行。

我们可以看到APM server的访问地址,将这个访问地址配到APM agent里面。APM agent采集过程中,可以支持多种客户端语言,可以快速的实现数据采集的配置。

当数据采集之后,我们就可以来到Kibana的界面,通过Dev tools进行一些索引的创建。

Kibana界面可以查看所有的APM服务数据,如平均响应时长,P95值,异常发生的时间等等。

进入查看某个服务的详细数据:

点击查看某个具体的请求数据的瀑布视图:

查看瀑布视图的详情:

比如发现有很多select正在进行,可以点击查看具体详情:

查看全链路数据:

原文链接

本文为阿里云原创内容,未经允许不得转载。 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/511505.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

es实战-使用IK分词器进行词频统计

简介:通过IK分词器分词并生成词云。 本文主要介绍如何通过 IK 分词器进行词频统计。使用分词器对文章的词频进行统计,主要目的是实现如下图所示的词云功能,可以找到文章内的重点词汇。后续也可以对词进行词性标注,实体识别以及对…

IC Nansha|AMD高级副总裁、大中华区总裁潘晓明:制程、架构、平台优化突破计算边界

6月25日,中国南沙国际集成电路产业论坛在广州南沙顺利举行。AMD高级副总裁、大中华区总裁潘晓明出席了本次会议,并在高峰论坛环节中以《高性能计算的未来》为主题发表了演讲。 (AMD高级副总裁、大中华区总裁 潘晓明) 作为一家深耕…

爱数SMART 2022峰会开启,分享数据战略与建设数据驱动型组织方法论

6月28日,爱数SMART 2022线上峰会全球直播正式开启。主论坛上,爱数正式提出了企业制定数据战略以及建设数据驱动型组织的方法论,并推出开源计划与数字伙伴计划2.0,共创数据驱动型组织。 通过清晰的数据战略,从容加速数据…

云原生时代开发者工具变革探索与实践

简介:本篇内容分享了原生时代开发者工具变革探索与实践。 分享人:马洪喜 行云创新CEO 正文:本篇内容将通过三个部分来介绍云原生时代开发者工具变革探索与实践。 一、云原生模块化开发概览 二、软件模块化开发特点 三、ADD产品简介 一、…

喜马拉雅 Apache RocketMQ 消息治理实践

简介:本文通过喜马拉雅的RocketMQ治理实践分享,让大家了解使用消息中间件过程中可能遇到的问题,避免实战中踩坑。 作者:曹融,来自喜马拉雅,从事微服务和消息相关中间件开发。 本文通过喜马拉雅的RocketMQ治…

Docker 容器为什么傲娇?全靠镜像撑腰!

作者 | 飞向星的客机来源 | CSDN博客🌟 前言Docker 镜像是 Docker 容器的基石,容器是镜像的运行实例,有了镜像才能启动容器。Docker 镜像是一个只读的模板,一个独立的文件系统,包括运行一个容器所需的数据,…

HBase读链路分析

简介:HBase的存储引擎是基于LSM-Like树实现的,更新操作不会直接去更新数据,而是使用各种type字段(put,delete)来标记一个新的多版本数据,采用定期compaction的形式来归档合并数据。这种数据结构…

PolarDB for PostgreSQL 开源路线图

简介:作者:蔡乐 本文主要分享一下Polar DB for PG的开源路线图,虽然路线图已经拟定,但是作为开源产品,所有参与者都能提出修改意见,包括架构核心特性的技术以及周边生态和工具等,希望大家能够踊…

5分钟入门Lindorm SearchIndex

简介:SearchIndex是Lindorm宽表的二级索引,主要用来帮助业务实现快速的检索分析。本篇文章介绍如何通过简单的SQL接口操作SearchIndex。 一、引言 云原生多模数据库Lindorm,支持海量数据的低成本存储和弹性按需付费,提供宽表、时…

最后的 48 小时!云 XR 专题赛邀你一起绽放精彩,我们赛场见!

2022 年是 5G 应用规模化发展的关键之年。随着5G的深入发展,涵盖百亿级“人机物”的智能连接正加速构建,经济社会发展不断向虚实融合演进,基础设施形态也不断向云网融合升级。随着连接对象的拓展和基础设施的升级,XR、元宇宙等新业…

Snowflake核心技术解读系列——架构设计

简介:Snowflake取得了巨大的商业成功,技术是如何支撑起它的千亿美元市值呢?它技术强在哪?本文为大家倾情解读Snowflake的核心技术原理。 背景:2020年9月16日,Snowflake成功IPO,交易首日市场估值…

Apsara Stack 技术百科 | 可运营的行业云,让云上资源跑起来

简介:企业级云管理平台,如何打造千人千面的个性化体验,从应用、云资源、硬件等进行全局智能优化,实现资源配置的最佳配比,构建精细化运营能力? 距离第一例新冠疫情病例的发现,不知不觉中已经过去…

中国数据库崛起,阿里云李飞飞:中国云数据库多种主流技术创新已领先国外

“中国云数据库在很多主流技术创新上已经领先国外。”李飞飞表示,“PolarDB未来还会不断基于新一代云计算架构进行创新突破,持续释放云计算的资源池化潜力,让客户享受到更多云原生技术的红利。” “中国云数据库在很多主流技术创新上已经领先…

十年再出发,Dubbo 3.0 Preview 即将在 3 月发布

简介:随着Dubbo和HSF的整合,我们在整个开源的体系中更多地去展现了 HSF 的能力,能够让更多的人通过使用 Dubbo 像阿里巴巴之前使用 HSF 一样更好的构建服务化的系统。 2011 年,阿里 B2B 团队决定将项目开源,一年时间就…

如何帮助金融客户“用好云”?

简介:如何帮助金融客户“用好云”?做「政企数智创新的同行者」,这对于阿里云混合云来说不仅仅是一句口号,更是在千行百业践行的行动指南。 “我一秒钟几千万上下,会跟你们吃杂碎面?” 这句出自星爷电影台…

nuc8i7beh安装linux随机重启,指南:nuc8i5beh安装黑苹果的教程,接近完美运行

黑苹果采购硬件设施nuc8i5beh镁光m.2 1100 256固态硬盘三星 DDR4 2400笔记本内存条HKC电脑显示器8G U盘(这个之前有,不属于采购的)所需软件Mojave 10.14.6网盘下载Catalina 10.15.2balenaEtcher:下载地址bios65文件:下载地址nuc8 安装软件包&…

低代码、端到端,一小时构建IoT示例场景,声网发布灵隼物联网云平台

2020年,全球 IoT 设备连接数量首次超过非 IoT 设备。市场在高速增长,但音视频物联网的开发门槛依然很高。 6月28日,声网在线上举办主题为“视听无界,智联万物”的产品发布会,正式发布了“灵隼物联网云平台”&#xff0…

云知声 Atlas 超算平台: 基于 Fluid + Alluxio 的计算加速实践

简介:本文主要介绍云知声 Atlas 超算平台基于 Fluid Alluxio 的计算加速实践,以及 Fluid 是如何为 Atlas 带来全新的数据集管理方式的。 Fluid 是云原生基金会 CNCF 下的云原生数据编排和加速项目,由南京大学、阿里云及 Alluxio 社区联合发…

eBPF技术应用云原生网络实践系列之基于socket的service | 龙蜥技术

简介:如何使用 socket eBPF进一步提升Service 网络的转发性能? 背景介绍 Kubernetes 中的网络功能,主要包括 POD 网络,service 网络和网络策略组成。其中 POD 网络和网络策略,都是规定了模型,没有提供默认…

从开店营销到智能化私域运营,有赞发布人工智能引擎Jarvis

“以往在私域发起一场营销活动,从活动策划,到历史数据分析,再到内容排期,整个策划阶段往往需要一周以上的时间,而现在通过营销画布(MA)以及其中内嵌的人工智能能力,只需要30分钟不到…