Datadog Dash 2024 新功能解析

Datadog 2024 年的 Dash 刚刚落下帷幕,作为正在与 Datadog 开始竞争的观测云,我们认真仔细的分析了 Datadog 的每一个新功能,发现一些很有意思的事情,今天就给大家做一次全面的分析。(所有 Datadog 的 Dash 的最新功能介绍均来自于 DASH 2024: Guide to Datadog's Newest Announcements | Datadog ,大家可以参考原始说明。)

Part 1: DASH 2024 Keynote Roundup

观测能力

1、LLM Observability

不出意外,Agent 开发相关的可观测性必然被引入,相较于 LangSmith 只能调试 Agent 而言,Datadog 引入整个功能可以将全生命周期的观测延展到 Agent 开发,而不仅仅局限于 Agent 开发中的调试,这个价值必然大于单纯的 LangSmith。

这个能力,观测云也开发了一段时间了,预期会在近期就跟大家见面~

2、更好的兼容了 Otel 的 Collector 的 DDAgent

Datadog 终于正式的完整的将 Otel 纳入到了自己的体系内,现在 Otel 的标准化趋势已经无法撼动,任何的 Instrumentor,无论是用什么技术,从数据结构上也必然向 Otel 靠拢,这也是商业公司的一个妥协吧,所以未来的观测世界用什么手段获取数据,用什么手段观测不重要,但大家都不约而同的选择了统一的数据结构和范式。Datadog 很早就支持了 Otel 的数据结构,只不过这一次更是可以用 DDAgent 来作为 Otel Collector 了。

对于观测云来说,可能这是第一天就支持的,尤其在中国这种大环境,还存在注入 skywalking,早期 zipkin,jaeger 等等方案,所以观测云从第一天不仅仅是 Otel 的 Collector,还是其他各种技术方式的 Collector,这也意味着至少在兼容性方面,观测云比 Datadog 更广泛。

3、强大的数据分析能力的 LogWorkspaces

日志永远是可观测性数据的一个重要的组成部分,对日志能力的支持也是 Datadog 一直补强的重点。 这次推出了基于 SQL 的日志分析工作台。

观测云本身提供了统一的数据语言 DQL,意味着本身不仅仅对于日志,对于所有的数据都可以通过 DQL 进行非常个性化的分析。当然观测云目前并没有公开支持 SQL 分析,但观测云本身就是一个 MPP 数据仓库,我们没有暂时没有把 SQL 能力开放出来,不过其实使用 DQL 就能实现类似的效果,并且可分析的数据种类远远超过 Datadog。

4、Live Debug

对于程序员来说神级功能,某种程度上观测监控平台并不是一个仅仅面向运维的平台,与传统的监控系统相比最大差异也在其更被定位成一个远程的调试平台,所以能够对生产环境进行 Live Debug 对每个程序员来说都是非常幸福的事情。

观测云目前掌握相关技术,短期内没有产品化的想法,另外对于大家来说,能够让研发直接在线注入代码进行 Debug 这种功能,是怎么看的?

5、面向产品交互设计的分析能力

这个功能是在原来的 Rum 基础上的增强,包括增加了 Session Replay,Heatmap,桑基分析等能力,看来 Datadog 本身作为优秀的交互性产品,真的对宠爱前端开发工程师。

观测云本身也是非常宠前端开发工程师的,相关能力我们也正在补充中~期待在后续的更新中看到我们的 Heatmap 和桑基分析等能力。

安全能力

Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。

行动/执行

从这里看,Datadog 的手开始变得长了,除了观测以外,也开始进入到控制领域了,只不过和传统中国式运维控制不同,Datadog 更强调的是通过数据来控制。

1、自动为 Kubernetes 机器进行扩缩容

Datadog 目前可以通过费用数据,或者监控数据直接根据你的策略,手动或者自动对你的 Kubernetes 集群进行管理了。

观测云也提供了控制能力,通过 Func 平台,观测云也可以提供相应的控制能力,只不过和 Datadog 比,我们并没有直接提供这种能力,想想在中国市场,一个云端应用可以直接管理你的基础设施和应用,还是蛮可怕的,不知道大家接受的了吗?

2、将变更情况与告警结合起来

Datadog 支持将发生告警的时候追溯上次变更情况,并可以观测代码的变化,快速协助工程师定位问题。这又是一个很好用的站在研发视角下的功能,大家就不用出问题自己再找版本去翻代码了。

观测云目前并没有这个功能,但其实已经在日程上了。

3、大模型自动根因分析 Bits.AI

这是 Datadog 自身与大模型结合的一个能力,通过对可观测性数据综合的 RAG,来出局一定指导意义的分析。

目前观测云也在调整 Prompt 和 Workflow 以获取更好的效果。

4、提升 OnCall 的可观测性分析体验

Datadog 有自己的 APP,最近进行增强,让移动端收到 OnCall 的工程师获得更好的体验以及更好的数据分析的体验。

观测云也有自己的 APP,但坦白来说,整体能力还是距离 Datadog 比较远。

Part 2: DASH 2024 Infrastructure Roundup

云费用管理

Datadog 加强了其云费用管理的功能,包括了以下这些能力:

1、将所有云服务的费用管理集中分析,包括一些 SaaS 服务的费用统计支持

2、可以监控管理云费用的变化

3、提供面向 AWS的费用建议

4、支持 Twilio(云通信)的费用

对观测云来说,云费用管理更是已经类似解决方案的能力,我们目前并没有直接将这个能力封装成功能,但是由于观测云强大的配置能力,实际上我们不少用户就在使用观测云对自己的阿里云华为云 AWS 的费用进行分析管理和监控,未来我们考虑可以将这一部分能力设计的更好,向 Datadog 学习。

Serverless 监控

1、远程插桩 Lambda 的应用

2、提供全面的 AWS Step Functions 的可视化支持

3、自动插桩 Azure App Service Linux Web Apps

4、自动插桩 Google Cloud Run services

可以看出 Datadog 不断加强对于 Lambda 类型的函数计算的能力的支持,同时也看到 Datadog 对于多云的广泛支持。对于观测云来说,这部分是落后的,我们目前针对 AWS 还只是通过 AWS 的开源 Lambda Layer Extension 实现对 AWS Lambda 的支持,自己的 Layer Extension 正在开发中。所以这部分追赶尚需时日。

日志管理

1、通过 DDAgent 进行采集数据时的脱敏

2、提供更廉价的日志存储方案 Flex Logs

对于日志管理这两块的增强,首先第一个能力,观测云在一开始大量的技术都是放在客户端侧,因此端侧脱敏从一开始观测云通过 Pipeline 就支持了。 和 Datadog 相反,我们恰恰刚刚提供了中心侧的处理能力包括脱敏能力。

而日志本身提供更廉价分层,也是观测云努力的目标,期待在今年内看到我们有趣的存储方案。

网络监控

1、找到网络路径中的问题

2、从 IP 库 了解 IP 地址的信息

3、网络性能的监控能力

4、为自定义发现的网络设备追加 Tag

和观测云一样,Datadog 对本地网络监控能力也是后期追加的,也算在 npm 领域的追赶着,可能观测云在网络设备监控相关能力还比较弱,相较于 Zabbix,目前我们也在抓紧这部分能力的补全。

分析能力

1、DDSQL Editor

2、快速基于图形的根因分析

3、更好的告警分析面板

4、基础设施故障与变更关联

这两个分析能力对于观测云来说,第一个是基于 DQL 现在就有的能力,除了不是 SQL,我们早就可以做类似的自主分析,当然其实也可以基于 SQL,如果使用我们部署版本的客户,其实是可以打开 SQL 入口的。

第二个功能,又是一个结合大模型的功能,对我们非常有启发,期待后续提供类似的能力。

第三个功能非常值得借鉴,我们会尽快研究推出类似的能力。

第四个变更的关联分析这种能力也是 Datadog 完整变更观测的一部分,我们在整体的变更观测分析功能推出的时候会体现出来。

平台能力

1、Datadog Disaster Recovery

2、通过 Fleet Automation 管理 DDAgent

3、支持了美国政府专有云

关于这些,Datadog Disaster Recovery 是 Datadog 作为一个 SaaS 给到管理员一个超级权限进行行为兜底,显然是为了取得大企业的信任,当然这一点上观测云本身提供 OP 模式,在 OP 模式下的控制台就有这个能力。

而 Fleet Automation 对应的是观测云的 DCA(Datakit Control Administer),可以帮你轻松的管理所有的 Agent。

关于支持美国政府专有云这点我想说得是观测云刚刚取得了阿里云飞天专有云的兼容和适配认证,可以全方位的为所有的阿里云专有云用户提供服务。当然我们同时也支持包括华为云的 HCS 和腾讯云的 TCS。

Part 3: DASH 2024 Applications Roundup

APM 和持续追踪的增强

1、提升了 apm 的探针的配置简易度

这块用户体验部分 Datadog 加强了,观测云之前和 Datadog 一样是配置流,而不是 Newrelic Dynatrace 这种简易安装流的,当然看到 Datadog 妥协了,我们也会尽快妥协。(但确实这种建议流在实际使用中会有很多问题,更适合一开始获取用户的好感和简单应用,关于这一点后面会写文章展开解释)

2、了解服务的健康度

3、支持分布式链路追踪的瀑布流形态

这个能力观测云差不多两年前就支持了,很高兴看到 2024 年的 Datadog 才支持,而且居然整体设计和我们近乎一样。

4、分析运行时 Profiling 能力

目前观测云正在支持 Profiling 数据的指标提取功能,会增加更多的分析指标时间线(当然也会增加费用),至于后续是否要提供这样一个分析能力,我们会先对客户做一番了解(主要会增加不少成本),Datadog 当然是卖得非常贵。

5、Go 语言的 Profiling CPU Cost 显著下降 14%

观测云兼容 ddtrace 的 Profiling 的组件,如果用这个组件,天然会获得这个能力。

6、自动分析内存泄漏趋势的应用

非常好的能力,观测云将尽快跟进。

数据服务可观测

1、Data Jobs Monitoring 监控大数据传输处理

2、Data Streams Monitoring 支持更多的数据产品(Spark jobs, S3 buckets, Snowflake tables)

3、跟踪下游数据消费

4、通过 Datadog USM 自动发现 PostgresQL 和 Kafka

5、直接监控管理 Snowflake

6、 PG 的 Schema 可观测的支持

对于 Data 的整体监控观测方案,观测云确实落后 Datadog 不少,因为海外技术生态,不管数据库和大数据系统都相对统一,没有那么多的七七八八的开源分支,使得 Datadog 在这件事情上做起来相对标准,可以提供标准化产品。当然观测云本身也没在这部分做过多的投入,我们目前也在思考注入和 AutoMQ,Oceanbase 等中国自己的产品合作,共同打造一整套的面向数据处理过程的全面观测方案。

数字体验分析加强

1、更强大的前端性能分析辅助

观测云也在不断优化自己的 Rum 页面分析能力,这个能力非常好,我们会尽快引入。

2、使用真实用户流量数据来揭示代码中的问题

这又是一个非常提升前端工程师体验的功能,将所有 Rum 元素整合起来方便工程师分析,我们会考虑支持这个能力。

3、支持 Rum session Replay的尾部采样

这个功能观测云早就支持了,可以通过 Datakit 对获取的 Session Replay 进行采样,比如只采集有错误的Replay。

4、支持 Unity SDK

又一个观测云更早支持的能力,观测云早就支持了 Unity 应用。

5、混合编程应用的 Crash 报表整合

这块能力 Datadog 一致做得体验非常好,我们加油吧。

6、优化浏览器 SDK 的集成

这块网页版的 SDK 注入方便程度,观测云也非常简单易用。

7、通过 VScode 插件重现错误

又是一个宠程序员的功能,Datadog 真的非常宠程序员,相信大家对这个能力都很有兴趣,但公司愿意多付费吗?

DASH 2024: Guide to Datadog's newest announcements for security

Datadog 不断地补强他的安全能力,在这部分由于观测云目前没有任何进军安全的想法,故不做解读,有兴趣的朋友可以自己查看原文。

DASH 2024: Guide to Datadog's newest announcements for teams

服务可靠性与交付相关

1、团队 Dora 指标观测

这个功能也是治理方面的,算是一个集成 Dashboard,如果哪位有需要,观测云可以也提供类似的看板,当然也可以提供更多的看板。

2、整体 SLO 的观测大屏

这个能力同上,也是一个整合的 Dashboard,观测云针对 SLO 也有自己的看板,风格不同。

团队数据访问能力

1、Datadog CoTerm

Datadog 收购了 CoTerm 以后,将 CoTerm 的能力整合进来了,但第一个能力居然是协同的终端,同时相当于提供了一个类似堡垒机的能力。

2、跨组织的数据分析

这个能力观测云估计已经有了超过一年了,而且观测云还可以将不同组织的数据 union 查询,希望 Datadog 尽快跟上,毕竟已经开始提供 DDSQL 了。

3、Datadog App Builder

Datadog 的 Dashboard 可以通过 AppBuilder 构建交互式应用,关于这个能力其实观测云也有,当然用户体验稍逊,大家如果需要了解的话可以在观测云的 Dashboard 中选择命令空间,然后在观测云的 Func 中编写对应的执行函数,就可以将 Dashboard 化身为一个带交互的应用。

在线 sheet 分析能力

这是个非常友好的功能。支持将导出的 CSV 文件不用本地 Excel 分析,Datadog 提供了一个在线的 Excel 分格的 CSV 分析能力。

管理敏感数据

这两个功能我们去年就完全支持了。给观测云提出这个需求的是非常注重安全合规的世界五百强头部公司,他们同时也是 Datadog 的大用户。

总结

Datadog 作为目前全球监控观测领域的领导者,是非常值得观测云这样的后来者学习的,大家如果仔细看了Datadog Dash 2024 展示的一些新的功能和改进后就会发现几个点:

  • Datadog 试图不断的将企业的 IT 团队的人通过一个平台整合起来
  • Datadog 非常注重讨好工程师,非常关注用户体验,传递了尊重每一个工程师的理念
  • Datadog 开始扩展自己的边界,包括没有提的安全部分

另外我们非常自豪的表示,观测云整体的设计思路和理念是和 Datadog 近乎一样的,所以才会出现很多功能甚至观测云更早的支持,因为我们相信很多功能需求是来源于最终用户的,我们面对的用户是一种用户,那么大家才会出现很多相似的想法。(包括去年 Datadog 发布的 Case Management 几乎和观测云的异常追踪功能是同月上线的)。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/865621.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于改进YOLOv5s的跌倒行为检测 | 引入SKAttention注意机制 + 引入空间金字塔池化结构SPPFCSPC + 结合ASFF自适应空间融合

前言:Hello大家好,我是小哥谈。为了实现电厂人员跌倒行为的实时检测,防止跌倒昏迷而无法及时发现并救援的事件发生,针对跌倒行为检测实时性以及特征提取能力不足的问题,提出了一种改进YOLOv5s的跌倒行为检测算法网络&a…

PD虚拟机和VirtualBox有什么区别?Parallels Desktop 19.1.1 破解版

随着计算机技术的不断发展,虚拟机软件在现代信息技术领域中扮演着越来越重要的角色。虚拟机不仅可以帮助用户在一台物理机器上运行多个操作系统,还能有效隔离不同环境,提升系统安全性。在众多的虚拟机软件中,PD虚拟机(…

第一百三十八节 Java数据类型教程 - Java boolean数据类型和float数据类型

Java数据类型教程 - Java boolean数据类型 布尔数据类型只有两个有效值:true和false。 这两个值称为布尔值字面量。 我们可以使用布尔值字面量 boolean done; // Declares a boolean variable named done done true; // Assigns true to done布尔变量不能转换为任何其他…

ESP32-VScode环境设置

目录 前言 一、安装VSCode 二、安装ESP32环境 1.安装ESP-IDF 2.ESP-IDF设置 3:开始配置环境 4.打开example进行验证 5.烧录 6.调整波特率 总结 前言 环境:Visual Studio Code 芯片:ESP32 说实话,这是我装的时间最长的一个环境&…

汇聚荣拼多多电商哪些热词比较受关注?

汇聚荣拼多多电商哪些热词比较受关注?在探讨拼多多电商平台的热点关键词时,我们首先得明确,这个平台因其独特的商业模式和市场定位,吸引了大量消费者的目光。拼多多通过“拼团”购物的方式迅速崛起,成为电商行业的一个重要力量。…

2024年用scrapy爬取BOSS直聘的操作

SCrapy框架实现对BOSS直聘的爬取 文章目录 SCrapy框架实现对BOSS直聘的爬取对SCrapy框架的一个简单认识Scrapy 组件的作用Scrapy 数据流 1. 测试反爬2. 定义一个下载中间件类,截取spiders的请求(中间件直接截取请求,并且返回给Spider进行数据解析&#x…

【最新鸿蒙应用开发】——用户信息封装

用户管理工具封装 1. 为什么要封装 在进行如下登录功能时, 通常需要将一些用户信息以及token进行持久化保存,以方便下次进行数据请求时携带这些用户信息来进行访问后端数据。下面分享一下鸿蒙当中实用的持久化封装操作。 2. 步骤 封装用户信息管理工具…

Mybatis Plus 自动填充注解 @TableField(fill = FieldFill.INSERT_UPDATE)

第一步:在需要自动填充的位置加上注解 通过在创建时间和修改时间上添加 fill 填充字段 进行自动填充 第二步:要想实现自动填充还需要实现MetaObjectHandler接口,在这里实现自动填充的逻辑 Component public class MyMetaObjectHandler …

tinyshop项目部署

参考软件测试之测试用例设计(四)_管理后台 测试用例-CSDN博客 1、下载xampp 2、修改apache和mysql的端口分别为4431 ,8013和3306 3、访问页面:输入ip:端口号,出现以下页面即成功 4、安装tinyshop商城 将解压的tinys…

动态住宅代理IP详细解析

在大数据时代的背景下,代理IP成为了很多企业顺利开展的重要工具。代理IP地址可以分为住宅代理IP地址和数据中心代理IP地址。选择住宅代理IP的好处是可以实现真正的高匿名性,而使用数据中心代理IP可能会暴露自己使用代理的情况。 住宅代理IP是指互联网服务…

Transformation(转换)开发-switch/case组件

一、switch/case组件-条件判断 体育老师要做一件非常重要的事情:判断学生是男孩还是女孩、或者是蜘蛛,然后让他们各自到指定的队伍中 体育老师做的事情,我们同样也会在Kettle中会经常用来。在Kettle中,switch/case组件可以来做类似…

【等保2.0的内容有哪些?】

“在“等保2.0”的基础上,分别增加了云计算安全、移动互联安全、物联网安全、工控系统安全、大数据安全5个拓展需求。 《中华人民共和国刑法》第253条,非法将公民个人资料卖给他人,并处罚金。 违反国家相关法律法规,将其在执行公…

vue2使用use注册自定义指令实现输入控制与快捷复制

使用场景 在一些form表单填写内容的时候,要限制输入的内容必须是数值、浮点型,本来el-input-number就可以实现,但是它本身带那个数值控制操作,等一系列感觉不舒服的地方。如果只是使用el-input该多好,只要监听一下输入…

pycharm无法添加python解释器的解决方法

出现该错误的原因是先前创建过重名的解释器(虚拟环境),在pycharm配置中没有完全删除干净。解决方法如下: 首先在文件->设置界面,找到解释器设置。 然后先按图所示点击全部显示虚拟环境: 接着将无法添…

如何快速掌握一门编程语言

学习一门新的编程语言可能是一个具有挑战性的过程,但通过一些系统的方法,可以大大加快这个过程。 目录 第一步:通过书籍和视频课程掌握基本语法1. **学习编程语言的基础知识**2. **掌握字符串处理**3. **掌握正则表达式和解析器**4. **掌握面…

大数据开发如何快速进阶

目录 1. 个人经验与心得分享1.1 试错的价值与机会把握1.2 投入产出比的考量1.3 刻意练习与技能提升1.4 目标设定与职业规划1.5 自我驱动与成长1.6 第一性原理的应用 2. 大数据开发领域的挑战与机遇2.1 技术革新的挑战2.2 数据治理的难题2.3 人才短缺的问题2.4 投入产出比的考量…

权限类漏洞解析——功能权限篇

上一篇【一文理解权限类漏洞产生的原因之未授权篇】有讲过未授权漏洞产生的原因,但是在我实际的挖洞过程中,其实遇见很少,我有印象的好像只有几个非核心站点的中危。 但是对于另一类权限漏洞,功能及数据权限相关的漏洞就不一样了…

计算机图形学入门23:蒙特卡洛路径追踪

1.前言 前面几篇文章介绍了Whitted-style光线追踪,还介绍了基于物理渲染的基础知识,包括辐射度量学、BRDF以及渲染方程,但并没有给出解渲染方程的方法,或者说如何通过该渲染方程计算出屏幕上每一个坐标的像素值。 Whitted-style光…

SQLServer:从数据类型 varchar 转换为 numeric 时出错。

1.工作要求 计算某两个经纬度距离 2.遇到问题 从数据类型 varchar 转换为 numeric 时出错。 3.解决问题 项目版本较老,使用SQLServer 2012 计算距离需执行视图,如下: SET QUOTED_IDENTIFIER ON SET ANSI_NULLS ON GO ALTER view vi_ord…

【坚果识别】果实识别+图像识别系统+Python+计算机课设+人工智能课设+卷积算法

一、介绍 坚果识别系统,使用Python语言进行开发,通过TensorFlow搭建卷积神经网络算法模型,对10种坚果果实(‘杏仁’, ‘巴西坚果’, ‘腰果’, ‘椰子’, ‘榛子’, ‘夏威夷果’, ‘山核桃’, ‘松子’, ‘开心果’, ‘核桃’&a…