常见监控网络链路和网络设备的方法

网络监控主要包括网络链路监控和网络设备监控,通常系统运维人员会比较关注。

一、网络链路监控

网络链路监控主要包含三个部分,网络连通性、网络质量、网络流量。

连通性和质量的监控手段非常简单,就是在链路一侧部署探针,去探测链路另一侧的目标,通过 ICMP、TCP、HTTP 等协议发送探测数据包,分析回包的结果。典型的指标有丢包率、延迟、回包是否匹配预期条件等。

网络流量监控,则关注流量大小以及流量内容。流量大小广泛应用于水位管理,比如机器网卡、交换机的接口、外网出口、专线带宽等,及时发现网络瓶颈。分析流量内容,则可以识别过度耗用带宽的用户和应用程序,验证网络 QoS 策略等。

1、ICMP探测

Categraf 的 ICMP 探测使用 Ping 插件,相关配置在 conf/input.ping/ping.toml,主要是配置要探测的目标地址。

[[instances]]
targets = [ "10.4.5.6", "10.4.5.7" ]
labels = { region="cloud", product="n9e" }[[instances]]
targets = [ "10.4.5.8" ]
labels = { region="cloud", product="zbx" }

Ping 插件可以采集到目标是否连通、延迟时间、丢包率等指标,可以据此做网络链路的监控。比如机房专线的探测,只需要在某个机房部署 Categraf,来探测另一个机房的设备。

2、TCP 探测

很多时候机器是禁 Ping 的,此时 TCP 探测就派上用场了。TCP 探测用的是 Categraf 的 net_response 插件,配置文件在 conf/input.net_response/net_response.toml。实际这个插件既可以探测 TCP 的响应,也可以探测 UDP 的响应。

[[instances]]
targets = ["10.2.3.4:22","localhost:6379",":9090"
]

原理也很简单,就是 Categraf 向目标地址发起网络连接。如果能连通,就认为是正常的,指标值上报为 0,如果失败就是非 0 的值。监控指标名字是 net_response_result_code。

如果是 UDP 的端口,是无法发起连接探测的。此时采用内容匹配探测,即通过 UDP 发个字符串给探测目标,理论上探测目标很快就会给出回复。我们来检查回复内容,如果回复内容包含特定字符串,就表示探测目标活着。

3、HTTP探测

HTTP 探测和 TCP 的探测逻辑几乎完全一致,只不过 HTTP 是七层协议,Categraf 可以解析到 Status code、Response body 这些更细粒度的信息。

[[instances]]
targets = ["http://localhost","https://www.baidu.com"
]

很多公司都会在所有的机器上部署 Agent,Agent 会开一个 HTTP 端口,这样就可以通过探测这些 HTTP 端口,知道 Agent 是否存活,进而反推机器的存活性。

HTTP 插件可以对返回的 Response 做规则匹配,比如判断 Response body 中是否包含特定的字符串,或者 Status code 是否是指定的值等。

二、网络设备监控

网络设备监控的典型手段有三个,一个是 Ping 监控,探测是否存活。另一个是通过 SNMP 获取指标,比如各个网口的状态、流量、包量等。最后一个是 SNMP Trap,一般网络设备有问题,都会发出 Trap 消息,这些 Trap 消息很有价值,分析这些 Trap 消息是常用且有效的监控手段。

1、SNMP 指标获取方式

要采集网络设备的监控指标,一定要了解 SNMP 协议。简单来讲,就是交换机上有个组件叫 SNMP agent(即 snmpd ),监听 UDP 161 端口,提供查询服务。SNMP manager,比如Categraf,可以向 SNMP agent 发起查询请求,传入的参数是 OID,SNMP agent 返回 OID 对应的监控数据。

Categraf 提供了 SNMP 插件,配置文件在 conf/input.snmp/snmp.toml,核心配置就是 SNMP agent 的连接地址以及要采集的 OID 列表。

2、SNMP Trap

与 SNMP 采集指标的方式不同,Trap 消息是由交换机里的 SNMP agent 发消息给 SNMP manager(也是走的 UDP 协议),与指标采集的数据流向相反。

 用 Trap 机制做事件监控是比较便捷的方式,交换机出现关键问题的时候,都会立刻发出 Trap 消息。我们只要在 Trap Receiver 中配置消息匹配规则,指定什么样的消息应该产生告警即可。但是,匹配规则肯定是需要用人类易读的方式,这就需要借助 MIB 库,把 Trap 中的 OID 翻译成人类易读的字符串。

 

此文章为8月Day5学习笔记,内容来源于极客时间《运维监控系统实战笔记》,推荐该课程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/29192.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode-每日一题【剑指 Offer 14- II. 剪绳子 II】

题目 2、3、3的三段,此时得到的最大乘积是18。 答案需要取模 1e97(1000000007),如计算初始结果为:1000000008,请返回 1。 示例 1: 输入: 2输出: 1解释: 2 1 1, 1 1 1 示例 2: 输入: 10输出…

nginx负载均衡(反向代理)

nginx负载均衡 负载均衡:由反向代理来实现。 nginx的七层代理和四层代理: 七层是最常用的反向代理方式,只能配置在nginx配置文件的http模块当中,而且配置方法名称:upstream模块,不能写在server模块中&#…

leetcode26-删除有序数组中的重复项

双指针—快慢指针 慢指针 slow 走在后面&#xff0c;快指针 fast 走在前面探路&#xff0c;找到一个不重复的元素的时候就让slow前进一步并赋值给它。 流程&#xff1a; 代码 class Solution { public:int removeDuplicates(vector<int>& nums) {int slow 0, fas…

解决 “fatal: Could not read from remote repository.

问题描述&#xff1a; 在使用Git将本地仓库推送到远程仓库或将远程仓库克隆到本地的时候&#xff0c;发生了如下错误&#xff1a;“fatal: Could not read from remote repository.” 原因分析&#xff1a; 出现这错误一般是以下两种原因&#xff1a; 客户端与服务端未生成 …

Mybatis异常Invalid bound statement (not found)原因之Mapper文件配置不匹配

模拟登录操作 $.post("/admin/login", {aname, pwd }, rt > {if (rt.code 200) {location.href "manager/index.html";return;}alert(rt.msg)});网页提示服务器代码错误 POST http://localhost:8888/admin/login 500后端显示无法找到Mapper中对应的…

Elasticsearch 使用scroll滚动技术实现大数据量搜索、深度分页问题 和 search

基于scroll滚动技术实现大数据量搜索 如果一次性要查出来比如10万条数据&#xff0c;那么性能会很差&#xff0c;此时一般会采取用scroll滚动查询&#xff0c;一批一批的查&#xff0c;直到所有数据都查询完为止。 scroll搜索会在第一次搜索的时候&#xff0c;保存一个当时的视…

力扣:57. 插入区间(Python3)

题目&#xff1a; 给你一个 无重叠的 &#xff0c;按照区间起始端点排序的区间列表。 在列表中插入一个新的区间&#xff0c;你需要确保列表中的区间仍然有序且不重叠&#xff08;如果有必要的话&#xff0c;可以合并区间&#xff09;。 来源&#xff1a;力扣&#xff08;LeetC…

springboot单元测试的详细介绍

当开发一个复杂的应用程序时&#xff0c;确保代码的正确性和稳定性至关重要。在这方面&#xff0c;单元测试是一个不可或缺的工具&#xff0c;它可以帮助开发人员验证代码的各个部分是否按预期工作。Spring Boot提供了丰富的测试支持&#xff0c;使编写和执行单元测试变得更加容…

基于长短期神经网络的风速预测,基于LSTM的风速预测

目录 背影 摘要 LSTM的基本定义 LSTM实现的步骤 基于长短期神经网络LSTM的风速预测 完整代码: https://download.csdn.net/download/abc991835105/88171311 效果图 结果分析 展望 参考论文 背影 风速预测是一种比较难的预测,随机性比较大,长短期神经网络是一种改进党的RNN…

一文看懂Apipost接口自动化使用方法

随着项目研发进程的不断推进&#xff0c;软件功能不断增多&#xff0c;对于软件测试的要求也越来越高。为了提高测试效率和减少测试成本&#xff0c;许多软件测试团队借助于自动化测试工具来优化测试流程。Apipost也提供了自动化测试工具&#xff0c;在本文中&#xff0c;我们将…

libmpv使用滤镜处理视频进行播放

一、前言 作为一个功能强大的多媒体框架,libmpv为开发者提供了广泛的功能和灵活的控制权。滤镜是libmpv的一个重要特性,允许开发者对视频进行各种实时处理和增强,从而满足用户对于个性化、创意化和高质量视频体验的需求。 滤镜是一种在视频渲染过程中应用特定效果的技术。…

具有吸引子的非线性系统(MatlabSimulink实现)

&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;欢迎来到本博客❤️❤️&#x1f4a5;&#x1f4a5; &#x1f3c6;博主优势&#xff1a;&#x1f31e;&#x1f31e;&#x1f31e;博客内容尽量做到思维缜密&#xff0c;逻辑清晰&#xff0c;为了方便读者。 ⛳️座右铭&a…

leetcode做题笔记56

以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 思路一&#xff1a;模拟题意 int comp(const void* a, …

根据制定的长度切割list值

88、根据制定的长度切割list值 依赖&#xff0c;谷歌开源的工具类库&#xff0c;非常的强大 <dependency><groupId>com.google.guava</groupId><artifactId>guava</artifactId><version>29.0-jre</version> </dependency>其…

C#登录后携带cookie爬取数据

前一段时间&#xff0c;公司以前的一个数据采集任务突然之间采集下来的数据都是0了&#xff0c;也就是未登录状态能够获取到的数据&#xff0c;于是猜想肯定是网站的服务升级了&#xff0c;升级了数据接口的逻辑&#xff0c;于是便开始解决此问题。 此采集程序是由.net core开…

Java—IO 流

Java—IO 流 &#x1f50d;文件创建文件获取文件相关信息目录相关操作 &#x1f50d;IO 流理解流与文件流的分类FileInputStreamFileOutputStream文件拷贝FileReaderFileWriter节点流与处理流类型 BufferedReaderBufferedWriterBufferedInputStream BufferedOutputStream对象处…

Leetcode-每日一题【剑指 Offer 18. 删除链表的节点】

题目 给定单向链表的头指针和一个要删除的节点的值&#xff0c;定义一个函数删除该节点。 返回删除后的链表的头节点。 注意&#xff1a;此题对比原题有改动 示例 1: 输入: head [4,5,1,9], val 5输出: [4,1,9]解释: 给定你链表中值为 5 的第二个节点&#xff0c;那么在调…

Target Network缓解DQN的动作价值的高估问题

1、高估问题产生的原因 原因1&#xff1a;由于噪声的存在&#xff0c;影响 m a x ( Q ) max(Q) max(Q)的估计最大值比真实的最大值更大&#xff0c;最小值比真实最小值更小&#xff1b; 原因2&#xff1a;Bootstrapping&#xff0c;DQN近似动作价值 Q Q Q&#xff0c;使用TD算…

备战大型攻防演练,“3+1”一套搞定云上安全

在重大活动保障期间&#xff0c;企业不仅要面对愈发灵活隐蔽的新型攻击挑战&#xff0c;还要在人员、精力有限的情况下应对不分昼夜的高强度安全运维任务。如何在这种多重压力下&#xff0c;从“疲于应付”迈向“胸有成竹”呢&#xff1f; 知己知彼&#xff0c;百战不殆&#…

用户体验旅程图:改进用户体验的好工具

用户体验旅程图&#xff1a;改进用户体验的好工具 怎么改进体验&#xff0c;是有方法的 用户情绪曲线来衡量用户感觉 趣讲大白话&#xff1a;没有流程刨析&#xff0c;就没法改进 【趣讲信息科技245期】 **************************** 企业管理需要基本的流程的 企业流程简称BP…