设备端口状态¶
获取交换机端口的UP或者DOWN状态。
采集原理¶
采集器通过周期性地查询设备的端口状态。
采集任务参数配置要求¶
采集方式 |
SNMP |
---|---|
SNMP OID |
1.3.6.1.2.1.2.2.1.8 |
返回值 |
端口状态值,如下几种(1-up, 2-down, 3-testing, 4-unknown, 5-dormant, 6-notPresent, 7-lowerLayerDown) |
采集超时时间 |
默认10000ms |
采集周期 |
次/5min |
配置筛选条件 |
|
特殊要求 |
|
任务处理流程¶
从筛选条件中筛选出符合要求的设备;设备优先使用带内IP地址作为目标地址去采集,如果没有带内地址,则使用带外去采集。
将筛选出的设备,设置采集周期;
对上述设备执行下发任务至指定的采集节点(包括人工指定,和按同一个机房使用本机房的采集器两种方式,后一种为默认行为);
对于不能通过自动下发任务至同机房采集器的任务,下发任务至默认的采集器去采集;
采集器执行流量采集任务,当请求报文发出去之后。如果超时时间内(默认 10000ms)没有收到返回,认为设备没有返回。
将返回值解析成端口index、端口名和端口状态的关系
设备端口状态采集示例¶
如下是一台Juniper系列交换机的端口状态采集示例。“=”右边的即为端口的状态。
[linux ~]$ snmpbulkwalk -c 360buy -v 2c -O Qn 10.252.255.65 1.3.6.1.2.1.2.2.1.8
.1.3.6.1.2.1.2.2.1.8.4 = up
.1.3.6.1.2.1.2.2.1.8.5 = up
.1.3.6.1.2.1.2.2.1.8.6 = up
.1.3.6.1.2.1.2.2.1.8.7 = up
.1.3.6.1.2.1.2.2.1.8.8 = up
.1.3.6.1.2.1.2.2.1.8.9 = up
.1.3.6.1.2.1.2.2.1.8.10 = up
.1.3.6.1.2.1.2.2.1.8.11 = up
.1.3.6.1.2.1.2.2.1.8.12 = up
.1.3.6.1.2.1.2.2.1.8.16 = up
.1.3.6.1.2.1.2.2.1.8.17 = down
.1.3.6.1.2.1.2.2.1.8.18 = lowerLayerDown
.1.3.6.1.2.1.2.2.1.8.22 = up
.1.3.6.1.2.1.2.2.1.8.23 = down
.1.3.6.1.2.1.2.2.1.8.35 = down
.1.3.6.1.2.1.2.2.1.8.37 = up
采集值预处理¶
采集会有二类情形,一是采集超时,没有取回结果;二是采集正常。
采集超时,没有取回结果时,则本次采集为空,即这个时刻没有采集数据,不做任何数据的补充,不能标记为0值等;
解析返回值,取出返回值中的index和对应的端口状态值
通过index逆向从CMDB中解析出端口名字
数据染色¶
对每条采集数据,染色如下。
时间戳(采集时间)
业务线
区域(地域)
机房
POD
房间
机柜
业务属性(服务角色)
设备角色
带内管理IP
带外管理IP
设备名
厂商
设备品牌
设备型号
设备流程状态
端口index
端口名
端口状态值
端口状态文字描述(如UP, DOWN等,根据返回值里的对应关系取值)
可视化¶
针对单台设备,对一段时间内指定端口名和其端口的状态。要求如下。
以横坐标为时间轴,纵坐标为端口状态。刻画设备每个端口的端口状态变化。
默认展示一个小时的使用率信息;
针对单台设备,对某一时刻所有端口名和其端口的状态。要求如下。
以表格形式展示,每行一个端口和对应的端口状态的文字表述,对应的端口状态的采集时间
如果所选时刻没有对应时刻的端口状态信息,则取最近一次采集值
支持对端口名和端口状态文字描述来排序
报警策略配置¶
在SYSLOG报警策略中,为了支持端口状态变化这一类报警的自动恢复,需要对涉及端口状态改变的这一类报警策略做些调整,即增加 是否涉及端口状态变化 标签来决定是否进行自动恢复;策略目前支持的是 M分钟N次这类型的;所以恢复条件将为:
# S分钟内触发0次;# 且,S分钟后,端口状态为UP(对应SNMP采集值为1);
则认为恢复。否则:
# S分钟内有新的端口UP/DOWN触发;# 或,S分钟后,端口状态不为UP(对应SNMP采集值为1);
则认为未恢复。之后,每S分钟检测一次上述条件。
注意
注意,上述检测仅仅针对于生了报警的端口做此操作;