设备端口状态

获取交换机端口的UP或者DOWN状态。

采集原理

采集器通过周期性地查询设备的端口状态。

采集任务参数配置要求

采集方式

SNMP

SNMP OID

1.3.6.1.2.1.2.2.1.8

返回值

端口状态值,如下几种(1-up, 2-down, 3-testing, 4-unknown, 5-dormant, 6-notPresent, 7-lowerLayerDown)

采集超时时间

默认10000ms

采集周期

次/5min

配置筛选条件

  1. 区域(地域)

  2. 机房

  3. POD

  4. 业务属性

  5. 设备角色

  6. 设备IP

特殊要求

  1. 使用同一机房的采集去采集

  2. 支持手动指定某一些IP地址(ip地址段)使用特定的采集器

  3. 支持对没有匹配上的任务进行默认任务配置

任务处理流程

  1. 从筛选条件中筛选出符合要求的设备;设备优先使用带内IP地址作为目标地址去采集,如果没有带内地址,则使用带外去采集。

  2. 将筛选出的设备,设置采集周期;

  3. 对上述设备执行下发任务至指定的采集节点(包括人工指定,和按同一个机房使用本机房的采集器两种方式,后一种为默认行为);

  4. 对于不能通过自动下发任务至同机房采集器的任务,下发任务至默认的采集器去采集;

  5. 采集器执行流量采集任务,当请求报文发出去之后。如果超时时间内(默认 10000ms)没有收到返回,认为设备没有返回。

  6. 将返回值解析成端口index、端口名和端口状态的关系

设备端口状态采集示例

如下是一台Juniper系列交换机的端口状态采集示例。“=”右边的即为端口的状态。

[linux ~]$ snmpbulkwalk -c 360buy -v 2c -O Qn 10.252.255.65 1.3.6.1.2.1.2.2.1.8
.1.3.6.1.2.1.2.2.1.8.4 = up
.1.3.6.1.2.1.2.2.1.8.5 = up
.1.3.6.1.2.1.2.2.1.8.6 = up
.1.3.6.1.2.1.2.2.1.8.7 = up
.1.3.6.1.2.1.2.2.1.8.8 = up
.1.3.6.1.2.1.2.2.1.8.9 = up
.1.3.6.1.2.1.2.2.1.8.10 = up
.1.3.6.1.2.1.2.2.1.8.11 = up
.1.3.6.1.2.1.2.2.1.8.12 = up
.1.3.6.1.2.1.2.2.1.8.16 = up
.1.3.6.1.2.1.2.2.1.8.17 = down
.1.3.6.1.2.1.2.2.1.8.18 = lowerLayerDown
.1.3.6.1.2.1.2.2.1.8.22 = up
.1.3.6.1.2.1.2.2.1.8.23 = down
.1.3.6.1.2.1.2.2.1.8.35 = down
.1.3.6.1.2.1.2.2.1.8.37 = up

采集值预处理

采集会有二类情形,一是采集超时,没有取回结果;二是采集正常。

  1. 采集超时,没有取回结果时,则本次采集为空,即这个时刻没有采集数据,不做任何数据的补充,不能标记为0值等;

  2. 解析返回值,取出返回值中的index和对应的端口状态值

  3. 通过index逆向从CMDB中解析出端口名字

数据染色

对每条采集数据,染色如下。

  1. 时间戳(采集时间)

  2. 业务线

  3. 区域(地域)

  4. 机房

  5. POD

  6. 房间

  7. 机柜

  8. 业务属性(服务角色)

  9. 设备角色

  10. 带内管理IP

  11. 带外管理IP

  12. 设备名

  13. 厂商

  14. 设备品牌

  15. 设备型号

  16. 设备流程状态

  17. 端口index

  18. 端口名

  19. 端口状态值

  20. 端口状态文字描述(如UP, DOWN等,根据返回值里的对应关系取值)

可视化

针对单台设备,对一段时间内指定端口名和其端口的状态。要求如下。

  1. 以横坐标为时间轴,纵坐标为端口状态。刻画设备每个端口的端口状态变化。

  2. 默认展示一个小时的使用率信息;

针对单台设备,对某一时刻所有端口名和其端口的状态。要求如下。

  1. 以表格形式展示,每行一个端口和对应的端口状态的文字表述,对应的端口状态的采集时间

  2. 如果所选时刻没有对应时刻的端口状态信息,则取最近一次采集值

  3. 支持对端口名和端口状态文字描述来排序

报警策略配置

在SYSLOG报警策略中,为了支持端口状态变化这一类报警的自动恢复,需要对涉及端口状态改变的这一类报警策略做些调整,即增加 是否涉及端口状态变化 标签来决定是否进行自动恢复;策略目前支持的是 M分钟N次这类型的;所以恢复条件将为:

# S分钟内触发0次;
# 且,S分钟后,端口状态为UP(对应SNMP采集值为1);

则认为恢复。否则:

# S分钟内有新的端口UP/DOWN触发;
# 或,S分钟后,端口状态不为UP(对应SNMP采集值为1);

则认为未恢复。之后,每S分钟检测一次上述条件。

注意

注意,上述检测仅仅针对于生了报警的端口做此操作;

NOC工单的处理策略

  1. 对于进了NOC工单系统的报警,需要在满足恢复条件的时候进行NOC工单做恢复结单操作。

  2. 对于手工关闭NOC工单系统中对应的工单,则该条报警处理为恢复(即便真实情况为满足恢复条件)

未完成的部分

未完成的部分

  1. 自助任务下发;

  2. 策略的分级,即按类似ACL的方式匹配策略;需求未提

  3. 可视化