设备端口状态 ****************** 获取交换机端口的UP或者DOWN状态。 采集原理 ~~~~~~~~~ 采集器通过周期性地查询设备的端口状态。 采集任务参数配置要求 ~~~~~~~~~~~~~~~~~~~~~~~ .. list-table:: :widths: auto :stub-columns: 1 :align: left * - **采集方式** - SNMP * - **SNMP OID** - 1.3.6.1.2.1.2.2.1.8 * - **返回值** - 端口状态值,如下几种(1-up, 2-down, 3-testing, 4-unknown, 5-dormant, 6-notPresent, 7-lowerLayerDown) * - **采集超时时间** - 默认10000ms * - **采集周期** - 次/5min * - **配置筛选条件** - #. 区域(地域) #. 机房 #. POD #. 业务属性 #. 设备角色 #. 设备IP * - **特殊要求** - #. 使用同一机房的采集去采集 #. 支持手动指定某一些IP地址(ip地址段)使用特定的采集器 #. 支持对没有匹配上的任务进行默认任务配置 任务处理流程 ~~~~~~~~~~~~~~ a. 从筛选条件中筛选出符合要求的设备;设备优先使用带内IP地址作为目标地址去采集,如果没有带内地址,则使用带外去采集。 #. 将筛选出的设备,设置采集周期; #. 对上述设备执行下发任务至指定的采集节点(包括人工指定,和按同一个机房使用本机房的采集器两种方式,后一种为默认行为); #. 对于不能通过自动下发任务至同机房采集器的任务,下发任务至默认的采集器去采集; #. 采集器执行流量采集任务,当请求报文发出去之后。如果超时时间内(默认 10000ms)没有收到返回,认为设备没有返回。 #. 将返回值解析成端口index、端口名和端口状态的关系 设备端口状态采集示例 ~~~~~~~~~~~~~~~~~~~~~~~~ 如下是一台Juniper系列交换机的端口状态采集示例。“=”右边的即为端口的状态。 .. code-block:: shell [linux ~]$ snmpbulkwalk -c 360buy -v 2c -O Qn 10.252.255.65 1.3.6.1.2.1.2.2.1.8 .1.3.6.1.2.1.2.2.1.8.4 = up .1.3.6.1.2.1.2.2.1.8.5 = up .1.3.6.1.2.1.2.2.1.8.6 = up .1.3.6.1.2.1.2.2.1.8.7 = up .1.3.6.1.2.1.2.2.1.8.8 = up .1.3.6.1.2.1.2.2.1.8.9 = up .1.3.6.1.2.1.2.2.1.8.10 = up .1.3.6.1.2.1.2.2.1.8.11 = up .1.3.6.1.2.1.2.2.1.8.12 = up .1.3.6.1.2.1.2.2.1.8.16 = up .1.3.6.1.2.1.2.2.1.8.17 = down .1.3.6.1.2.1.2.2.1.8.18 = lowerLayerDown .1.3.6.1.2.1.2.2.1.8.22 = up .1.3.6.1.2.1.2.2.1.8.23 = down .1.3.6.1.2.1.2.2.1.8.35 = down .1.3.6.1.2.1.2.2.1.8.37 = up 采集值预处理 ~~~~~~~~~~~~~~~~ 采集会有二类情形,一是采集超时,没有取回结果;二是采集正常。 a. 采集超时,没有取回结果时,则本次采集为空,即这个时刻没有采集数据,不做任何数据的补充,不能标记为0值等; #. 解析返回值,取出返回值中的index和对应的端口状态值 #. 通过index逆向从CMDB中解析出端口名字 数据染色 ~~~~~~~~~~~~~~~~ 对每条采集数据,染色如下。 a. 时间戳(采集时间) #. 业务线 #. 区域(地域) #. 机房 #. POD #. 房间 #. 机柜 #. 业务属性(服务角色) #. 设备角色 #. 带内管理IP #. 带外管理IP #. 设备名 #. 厂商 #. 设备品牌 #. 设备型号 #. 设备流程状态 #. 端口index #. 端口名 #. 端口状态值 #. 端口状态文字描述(如UP, DOWN等,根据返回值里的对应关系取值) 可视化 ================== 针对单台设备,对一段时间内指定端口名和其端口的状态。要求如下。 #. 以横坐标为时间轴,纵坐标为端口状态。刻画设备每个端口的端口状态变化。 #. 默认展示一个小时的使用率信息; 针对单台设备,对某一时刻所有端口名和其端口的状态。要求如下。 #. 以表格形式展示,每行一个端口和对应的端口状态的文字表述,对应的端口状态的采集时间 #. 如果所选时刻没有对应时刻的端口状态信息,则取最近一次采集值 #. 支持对端口名和端口状态文字描述来排序 报警策略配置 ~~~~~~~~~~~~~~~~~~~~~~~ 在SYSLOG报警策略中,为了支持端口状态变化这一类报警的自动恢复,需要对涉及端口状态改变的这一类报警策略做些调整,即增加 **是否涉及端口状态变化** 标签来决定是否进行自动恢复;策略目前支持的是 M分钟N次这类型的;所以恢复条件将为: | # S分钟内触发0次; | # 且,S分钟后,端口状态为UP(对应SNMP采集值为1); 则认为恢复。否则: | # S分钟内有新的端口UP/DOWN触发; | # 或,S分钟后,端口状态不为UP(对应SNMP采集值为1); 则认为未恢复。之后,每S分钟检测一次上述条件。 .. attention:: 注意,上述检测仅仅针对于生了报警的端口做此操作; NOC工单的处理策略 ~~~~~~~~~~~~~~~~~~~~~~~ #. 对于进了NOC工单系统的报警,需要在满足恢复条件的时候进行NOC工单做恢复结单操作。 #. 对于手工关闭NOC工单系统中对应的工单,则该条报警处理为恢复(即便真实情况为满足恢复条件) 未完成的部分 ================== 未完成的部分 ================== #. 自助任务下发; #. 策略的分级,即按类似ACL的方式匹配策略;需求未提 #. 可视化