Page 18 - 网络电信2023年10月刊
P. 18
运营商专栏
NOC是实现远程实时监控服务运营和检测设备状况的网络 图6 工单派发功能
化中心,主要涉及运维设计、运维监控、故障分析、诊断测
试等几大功能模块,可结合运营商EOMS(Electric Operation
Maintenance System)电子运维系统进行任务工单派发,将NOC
嵌入现有运维流程可提高相关技术、流程、组织及管理效率,
进而提升网络与服务的稳定性与可预见性。其中运维监控、故
障分析、诊断测试等模块主要提升维护域中故障识别、隐患识
别、定界定位、处理方案关联等自智网络核心能力。
现场外线主要是承载、处理、闭环EMOS电子运维系统所派
发任务工单,包括现场维护人员的任务调度、资源调度及部分
指令巡检无法解决的,需要最终现场进行排障巡检。
3.1.1 运维设计功能
运维设计功能主要包括两部分功能设计:运维规则设计与
AI辅助规则设计,主要应对自智网络L3评级标准要求,即将经
验规则从系统中解耦,系统支持图形化界面自主配置故障识别特征和 T1为告警消除最大量时间点,T2为关联指派时间点,T3为
识别模板,系统基于规则自动关联跨域故障、隐患,识别网络故障事 告警派发最长时限,通过分析历史告警,给出最佳关联时间点
件或隐患事件,并按照解耦的规则自动定界定位故障原因,生成结构 阈值,减少消除告警的无效派单量,通过关联减少派单总量,
化处理方案,当规则需要调整时,只需二次配置。 提升运维效率,通过动态设置派单时间阈值,追加合并派单,
其中运维规则设计主要来源于运营商长期积累的相关运维 减少无效派单、重复派单。
经验,制定分析规则、诊断规则、派发规则、调度规则、激活 3.2 现场外线配合
规则等,将上述规则应用于可视化设计分析中,为自动化运维 3.2.1 故障单处理
提供快速设计能力[4]。 集中故障告警平台针对告警监控进行结果输出,在创建
AI辅助规则设计则是由传统技术专家进行专业设计转变为 TT(Trouble Ticket)工单之前,需要等待一定告警清除时间,
通过AI技术辅助进行根因规则设计。将相关网元类型、告警类 避免相关工单追回。当系统收到TT的告警清除消息后,可以自
型、告警信息、告警码、位置信息等作为输入项,通过神经网 动关闭TT单和相对应的WO(Work Order)单,如图7所示。
络相关算法最终输出AI辅助规则[5,6]。 通过运维经验和对历史工单进行机器学习、挖掘工单相关
3.1.2 运维监控功能 性规则,启动策略归并重复工单,去除无效工单。
通过对数据源、数据表等分析进行场景监控设计,可视化
图7 故障单处理
呈现多系统、多界面的监控。
场景运维监控可对网络全景监控,也可选择性针对主题监
控,定制适合实际需求的个性化监控功能。将之前被动运维、
基本无故障预测转变为隐患故障可预测及规避。
3.1.3 故障分析功能
通过部署RCA(Root Cause Analysis)根因分析规则挖掘工
具,根据算法学习出固有规律,形成规则放入RCA中进行告警根
因查看和告警抑制压减。
再结合性能指标、参数配置、相关变更情况、问题日志等进行多源
关联分析,从而对故障进一步确认,提高故障分析的准确性及效率性。
3.1.4 诊断测试功能
诊断测试功能主要包含人工诊断指令及自动诊断脚本两部分。 3.2.2 任务及资源调度
首先通过人工诊断指令下发至网元管理系统(Element 对于外部系统派发的TT单,在某些应用场景下,不需要相
Management System,EMS),再由EMS反馈诊断结果至人工诊断指 关分析处理,可以直接派发至外场工程师处进行解决。对于这
令部分;自动诊断脚本可批量生成指令,再由EMS反馈上报相关 种应用场景,系统提供TT单自动受理并派发子单的功能。当系
诊断报告,将诊断结果或诊断报告中异常问题自动创建维护工 统接收到TT单时,自动以系统超级用户来受理TT单,然后进行
单并指派现场处理,交由现场工单管理,进行后续流程处理。 处理,在处理该步骤时可自动选择生成WO单,并生成子单。智
3.1.5 工单派发功能 能调度主要是将任务通过AI调度引擎进行工单计划制订、位置
工单关联RCA的关联规则,进行根故障派单、子故障合并派 及路线规划、员工能力及工具需求分析,把任务与资源相结合
单,综合考虑网络拓扑、运维经验等信息,例如同一基站下所 达到最佳匹配效果。通过人员调度、资源调度、路径规划等可
有小区退服,则合并为一个业务工单,从源头减少派单量,提 实现工单“零”时间指派、合理安排人员工作任务量,提升派
高故障解决效率,如图6所示。 单准确率、提升平均工单响应时长及资源使用效率。
24 网络电信 二零二三年十月