Page 21 - 网络电信2022年5月刊
P. 21
“OLT-LongGangTianHongM-OLT”, 该Viterbi算法实施之后的 为了验证本文所提出的HMM-Viterbi 网络资源数据处理方
效果如图3所示。 法的有效性和准确性,采用了中国移动网络资源数据进行实验
验证。先对待处理资源数据进行数据清洗,目的是为了提取待
图3 Viterbi算法对网络资源数据的实施案例 处理资源数据的有效信息,即针对待处理资源数据的特征进行
数据清洗,剔除数据冗余信息。可选地,包括但不限于针对特
定分隔符进行信息提取、根据关键字进行正则匹配、中文或拼
音分词等数据处理操作。
举 例 说 明 , 首 先 将 移 动 网 络 资 源 数 据 词 串 “ Y F -
YNlianzhuluJZ-001-C320-OLT”切分,并提取“YF”、
“YNlianzhuluJZ”、“001”、“C320”、“OLT” 等字符
串。根据隐马尔可夫模型对预处理后的资源数据进行分析和翻
其中,Score是Viterbi的得分,path是Viterbi解码的 译,对提取的有效信息针对不同设备类型按需进行拼音/ 拼音
路径,其中得分最高的前2 个甚至前1 个path,即[‘龙’, 简写的智能翻译、与标准资源字段的模糊匹配翻译,以及数据
‘岗’,‘天’,‘虹’]和[‘龙’,‘岗’,‘天’, 规范化等操作。其中,针对不同设备类型按需进行拼音/ 拼音
‘鸿’]则为HMM 和Viterbi算法的翻译结果,用于下一步的关 简写的智能翻译,指的是按该设备类型判断该字段是否包含中
联匹配。 文字符、待处理数据是否包含拼音/ 拼音简写,区分是否涉及
3. 不同资源字段的关联匹配 拼音智能翻译,如涉及则进行拼音/ 拼音简写到专业术语中文
此处的“不同资源字段”,指的是对于同一资源对象在 字符的转换。
不同的数据库表里被存储为不同的字段名称且有不同的写法
图4 网络资源解码最优路径示意图
的情况。如图3 所举示例,对于同一个OLT资源对象,在网
络直采数据表中的字段名称为“对端描述”,写法为“OLT-
LongGangTian HongM-OLT”; 而在设备标准化命名列表中的
字段名称则为“OLT名称”,写法为“深圳龙岗区龙岗天虹
M-OLT001-ZX-C320”。只有提升同一资源对象在不同数据库表
里相应的“不同资源字段”的匹配率,才能提高实际网络运维
工作中的告警和故障关联成功率,从而提高网络监控效率和故
障定位效率。
将隐马尔可夫模型和Viterbi算法的字段翻译结果与网络
资源的标准命名字段的模糊匹配翻译,将翻译的结果通过基于 通过维特比算法对上述构建的隠马尔可夫模型λ=(A,B,π)
Levenshtein Distance(编辑距离算法,又叫Edit Distance) 进行解码,根据显状态序列(拼音/ 拼音简写)找出最优路径
最短编辑距离匹配、基于最佳的字符子序列匹配、忽略顺序匹 捕获最可能的隐状态(中文字符)序列,从而完成翻译、转
配等算法实现 [16] ,可使用其中一种或综合运用多种,完成待处 换。以“YNlianzhuluJZ”为样例的解码最优路径示意图如图4
理数据与标准资源字段的字符串匹配,找出匹配度最高的标准 所示。
资源字段作为翻译结果。 2. 实验结果与分析
待处理数据为字符序列X,标准资源字段为字符序列Y i ,基 标 准 资 源 字 段 的 模 糊 匹 配 翻 译 , 可 通 过 基 于
于Levenshtein Distance 最短编辑距离匹配可通过以下公式计 LevenshteinDistance匹配、基于最佳的字符子序列匹配、忽略
算两者的编辑距离,找出编辑距离最小的标准资源字段Y i 。 顺序匹配等算法实现,使用其中一种或综合运用多种,完成待
处理数据与标准资源字段的字符串匹配,找出匹配度最高的标
准资源字段作为翻译结果。
在本实验中,对实例“YF-YNlianzhuluJZ-001-C320-OLT”
这一通信网络设备资源命名数据提取有效信息,根据有效信息
情况进行数据分析、翻译的示意图如图5所示。
其中,m为X的前m个字符,n为Y i 的前n个字符。
图5 网络资源命名数据的有效信息提取流程实例
两个字符序列X、Y的相似度用SX,Y 来表示,计算公式为:
(14)
其中,M和N分别为X和Y序列的长度。
五、实验结果
1. 实验数据处理
网络电信 二零二二年五,六月 25