Page 21 - 网络电信2022年5月刊
P. 21

“OLT-LongGangTianHongM-OLT”, 该Viterbi算法实施之后的             为了验证本文所提出的HMM-Viterbi  网络资源数据处理方
            效果如图3所示。                                             法的有效性和准确性,采用了中国移动网络资源数据进行实验
                                                                 验证。先对待处理资源数据进行数据清洗,目的是为了提取待
             图3 Viterbi算法对网络资源数据的实施案例                            处理资源数据的有效信息,即针对待处理资源数据的特征进行

                                                                 数据清洗,剔除数据冗余信息。可选地,包括但不限于针对特
                                                                 定分隔符进行信息提取、根据关键字进行正则匹配、中文或拼
                                                                 音分词等数据处理操作。
                                                                     举 例 说 明 , 首 先 将 移 动 网 络 资 源 数 据 词 串 “ Y F -
                                                                 YNlianzhuluJZ-001-C320-OLT”切分,并提取“YF”、
                                                                 “YNlianzhuluJZ”、“001”、“C320”、“OLT”  等字符
                                                                 串。根据隐马尔可夫模型对预处理后的资源数据进行分析和翻
                其中,Score是Viterbi的得分,path是Viterbi解码的              译,对提取的有效信息针对不同设备类型按需进行拼音/  拼音
            路径,其中得分最高的前2  个甚至前1  个path,即[‘龙’,                    简写的智能翻译、与标准资源字段的模糊匹配翻译,以及数据
            ‘岗’,‘天’,‘虹’]和[‘龙’,‘岗’,‘天’,                           规范化等操作。其中,针对不同设备类型按需进行拼音/  拼音
            ‘鸿’]则为HMM  和Viterbi算法的翻译结果,用于下一步的关                   简写的智能翻译,指的是按该设备类型判断该字段是否包含中
            联匹配。                                                 文字符、待处理数据是否包含拼音/  拼音简写,区分是否涉及
                3. 不同资源字段的关联匹配                                   拼音智能翻译,如涉及则进行拼音/  拼音简写到专业术语中文
                此处的“不同资源字段”,指的是对于同一资源对象在                         字符的转换。
            不同的数据库表里被存储为不同的字段名称且有不同的写法
                                                                  图4 网络资源解码最优路径示意图
            的情况。如图3  所举示例,对于同一个OLT资源对象,在网
            络直采数据表中的字段名称为“对端描述”,写法为“OLT-
            LongGangTian  HongM-OLT”;  而在设备标准化命名列表中的
            字段名称则为“OLT名称”,写法为“深圳龙岗区龙岗天虹
            M-OLT001-ZX-C320”。只有提升同一资源对象在不同数据库表
            里相应的“不同资源字段”的匹配率,才能提高实际网络运维
            工作中的告警和故障关联成功率,从而提高网络监控效率和故
            障定位效率。
                将隐马尔可夫模型和Viterbi算法的字段翻译结果与网络
            资源的标准命名字段的模糊匹配翻译,将翻译的结果通过基于                              通过维特比算法对上述构建的隠马尔可夫模型λ=(A,B,π)
            Levenshtein Distance(编辑距离算法,又叫Edit Distance)         进行解码,根据显状态序列(拼音/  拼音简写)找出最优路径
            最短编辑距离匹配、基于最佳的字符子序列匹配、忽略顺序匹                          捕获最可能的隐状态(中文字符)序列,从而完成翻译、转
            配等算法实现     [16] ,可使用其中一种或综合运用多种,完成待处                 换。以“YNlianzhuluJZ”为样例的解码最优路径示意图如图4
            理数据与标准资源字段的字符串匹配,找出匹配度最高的标准                          所示。
            资源字段作为翻译结果。                                              2. 实验结果与分析
                待处理数据为字符序列X,标准资源字段为字符序列Y i ,基                        标 准 资 源 字 段 的 模 糊 匹 配 翻 译 , 可 通 过 基 于
            于Levenshtein Distance 最短编辑距离匹配可通过以下公式计               LevenshteinDistance匹配、基于最佳的字符子序列匹配、忽略
            算两者的编辑距离,找出编辑距离最小的标准资源字段Y i 。                        顺序匹配等算法实现,使用其中一种或综合运用多种,完成待
                                                                 处理数据与标准资源字段的字符串匹配,找出匹配度最高的标
                                                                 准资源字段作为翻译结果。
                                                                     在本实验中,对实例“YF-YNlianzhuluJZ-001-C320-OLT”
                                                                 这一通信网络设备资源命名数据提取有效信息,根据有效信息
                                                                 情况进行数据分析、翻译的示意图如图5所示。
                其中,m为X的前m个字符,n为Y i 的前n个字符。
                                                                  图5 网络资源命名数据的有效信息提取流程实例
                两个字符序列X、Y的相似度用SX,Y 来表示,计算公式为:
                                                         (14)

                其中,M和N分别为X和Y序列的长度。


                五、实验结果
                1. 实验数据处理


                                                      网络电信 二零二二年五,六月                                           25
   16   17   18   19   20   21   22   23   24   25   26