Page 19 - 网络电信2022年5月刊
P. 19

图1 网络资源数据的处理方法                                      表1 常见音的基于统计概率排序的拼音-汉字对应码表




















                网络资源数据处理方法的实现大体上分为4步:                            此,采用高德地图地理位置名称、中国移动机房名称、站点名
                第一步,中国移动网络资源数据专有语料库的构建;                          称和网络设备中文标准名称作为该专有词组库的词组来源。
                第二步,隐马尔可夫模型参数矩阵μ=(A,B,π) 的训练;                        第一步,利用高德地图api 爬取广东省内21 个市的所有地
                第三步,Viterbi 算法实现设备名翻译;                           名、街道名。
                第四步,对两个数据表中的资源字段进行概率关联匹配。                            第二步,在中国移动网管系统和综合资源管理系统中,收
                2. 网络资源数据处理系统模块搭建                                集全省的机房名、站点名。
                网络资源数据处理系统的建立模块,用于根据获取的网络                            第三步,获取通信网络设备的标准名,设立中文分词规
            资源词语建立资源专属词库;构建模块,用于根据资源专属词                          则,切分得到通信网络设备标准名的中文部分。
            库构建隐马尔可夫模型;预处理模块,用于对待处理的资源数                              第四步,将以上获得所有地名、街道名、机房名、站点
            据进行预处理清洗;数据处理模块,用于根据隐马尔可夫模型                          名、通信网络设备名称的中文部分切分到不可继续切分的最小
            对预处理清洗后的资源数据进行分析和翻译。网络资源数据系                          词组(即长度大于1),并计算相应词频,最终输出格式(去
            统如图2所示:                                              重):
                                                                     最小词组1:词频1
              图2 网络资源数据的处理系统                                         最小词组2:词频2
                                                                     最小词组3:词频3
                                                                     ……
                                                                     最小词组n:词频n
                                                                     以此作为语料库中的词组及词频成分。
                                                                     从而完成了中国移动网络资源数据专有词组库的构建。

                                                                     四、HMM模型训练与Viterbi算法
                                                                     1. HMM模型的训练生成
                                                                     对所构建的中国移动网络资源数据专有词组库进行分词、
                                                                 词频统计及变换。具体为将词库中的长词或短句划分为短词,
                                                                 在此基础上统计词语出现频次,并对词频进行变换处理。本文
                                                                 中的分词操作可利用jieba 库,以分词长度N1 为基准将词库中
                三、中国移动网络资源数据专有语料库构建                              词语划分为长度小于N1的短词,从而提升后续数据处理、翻译
                1. 概率排序的拼音与汉字对应表                                 准确率。分词前,先筛选出词库中长度小于N1  的词语并进行
                根据拼音-汉字的自然语言统计规律,构造了常见音的基                        词频统计及变换,将统计及变换结果加入jieba  库自定义词典
            于统计概率排序的拼音-汉字对应码表。作为拼音字母向中文汉                         中,再对词库中长度大于等于N1  的词语进行分词,以提升分词
            字转换的基础字典。其中,部分拼音-汉字的对应关系如表1所                         准确性。对词频进行变换处理,是指通过词频变换提升jieba
            示。                                                   库自定义词典中词语权重占比,以及提升后续数据处理及翻译
                2. 中国移动网络资源数据专有词组库                               的准确率。对词语S 的词频M 变换成M_t:
                对于通信网络运营商,地理位置信息是网络资源数据的                                                                         (1)
            重要组成部分,直接作用于网络资源数据中的如网络设备名、
            设备端口描述、设备所属机房名、设备所属站点名等多个字段                              式中,length(S) 为词语S的字符串长度,N2为放大系数。
            属性,从而影响网络资源数据端到端跨专业的关联成功率。因                          在本文的实践应用中,N1=5,N2=5000。

                                                      网络电信 二零二二年五,六月                                           23
   14   15   16   17   18   19   20   21   22   23   24