Page 19 - 网络电信2022年5月刊
P. 19
图1 网络资源数据的处理方法 表1 常见音的基于统计概率排序的拼音-汉字对应码表
网络资源数据处理方法的实现大体上分为4步: 此,采用高德地图地理位置名称、中国移动机房名称、站点名
第一步,中国移动网络资源数据专有语料库的构建; 称和网络设备中文标准名称作为该专有词组库的词组来源。
第二步,隐马尔可夫模型参数矩阵μ=(A,B,π) 的训练; 第一步,利用高德地图api 爬取广东省内21 个市的所有地
第三步,Viterbi 算法实现设备名翻译; 名、街道名。
第四步,对两个数据表中的资源字段进行概率关联匹配。 第二步,在中国移动网管系统和综合资源管理系统中,收
2. 网络资源数据处理系统模块搭建 集全省的机房名、站点名。
网络资源数据处理系统的建立模块,用于根据获取的网络 第三步,获取通信网络设备的标准名,设立中文分词规
资源词语建立资源专属词库;构建模块,用于根据资源专属词 则,切分得到通信网络设备标准名的中文部分。
库构建隐马尔可夫模型;预处理模块,用于对待处理的资源数 第四步,将以上获得所有地名、街道名、机房名、站点
据进行预处理清洗;数据处理模块,用于根据隐马尔可夫模型 名、通信网络设备名称的中文部分切分到不可继续切分的最小
对预处理清洗后的资源数据进行分析和翻译。网络资源数据系 词组(即长度大于1),并计算相应词频,最终输出格式(去
统如图2所示: 重):
最小词组1:词频1
图2 网络资源数据的处理系统 最小词组2:词频2
最小词组3:词频3
……
最小词组n:词频n
以此作为语料库中的词组及词频成分。
从而完成了中国移动网络资源数据专有词组库的构建。
四、HMM模型训练与Viterbi算法
1. HMM模型的训练生成
对所构建的中国移动网络资源数据专有词组库进行分词、
词频统计及变换。具体为将词库中的长词或短句划分为短词,
在此基础上统计词语出现频次,并对词频进行变换处理。本文
中的分词操作可利用jieba 库,以分词长度N1 为基准将词库中
三、中国移动网络资源数据专有语料库构建 词语划分为长度小于N1的短词,从而提升后续数据处理、翻译
1. 概率排序的拼音与汉字对应表 准确率。分词前,先筛选出词库中长度小于N1 的词语并进行
根据拼音-汉字的自然语言统计规律,构造了常见音的基 词频统计及变换,将统计及变换结果加入jieba 库自定义词典
于统计概率排序的拼音-汉字对应码表。作为拼音字母向中文汉 中,再对词库中长度大于等于N1 的词语进行分词,以提升分词
字转换的基础字典。其中,部分拼音-汉字的对应关系如表1所 准确性。对词频进行变换处理,是指通过词频变换提升jieba
示。 库自定义词典中词语权重占比,以及提升后续数据处理及翻译
2. 中国移动网络资源数据专有词组库 的准确率。对词语S 的词频M 变换成M_t:
对于通信网络运营商,地理位置信息是网络资源数据的 (1)
重要组成部分,直接作用于网络资源数据中的如网络设备名、
设备端口描述、设备所属机房名、设备所属站点名等多个字段 式中,length(S) 为词语S的字符串长度,N2为放大系数。
属性,从而影响网络资源数据端到端跨专业的关联成功率。因 在本文的实践应用中,N1=5,N2=5000。
网络电信 二零二二年五,六月 23