Page 20 - 网络电信2022年5月刊
P. 20
运 营 商 专 栏
根据词频统计及变换结果构建初始状态概率矩阵π。具体 其中,1≤i≤N;1≤j≤N,第一个词(w 1 )前面没有词,
先将预设词库和字典中的所有中文字符频次默认值设为1;再 w1 的各个词性标记也满足一定的概率分布,可记作πi;
根据上述词频统计及变换结果,将每个中文字符作为词频表词 2)第m个词(w m )的各个词性标记取词语w m 的条件概率可以
语第一个中文字符的次数(变换后M_t)叠加在该中文字符频次 记作
上;最后通过计算每个中文字符频次除以所有中文字符频次之 (5)
和,得出每个中文字符作为词语第一个中文字符的概率,形成
初始状态概率矩阵π。 3)从起点词到第m个词的第i个词性标记的各种可能路径
考虑可能出现字典外中文字符的情况,每个矩阵可预留设 (即各种可能的词性标记串)中,必有一条路经使得w m 概率
置一个缺省概率方便后续处理,缺省概率可设置为不影响正常 最大,可以用一个变量来对这一过程加以刻画,此变量即为
概率匹配的足够小的值 [12,13] 。 Viterbi 变量,记作
根据网络资源数据的词频统计及变换结果构建转移矩阵A。 (6)
将CountA_ij记为词语中上一个中文字符S i 连接下一个中文字符
S j 的频次,S i 和S j 是预设词库里如字典中所有中文字符的任意一 4)HMM 的状态从第m-1个词转移到第m个词,整个路径的概
个CountA_ij默认值设为1;再根据上述词频统计及变换结果, 率可以通过HMM在前一个状态(第m-1个词)时的最大概率来求
统计词语中S i 到S j 的频次(变换后M_t)并叠加到CountA_ij上; 得,即Viterbi 变量可以递归求值
最后计算得出S i 到S j 的概率aij,形成转移矩阵A,其中a ij 满足 (7)
以下关系:
5)当扫描过第m-1个词,状态转移到第m个词时,需要有一
(2) 个变量记录已经走过的路径中,哪一条是最佳路径,即记住该
路径上w m 的最佳词性标记,这个变量可以记作
其中,K1为预设词库中所有中文字符总数。
根据网络资源数据词频统计及变换结果构建发射矩阵B。 (8)
将CountB_ij记为中文字符S i 对应拼音字符或拼音字符简写S j 的 基于以上定义,整个词串的Viterbi 算法的执行过程如
频次,S i 可能是字典中所有中文字符的任意一个,S j 是S i 所有 下:
读音对应的拼音或拼音简写,例如Si 为“一”、S j 为“y”、 1)初始化:
“yi”,CountB_ij默认值设为1;再根据上述词频统计及变换 (9)
结果,将词频表词语翻译成拼音,将中文字符- 翻译拼音/ 拼
音简写所属词语的频次(变换后M_t)叠加到对应CountB_ij
上;最后计算得出S i 到S j 的概率b ij ,形成发射矩阵B,b ij 满足: 其中,1≤i≤N
2)迭代计算通向每个词(w m )的每个词性标记(tj)的最
(3) 佳路径为:
其中,K2 为S i 对应的拼音或拼音简写总数。 (10)
至此,完成隐马尔可夫模型λ=(A,B,π) 的构建。基于所
构建的隐马尔可夫模型,即可在已知词串W(观察序列)和隐 (11)
马尔可夫模型λ情况下,求使得条件概率P(T|W,λ)值最大的
T′,从而得到输出序列T的最优估计。 其中,1≤i≤N,2≤m≤M。
2. 基于Viterbi算法的字段翻译 3)到达最后一个词(w M )时,计算这个词的最佳词性标
V i t e r b i 算 法 是 一 种 动 态 规 划 方 法 ( d y n a m i c 记:
programming)。如果当前节点在最优路径上,那么,不管当前
节点的后续路径如何,当前节点的来源路径必定是最优的。最 (12)
优路径的求解可以迭代进行 [14,15] 。
假定一个词串W中每个词都有N个词性标记,那么从词串中
第m个词(w m )到第m+1个词(w m+1 )的第j个词性标记就有N条 4)从w M 的最佳词性标记开始,顺次取得每个词的最佳词性
可能的路径。这N 条路经中存在一条概率最大的路径,假定为 标记为:
titj。其中,ti为第m个词(w m )的第i个词性标记。
对于词串W 的词性标记局部路径的词性标记的定义如下: (13)
1)从第m个词(w m )的各个词性标记向第m+1个词(w m+1 )的
各个词性标记转移的概率,记作 最终得到了整个词串的Viterbi最优译码路径。
(4) 针对实际系统中广东省深圳市的一个OLT设备名,词串为
24 网络电信 二零二二年五,六月