Page 20 - 网络电信2022年5月刊
P. 20

运 营 商 专 栏

                根据词频统计及变换结果构建初始状态概率矩阵π。具体                            其中,1≤i≤N;1≤j≤N,第一个词(w 1 )前面没有词,
            先将预设词库和字典中的所有中文字符频次默认值设为1;再                          w1 的各个词性标记也满足一定的概率分布,可记作πi;
            根据上述词频统计及变换结果,将每个中文字符作为词频表词                              2)第m个词(w m )的各个词性标记取词语w m 的条件概率可以
            语第一个中文字符的次数(变换后M_t)叠加在该中文字符频次                        记作
            上;最后通过计算每个中文字符频次除以所有中文字符频次之                                                                            (5)
            和,得出每个中文字符作为词语第一个中文字符的概率,形成
            初始状态概率矩阵π。                                               3)从起点词到第m个词的第i个词性标记的各种可能路径
                考虑可能出现字典外中文字符的情况,每个矩阵可预留设                        (即各种可能的词性标记串)中,必有一条路经使得w m 概率
            置一个缺省概率方便后续处理,缺省概率可设置为不影响正常                          最大,可以用一个变量来对这一过程加以刻画,此变量即为
            概率匹配的足够小的值        [12,13] 。                          Viterbi 变量,记作
                根据网络资源数据的词频统计及变换结果构建转移矩阵A。                                                                      (6)
            将CountA_ij记为词语中上一个中文字符S i 连接下一个中文字符
            S j 的频次,S i 和S j 是预设词库里如字典中所有中文字符的任意一                    4)HMM 的状态从第m-1个词转移到第m个词,整个路径的概
            个CountA_ij默认值设为1;再根据上述词频统计及变换结果,                     率可以通过HMM在前一个状态(第m-1个词)时的最大概率来求
            统计词语中S i 到S j 的频次(变换后M_t)并叠加到CountA_ij上;             得,即Viterbi 变量可以递归求值
            最后计算得出S i 到S j 的概率aij,形成转移矩阵A,其中a ij  满足                                                             (7)
            以下关系:
                                                                     5)当扫描过第m-1个词,状态转移到第m个词时,需要有一
                                                               (2)  个变量记录已经走过的路径中,哪一条是最佳路径,即记住该
                                                                 路径上w m 的最佳词性标记,这个变量可以记作
                其中,K1为预设词库中所有中文字符总数。
                根据网络资源数据词频统计及变换结果构建发射矩阵B。                                                                        (8)
            将CountB_ij记为中文字符S i 对应拼音字符或拼音字符简写S j 的                   基于以上定义,整个词串的Viterbi  算法的执行过程如
            频次,S i 可能是字典中所有中文字符的任意一个,S j 是S i 所有                 下:
            读音对应的拼音或拼音简写,例如Si  为“一”、S j 为“y”、                        1)初始化:
            “yi”,CountB_ij默认值设为1;再根据上述词频统计及变换                                                                      (9)
            结果,将词频表词语翻译成拼音,将中文字符-  翻译拼音/  拼
            音简写所属词语的频次(变换后M_t)叠加到对应CountB_ij
            上;最后计算得出S i 到S j 的概率b ij ,形成发射矩阵B,b ij  满足:              其中,1≤i≤N
                                                                     2)迭代计算通向每个词(w m )的每个词性标记(tj)的最
                                                               (3)  佳路径为:

                其中,K2 为S i 对应的拼音或拼音简写总数。                                                                        (10)
                至此,完成隐马尔可夫模型λ=(A,B,π)  的构建。基于所
            构建的隐马尔可夫模型,即可在已知词串W(观察序列)和隐                                                                         (11)
            马尔可夫模型λ情况下,求使得条件概率P(T|W,λ)值最大的
            T′,从而得到输出序列T的最优估计。                                       其中,1≤i≤N,2≤m≤M。
                2. 基于Viterbi算法的字段翻译                                  3)到达最后一个词(w M )时,计算这个词的最佳词性标
                V i t e r b i 算 法 是 一 种 动 态 规 划 方 法 ( d y n a m i c   记:
            programming)。如果当前节点在最优路径上,那么,不管当前
            节点的后续路径如何,当前节点的来源路径必定是最优的。最                                                                          (12)
            优路径的求解可以迭代进行          [14,15] 。
                假定一个词串W中每个词都有N个词性标记,那么从词串中
            第m个词(w m )到第m+1个词(w m+1 )的第j个词性标记就有N条                    4)从w M 的最佳词性标记开始,顺次取得每个词的最佳词性
            可能的路径。这N  条路经中存在一条概率最大的路径,假定为                        标记为:
            titj。其中,ti为第m个词(w m )的第i个词性标记。
                对于词串W 的词性标记局部路径的词性标记的定义如下:                                                                     (13)
                1)从第m个词(w m )的各个词性标记向第m+1个词(w m+1 )的
            各个词性标记转移的概率,记作                                           最终得到了整个词串的Viterbi最优译码路径。
                                                               (4)   针对实际系统中广东省深圳市的一个OLT设备名,词串为

            24                                        网络电信 二零二二年五,六月
   15   16   17   18   19   20   21   22   23   24   25