Page 32 - 网络电信2023年11月刊
P. 32

制,得到输入序列中每个输入符号对于接收符号的权重分布。
                式中:w i 和b i 分别为输入门的权重矩阵和偏置向量;w f 和b f
            分别为遗忘门的权重矩阵和偏置向量;w o 和b o 分别为输出门的权                   因此,可以识别出对于接收符号更加重要的输入符号,通过关
            重矩阵和偏置向量;w c 和b c 分别为细胞状态的权重矩阵和偏置向                   注这些符号减少输入序列的长度,从而降低计算复杂度。
            量;x t 为输入;h t 和h t-1 分别为当前状态的隐藏层输出、上一状                   在本文的注意力机制中,输入序列的长度为{x 1 ,x 2 ,…
            态的隐藏层输出;         表示元素乘积;         为Sigmoid函数;tanh     ,x n },对应的输出序列的长度为{y 1 ,y 2 ,…,y n },最终接收到的输
            为双曲正切激活函数。                                           出符号y n 表示为:

             图1 LSTM 结构
                                                                                                               (3)
                                                                     式中:g是一个非线性函数;d是计算目标符号y n 的中间向
                                                                 量;H是输入序列的隐藏状态;             为注意力权重:


                                                                                                                (4)



                                                                     式中:           为评分模型,表示输出符号yn与输入序
                                                                 列的隐藏状态H之间的匹配分数,a为一个单层感知机模型;
                                                                 2N+1为一个输入序列的长度。
                                                                     注意力机制的结构如图3所示。首先对输入数据的隐藏状态
                                                                 进行维度变换,并使用激活函数为tanh函数的单层感知机模型
                                                                 对其计算得到注意力分数,然后通过Softmax函数对注意力分数
                                                                 进行归一化得到注意力权重,最后将得到的隐藏状态进行维度
                BiLSTM由前向LSTM和后向LSTM组成,可以从过去信息学习                 反变换,并与权重分布通过元素的矩阵乘法得到对应的d向量。
            到未来隐藏层的信息。在光信道均衡中,BiLSTM主要用于处理
            前后符号之间的码间干扰。结构如图2所示。通过前向LSTM计算                        图3 注意力机制的结构
            出          ,通过后向LSTM计算出                  。然后将两
            个方向的特征进行拼接,得到最终的输出:

                                                            (2)

             图2 BiLSTM 结构

















                                                                     1.3 复杂度计算
                                                                     用RMp  S来体现算法的计算复杂度,因为神经网络均衡器的
                                                                 训练是离线进行的,不考虑训练复杂度              [15] 。CNN层的输出L out 是
                                                                 CNN超参数的函数     [15] :
                1.2 注意力机制
                注意力机制是嵌入在神经网络模型中的一种结构,它观                                                                         (5)
            察一组数据,并选择性地关注该集合的一部分子集                   [17,18,19] 。传
            统的注意力机制利用外部信息研究符号的相关性,自注意力机                              式中:n s =2N+1为输入序列的长度;n k 为核大小;p的值为
            制利用内部信息增加局部注意。本文使用传统的注意力机制研                          0(对应于Keras中的Valid);D的值为1;卷积核的步长S的值为
            究接收符号与输入符号之间的相关性。通过添加这种注意力机                          1。因此CNN层的输出L out 为n s -n k +1。LSTM的计算复杂度为   [15] :

                                                       网络电信 二零二三年十二月                                           53
   27   28   29   30   31   32   33   34   35   36   37