Page 32 - 网络电信2023年11月刊
P. 32
制,得到输入序列中每个输入符号对于接收符号的权重分布。
式中:w i 和b i 分别为输入门的权重矩阵和偏置向量;w f 和b f
分别为遗忘门的权重矩阵和偏置向量;w o 和b o 分别为输出门的权 因此,可以识别出对于接收符号更加重要的输入符号,通过关
重矩阵和偏置向量;w c 和b c 分别为细胞状态的权重矩阵和偏置向 注这些符号减少输入序列的长度,从而降低计算复杂度。
量;x t 为输入;h t 和h t-1 分别为当前状态的隐藏层输出、上一状 在本文的注意力机制中,输入序列的长度为{x 1 ,x 2 ,…
态的隐藏层输出; 表示元素乘积; 为Sigmoid函数;tanh ,x n },对应的输出序列的长度为{y 1 ,y 2 ,…,y n },最终接收到的输
为双曲正切激活函数。 出符号y n 表示为:
图1 LSTM 结构
(3)
式中:g是一个非线性函数;d是计算目标符号y n 的中间向
量;H是输入序列的隐藏状态; 为注意力权重:
(4)
式中: 为评分模型,表示输出符号yn与输入序
列的隐藏状态H之间的匹配分数,a为一个单层感知机模型;
2N+1为一个输入序列的长度。
注意力机制的结构如图3所示。首先对输入数据的隐藏状态
进行维度变换,并使用激活函数为tanh函数的单层感知机模型
对其计算得到注意力分数,然后通过Softmax函数对注意力分数
进行归一化得到注意力权重,最后将得到的隐藏状态进行维度
BiLSTM由前向LSTM和后向LSTM组成,可以从过去信息学习 反变换,并与权重分布通过元素的矩阵乘法得到对应的d向量。
到未来隐藏层的信息。在光信道均衡中,BiLSTM主要用于处理
前后符号之间的码间干扰。结构如图2所示。通过前向LSTM计算 图3 注意力机制的结构
出 ,通过后向LSTM计算出 。然后将两
个方向的特征进行拼接,得到最终的输出:
(2)
图2 BiLSTM 结构
1.3 复杂度计算
用RMp S来体现算法的计算复杂度,因为神经网络均衡器的
训练是离线进行的,不考虑训练复杂度 [15] 。CNN层的输出L out 是
CNN超参数的函数 [15] :
1.2 注意力机制
注意力机制是嵌入在神经网络模型中的一种结构,它观 (5)
察一组数据,并选择性地关注该集合的一部分子集 [17,18,19] 。传
统的注意力机制利用外部信息研究符号的相关性,自注意力机 式中:n s =2N+1为输入序列的长度;n k 为核大小;p的值为
制利用内部信息增加局部注意。本文使用传统的注意力机制研 0(对应于Keras中的Valid);D的值为1;卷积核的步长S的值为
究接收符号与输入符号之间的相关性。通过添加这种注意力机 1。因此CNN层的输出L out 为n s -n k +1。LSTM的计算复杂度为 [15] :
网络电信 二零二三年十二月 53