海洋科学  2024, Vol. 48 Issue (5): 1-12   PDF    
http://dx.doi.org/10.11759/hykx20230523002

文章信息

王丽娜, 宋悦, 王旭东, 吕路莹, 董昌明. 2024.
WANG Lina, SONG Yue, WANG Xudong, LÜ Luying, DONG Changming. 2024.
融合图卷积和注意力机制的GRU海面温度预测模型
A GRU–sea surface temperature prediction model integrating graph convolution and an attention mechanism
海洋科学, 48(5): 1-12
Marine Sciences, 48(5): 1-12.
http://dx.doi.org/10.11759/hykx20230523002

文章历史

收稿日期:2023-05-23
修回日期:2023-08-25
融合图卷积和注意力机制的GRU海面温度预测模型
王丽娜1,2, 宋悦1, 王旭东1, 吕路莹1, 董昌明2,3     
1. 南京信息工程大学 人工智能学院/未来技术学院, 江苏 南京 210044;
2. 南方海洋科学与工程广东省实验室(珠海), 广东 珠海 519080;
3. 南京信息工程大学 海洋科学学院, 江苏 南京 210044
摘要:海面温度(sea surface temperature, SST)是影响海洋气候变化的关键因素之一, SST的精确预测对海洋气象、航海等相关领域具有重要意义。为同时捕获空间和时间相关性, 本文提出了一种融合图卷积(graph convolution, GC)和注意力机制的门控循环单元(gated recurrent unit, GRU)海面温度预测模型(graph convolutional recurrent unit-attention mechanism, GCRU-ATT)。GC将海洋表面空间构建成图形的拓扑结构, 有效地挖掘数据特有的空间特征。首先, 将门控循环单元中的矩阵乘法替换为图卷积运算, 构成门控图卷积(graph convolutional recurrent unit, GCRU)层; 应用GCRU层搭建模型主要结构, 以提取数据的时空信息; 其次, 引入注意力机制为GCRU层输出信息分配不同的权重。最终, 使用一个全连接的输出层输出海面温度预测结果。选取东海和渤海海域的SST数据建模, 实验结果表明GCRU-ATT模型鲁棒性好, 且其误差指标值低于已有的方法, 预测精度较高。
关键词海面温度    图卷积    门控循环单元    注意力机制    
A GRU–sea surface temperature prediction model integrating graph convolution and an attention mechanism
WANG Lina1,2, SONG Yue1, WANG Xudong1, LÜ Luying1, DONG Changming2,3     
1. School of Artificial Intelligence/School of Future Technology, Nanjing University of Information Science and Technology, Nanjing 210044, China;
2. Southern Marine Science and Engineering Guangdong Laboratory (Zhuhai), Zhuhai 519080, China;
3. School of Marine Sciences, Nanjing University of Information Science and Technology, Nanjing 210044, China
Abstract: Sea surface temperature (SST) is a key factor that affects oceanic climate changes; consequently, the accurate prediction of SST is of great significance in related fields such as oceanic meteorology and navigation. To simultaneously capture spatiotemporal correlations between the SST data, this paper proposes a gated recurrent unit (GRU)–SST prediction model (graph convolutional recurrent unit–attention mechanism, GCRU–ATT) that combines graph convolution (GC) and an attention mechanism. A sea surface space is modeled into a graphical topological structure through GC, which is subsequently used to effectively mine the unique spatial features of the SST data. Initially, in the GRU, matrix multiplication is replaced with GC and GCRU layers are formed. These GCRU layers are then used to build the main structure of the model to extract the spatiotemporal information of the data. Further, an attention mechanism is introduced to assign different weights to the output information of the GCRU layers. Finally, a fully connected output layer is used to output the SST prediction results. To select SST data from the East China Sea and Bohai Sea for modeling, experimental results show that the GCRU–ATT model exhibits superior robustness, smaller error index values, and higher prediction accuracy than existing methods.
Key words: sea surface temperature    graph convolution    gated recurrent unit    attention mechanism    

海面温度(sea surface temperature, SST)是驱动全球水循环的重要参数[1-4], 在海洋和大气之间的物质、能量和动量交换中发挥重要作用。海面温度异常易导致干旱、洪涝等自然灾害出现。因此, SST精确预测对海洋环境[5]、海洋研究[6]等领域具有重要意义。

目前, 海面温度预测方法大致分为两类: 数值方法[7]和数据驱动方法[8]。数值方法通常利用动力学和热力学方程描述海面温度变化, 需要大量的运算时间[9]。近年来, 随着深度学习的发展, 一些深度学习方法逐渐应用于SST预测领域。传统循环神经网络用于预测海面温度, 但其会出现梯度消失或梯度爆炸问题, 无法应用于长期序列预测领域[10]。为解决长期的时间依赖性问题, 长短期记忆(long short-term memory, LSTM)[11]和门控循环单元(gated recurrent unit, GRU)[12]被提出。Zhang等[13]提出将LSTM网络应用于SST预测, 取得较优的预测性能。Xiao等[14]提出了将LSTM网络与Adaboost算法相结合的集成学习模型预测SST, 避免了模型过拟合。贺琪等[15]提出了一种基于EMD-GRU模型的海面温度预测方法, 有效提升了预测精度。

上述方法在预测SST值时仅考虑了非线性时间相关性, 忽略了其空间相关性。孙苗等[16]提出了基于卷积神经网络(convolutional neural networks, CNN)和LSTM相结合的方法, 考虑了SST的时空特征, 实现了对南海海面温度的预测。张雪薇等[17]提出了基于ConvGRU的SST预测模型, ConvGRU模型融合了卷积神经网络和门控循环单元(gated recurrent unit, GRU), 考虑了时空数据的异质性[18], 实现了SST时空特征的同时处理。然而CNN不能表达节点间的空间关联性, 难以提取拓扑图的空间特征。由于图卷积神经网络(graph convolutional network, GCN)将每个节点视为图结构中的一个顶点, 通过聚合邻近节点之间的信息来表示目标节点的新特征, 可以捕获节点之间的空间相关性, 有学者将GCN代替CNN, 开展相关研究。Sun等[19]将GCN与LSTM神经网络相结合, 提出时间序列图网络(TSGN)来预测SST。该模型使用不同的组件来捕获空间和时间相关性, 忽略了时空数据的异质性[18]。由于连续SST数据具有很强的时空相关性, 无论是特定时间SST数据的空间关系, 还是特定位置数据的时间变化, 都不能孤立地观察, 不同时间不同地点的SST值可能是相关的[20-21]。海域的地形并非是单一的海水, 海域中还可能存在陆地或岛屿。因此, 应用图卷积(graph convolution, GC)以图形拓扑表示节点之间的关系, 有重要的实际意义。GC能够捕捉节点之间的空间相关性, 并通过聚合相邻节点的信息来获得目标节点的特征表示。

综上, 本文将海洋表面空间特征构建成图形拓扑结构, 应用GC充分提取其空间特征, 同时考虑时空数据的异质性, 提出了一种融合图卷积和注意力机制的GRU海面温度预测模型。首先, 把GRU的矩阵乘法替换为图卷积运算, 构成门控图卷积(graph convolutional recurrent unit, GCRU)层来提取数据的时空信息; 其次, 引入注意力机制对GCRU层的输出信息分配概率权重, 重要信息分配更高的权重系数, 指导预测过程更有效; 最终, 使用一个全连接的输出层输出海面温度预测结果。实验结果表明, 本模型在东海和渤海研究区域未来1 d、3 d和7 d的SST值均取得较高预测精度。

1 基础理论 1.1 问题定义

在本节中, 首先对海面温度预测问题进行定义。使用图形表示SST数据, 每次记录每个网格节点即经纬交叉节点的SST值, 根据网格上有效的SST数据定义图结构。由于图形可以全面地描述不规则数据, 与全网格数据需求相比, 图结构表示更加灵活。

定义1: 将SST数据的网络拓扑结构描述为G = (Vt, E, A), Vt是一组有限的顶点, 对应格点空间的n个有效SST值点。其中, 海洋中的陆地(如海岸、岛屿)没有有效的SST观测值; E是一组边, 表示节点之间的连通性。A表示加权邻接矩阵, 其定义如式(1)所示。

$ {A}_{ij}=\left\{\begin{array}{cc}q\cdot \mathrm{exp}(-\frac{{d}_{{}_{ij}}^{2}}{{\sigma }^{2}}), & i\ne j且\mathrm{exp}(-\frac{{d}_{{}_{ij}}^{2}}{{\sigma }^{2}})\ge \varepsilon \\ 1-q, & i=j\end{array} , \right. $ (1)

式中: ${d_{ij}}$是坐标ij之间的欧几里得距离; ${A_{ij}}$为利用距离${d_{ij}}$计算出的边的权值; ${\sigma ^2}$$\varepsilon $用于控制加权邻接矩阵A的分布和稀疏性, 分别取10和0.5[24]。本文引入了一个参数$q \in \left[ {0, 1} \right]$调节其他节点对节点自身特性的影响。

定义2: 将海洋表面空间格点温度视为节点属性特征, 并表示为特征矩阵$ \boldsymbol{X} \in {R^{N \times P}} $, 其中N表示节点个数, P表示节点属性特征的数量(历史时间序列的长度)。${X_t}$用于表示第t时刻特征值, 也即SST值。因此, 建模时间和空间相关性可以被视为基于网络G和特征矩阵X学习映射函数f, 预测未来T个时刻的SST值计算公式如式(2)所示。

$ \left[ {{X_{t + 1}}, \cdots , {X_{t + T}}} \right] = f\left( {G;{X_{t - \left( {n - 1} \right)}}, \cdots , {X_{t - 1}}, {X_t}} \right), $ (2)

式中: n是给定历史时间序列的长度; T是预测的时间序列长度。

1.2 GCN概述

GCN可以对图数据的复杂关系和相互依赖性进行建模, 受到了广泛的关注和研究。GCN将节点之间的关系转换为图的邻接矩阵, 以捕捉拓扑结构产生的依赖关系, 通过聚合邻居结点的信息来提取空间特征, 在获得图节点表示的同时考虑了相邻节点的影响[23]

GCN中的卷积模式包括频谱域图卷积和空间域图卷积, 本研究使用频谱模式构建GCN模型, 在傅里叶域中将给定邻接矩阵A和特征矩阵X构造图滤波器。图滤波器作用于图的节点, 在考虑图节点和节点的一阶相邻域的情况下, GCN执行频谱卷积运算来取代CNN中的卷积运算, 以捕捉图的空间特征, 然后根据分层传播规则来堆叠多个网络。多层GCN模型可以表示为

$H^{(l+1)}=\sigma\left(\tilde{\boldsymbol{D}}^{-\frac{1}{2}} \tilde{\boldsymbol{A}} \tilde{\boldsymbol{D}}^{-\frac{1}{2}} H^{(l)} \theta^{(l)}\right), $ (3)

式中: $ \tilde{\boldsymbol{A}}=\boldsymbol{A}+\boldsymbol{I}_N $是增加了自连接的矩阵, $ {\boldsymbol{I}_N} $是单位矩阵; $ \tilde{\boldsymbol{D }}$是度矩阵$ \tilde D = \sum\nolimits_j {{{\tilde A}_{ij}}} $; $ {H^{(l)}} $l层的输出; $ {\theta ^{(l)}} $表示第l层可学习参数; $ \sigma \left( {} \right) $表示非线性激活函数。

为了防止过平滑现象发生, GCN的层数一般会设置成1~2层。在本研究中, 选择公式(4)来获得空间相关性。

$ f(\boldsymbol{X}, \boldsymbol{A})=\sigma\left(\overset\frown{\boldsymbol{A}} \operatorname{Relu}\left(\overset\frown{\boldsymbol{A}} \boldsymbol{X} \boldsymbol{W}_0\right) \boldsymbol{W}_1\right), $ (4)

式中: X是特征矩阵; A是邻接矩阵; $\overset\frown{\boldsymbol{A}}=\tilde{D}^{-\frac{1}{2}} \tilde{\boldsymbol{A}} \tilde{\boldsymbol{D}}^{-\frac{1}{2}}$是预处理的步骤, 其中$ {\boldsymbol{W}_0} \in {R^{P \times H}} $表示从输入到隐藏层的权重矩阵, P是特征矩阵的长度, H是隐藏单元的数量; $ {\boldsymbol{W}_1} \in {R^{H \times T}} $表示从隐藏到输出层的权重; $ f(\boldsymbol{X}, \boldsymbol{A}) \in {R^{N \times T}} $表示预测长度为T的输出; $ {\text{Relu()}} $代表非线性激活函数。

1.3 GRU模型

Recurrent Neural Network(RNN)是处理序列数据的最广泛使用的递归神经网络模型, 然而传统RNN存在梯度消失和爆炸等问题, 在中长期预测任务中有一定局限性[24]。LSTM是RNN的一种变体, 为此类问题提供了解决方案。LSTM单元设置了输入门、遗忘门和输出门, 以控制输入值、记忆值和输出值。在LSTM基础上, GRU只设置了更新门和重置门, 减少训练时间, 提高了训练效率, 同时具有等效的预测精度。鉴于此, 本文采用GRU模型来捕获时间依赖性。GRU结构如图 1所示。

图 1 GRU结构 Fig. 1 Structure of the gated recurrent unit

GRU可以通过如下公式进行描述

$u_t=\sigma\left(x_t \boldsymbol{W}_{\boldsymbol{x u}}+h_{t-1} \boldsymbol{W}_{\boldsymbol{h} \boldsymbol{u}}+b_u\right), $ (5)
$r_t=\sigma\left(x_t \boldsymbol{W}_{\boldsymbol{x} \boldsymbol{r}}+h_{t-1} \boldsymbol{W}_{\boldsymbol{h} \boldsymbol{r}}+b_r\right), $ (6)
$c_t=\tanh \left(x_t \boldsymbol{W}_{\boldsymbol{x} \boldsymbol{c}}+\left(r_t \odot h_{t-1}\right) \boldsymbol{W}_{\boldsymbol{h} \boldsymbol{c}}+b_c\right), $ (7)
$ {h_t} = {u_t} \odot {h_{t - 1}} + (1 - {u_t}) \odot {c_t} , $ (8)

式中: $ {h_{t - 1}} $t–1时刻的隐藏状态; $ {x_t} $为当前时刻的状态信息; $ {r_t} $为GRU模型中的重置门以控制上一时间步的隐藏状态流入当前时间步的隐藏状态的“幅度”。$ {u_t} $是更新门, 用于控制进入当前状态的前一时刻的状态信息量; $ {\boldsymbol{W}_\boldsymbol{xr}} $, $ {\boldsymbol{W}_\boldsymbol{xu}} $, $ {\boldsymbol{W}_\boldsymbol{hr}} $, $ {\boldsymbol{W}_\boldsymbol{hu}} $, $ {\boldsymbol{W}_\boldsymbol{xc}} $$ {\boldsymbol{W}_\boldsymbol{hc}} $是训练过程中的权重矩阵, $ {b_u} $, $ {b_r} $$ {b_c} $是偏差; $ {c_t} $是当前时刻存储的内存内容; $ {h_t} $是当前时刻的输出状态; σ()为Sigmoid激活函数; ⊙表示哈达玛积。

1.4 注意力机制

注意力机制模拟了人脑注意力在特定时刻对特定区域关注的情况, 从而有选择性地获取更多有效信息, 忽略无用信息。注意力机制分为软注意力和硬注意力。软注意力是指在选择信息的时候, 对t个输入信息进行加权平均, 再输入到神经网络中计算。

在当前的研究中, 使用软注意力模型来学习GRU输出信息不同的重要性, 模型结构如图 2所示。

图 2 注意力机制结构 Fig. 2 Structure of the attention mechanism

图 2中, $ {h_1}, {h_i}, ..., {h_t} $为不同时刻的隐藏状态; $ {e_i} $表示$ {h_i} $的相似度权重, $ {\alpha _i} $表示$ {h_i} $归一化后的相似度权重, $ {C_i} $表示加权求和得到的输出矩阵。具体计算过程分为3个步骤。

步骤1: 采用多层感知机(Multi-layer Perceptron, MLP)作为评分函数对每个时刻的数据进行相似度权重计算, 如公式(9)所示。

$ {e_i} = {w_{(2)}}({w_{(1)}}H + {b_{(1)}}) + {b_{(2)}} , $ (9)

其中, $ {w_{(1)}} $表示MLP的输入层与隐藏层之间的连接权重, $ {w_{(2)}} $表示MLP的隐藏层与输出层之间的连接权重, $ \boldsymbol{H} = \left( {{h_1}, {h_i}, ..., {h_t}} \right) $表示隐藏状态矩阵。

步骤2: 使用Softmax函数对这些相似度权重进行归一化处理, 如公式(10)所示。

$ {\alpha _i} = \frac{{\exp ({e_i})}}{{\sum\nolimits_{j = 1}^t {\exp ({e_j})} }} . $ (10)

步骤3: 将归一化后的注意力权重与输入数据进行加权计算得到$ {C_i} $, 如公式(11)所示。

$ {C_i} = \sum\limits_{j = 1}^t {{\alpha _j} \times {h_j}} . $ (11)
2 GCRU-ATT模型结构

本节描述融合图卷积和注意力机制的GRU海面

温度预测模型。GCRU-ATT模型由输入层、GCRU层、注意力层和全连接输出层组成, 其中GCRU层内部有图卷积(Graph Convolution, GC)运算, 模型结构如图 3所示。

图 3 GCRU-ATT模型结构图 Fig. 3 Model structure diagram of the graph convolutional recurrent unit–attention mechanism

首先, 将获得的邻接矩阵和t个历史时间序列的SST数据, $ {X_i}(i = 1, ..., t - 1, t) $输入GCRU层。

依次, 使用GC操作代替GRU循环单元的更新门$ u(t) $、重置门$ r(t) $和候选隐藏状态$ c(t) $中的所有矩阵乘法, 通过GC捕获节点间的空间相关性。将每个循环单元的公式表达式改为式(12)—(15), $ f(A, {X_t}) $表示图卷积过程, 并在公式(4)中定义; $ {u_t} $$ {r_t} $分别是t时刻的更新门和重置门; $ {c_t} $t时刻存储的内容; $ {h_t} $t时刻的输出状态; $ {W'_{fu}} $, $ {W'_{fr}} $, $ {W'_{fc}} $, $ {W'_{hu}} $, $ {W'_{hr}} $$ {W'_{hc}} $是训练过程中的权重, $ {b'_u} $, $ {b'_r} $$ {b'_c} $是偏差。

$ {u_t} = \sigma (f(A, {X_t}){W'_{fu}} + {h_{t - 1}}{W'_{hu}} + {b'_u}) , $ (12)
$ {r_t} = \sigma (f(A, {X_t}){W'_{fr}} + {h_{t - 1}}{W'_{hr}} + {b'_r}) , $ (13)
$ {c_t} = \tanh (f(A, {X_t}){W'_{fc}} + ({r_t} \odot {h_{t - 1}}){W'_{hc}} + {b'_c}) , $ (14)
$ {h_t} = {u_t} \odot {h_{t - 1}} + (1 - {u_t}) \odot {c_t} . $ (15)

接着, 将3个GCRU层叠加构成1个模块组, 整个结构包含多个GCRU模块组。其中每个GCRU层隐藏状态的输出作为下一个GCRU层的输入。

再者, 引入注意机制关注重要信息。将GCRU模块的最终隐藏状态信息输入注意力模块, 以获得SST序列数据的重要性。在注意力模型中, 使用多层感知机作为评分函数, 其中$ {\boldsymbol{W}_{(1)}} $$ {\boldsymbol{W}_{(2)}} $是多层感知的权重矩阵。计算相似度权重$ {e_i}(i = 1, ..., t - 1, t) $, 应用Softmax函数归一化相似度权重, 获得注意力分布概率。并对最后的隐藏状态及其权重进行加权, 来获得最终的注意力输出矩阵C

最终, 使用全连接层输出预测结果Y

3 实验分析 3.1 数据集

SST为AVHRR卫星遥感数据, 是由美国国家海洋和大气管理局(national oceanic and atmospheric administration, NOAA)提供的最优插值数据集。分别选取东海和渤海海域的部分区域作为研究对象, 其中东海研究区域为27°45′~32°30′N和123°~126°45′E, 渤海研究区域为37°15′~41°00′N和117°30′~121°30′E, 空间分辨率为0.25°×0.25°。实验数据包含2003年1月1日—2022年12月31日共20 a的日均SST值。将前80%数据作为训练集, 10%数据作为验证集, 余10%数据作为测试集。分别选取东海和渤海海域的部分区域作为研究对象预测未来1 d、3 d和7 d的SST。数据统计信息如表 1所示。

表 1 东海和渤海的SST数据详细统计 Tab. 1 Detailed statistics of the sea surface temperature data in the ECS and BS
数据集 东海 渤海
时间范围 2003/1/1—2022/12/31 2003/1/1—2022/12/31
覆盖区域 27°45′~32°30′N
123°~126°45′E
37°15′~41°00′N
117°30′~121°30′E
节点数量 320 272
训练样本数 5 844 5 844
验证样本数 730 730
测试样本数 730 730

本文数据预处理过程包括以下几部分:

(1) 数据截取: 从全球数据集中分别截取渤海和东海相应经纬度范围的SST数据;

(2) 对SST数据进行归一化处理, 如式(16)所示。

$ {X_N} = \frac{{X - \min \left( X \right)}}{{\max \left( X \right) - \min \left( X \right)}}, $ (16)

式中, ${X_N}$是归一化后的数据; X是观测数据; $\max \left( X \right)$$\min \left( X \right)$为取各个数据中的最大值和最小值;

(3) 不同数据集制作: 使用滑动窗口的方法在时间维度上进行切割SST数据, 按8∶1∶1的方式划分训练集、验证集和测试集;

(4) 构造特征矩阵: 将海洋表面空间格点SST信息视为节点属性特征, 并表示为特征矩阵$ \boldsymbol{X} \in {R^{N \times P}} $来描述位置节点上SST值随时间的动态变化, 其中N表示节点个数, P表示节点属性特征的数量(历史时间序列的长度);

(5) 构造邻接矩阵: 依据公式(1)计算邻接矩阵。

数据预处理流程如图 4所示。

图 4 预处理流程图 Fig. 4 Preprocessing flow chart
3.2 实验环境

实验环境如表 2所示。

表 2 实验环境 Tab. 2 Experimental environment
名称 版本
操作系统 Windows10
CPU Intel Core i5-7200U
GPU NVIDIA RTX 2060 GPU
编程语言 Python 3.6
框架 Tensorflow1.14
3.3 评价指标

本文采用平均绝对误差(averaged mean absolute error, Eama), 均方根误差均值(averaged root mean square error, Earms)和绝对误差(absolute error, Ea)作为评价指标来衡量模型的预测误差和精度。其中, ij为空间格点坐标, K为样本个数, I表示纬向总格点数, J表示经向总格点数。$ {h_{\text{p}}}\left( {i, j} \right) $表示对应空间格点的预测值, $ {h_{\text{o}}}\left( {i, j} \right) $表示对应空间格点的观测值。

$ {E_{{\text{ama}}}} = \frac{1}{K}\sum\nolimits_{k = 1}^K {\frac{1}{{I \cdot J}}} \sum\nolimits_{i = 1}^I {\sum\nolimits_{j = 1}^J {\left| {{h_{\text{p}}}\left( {i, j} \right) - {h_{\text{o}}}\left( {i, j} \right)} \right|} } , $ (17)
$ {E_{{\text{arms}}}}{\text{ = }}\frac{1}{K}\sum\nolimits_{k = 1}^K {\sqrt {\frac{1}{{I \cdot J}}\sum\nolimits_{i = 1}^I {\sum\nolimits_{j = 1}^J {{{\left( {{h_{\text{p}}}(i, j) - {h_{\text{o}}}(i, j)} \right)}^2}} } } } , $ (18)
$ {E_{\text{a}}} = \left| {{h_{\text{p}}}\left( {i, j} \right) - {h_{\text{o}}}\left( {i, j} \right)} \right| . $ (19)
3.4 最优参数q设置

考虑节点对于图结构的影响, 本文引入了一个参数$ q \in [0, 1] $, 通过调节参数q, 可以平衡节点自身权重和其他节点之间的权重在计算中的影响, 从而更好地描述节点之间的相互作用。当q近似为0时, 模型趋于不聚合邻居节点的信息。当q近似为1时, 节点自身的影响很小。对于一个L层的图卷积网络, 存在一个节点x对另一个节点y间的关联影响分数, 这个值与从根节点出发的l步随机游走的概率密切相关。当随机游走到无限远时, 由于这个图是不可约的且具有非周期性, 那么这个随机游走的概率分布会收缩到一个极限。这个极限状态值仅依赖于图结构本身, 与出发点无关, 就导致节点本身信息的损失[26]。为了解决该问题, 使用参数q来调节节点的自连接权重, 平衡节点自身特征和周围邻居节点特征的相对贡献。因此, 本实验在0~1等间隔选取10个点, 选择预测步长7 d, 分别在东海和渤海验证集上进行实验, 寻找最优q值。实验结果如图 5所示。无论渤海还是东海, 随着q的增加, 均方根误差均值Earms逐渐减小, 当q=0.9时, Earms最小, 随后又缓慢增加。确定q最优值为0.9。

图 5 最优参数q Fig. 5 Optimal parameter q
3.5 GCRU-ATT及其变体的比较

为验证模型的可行性, 在参数设置相同条件下, 选择不同的模块完成模型的变体实验, 分别评估不使用图卷积的GRU、GRU-ATT模型和不使用注意力机制的GCRU模型性能。本研究预测未来1 d、3 d和7 d的SST值, 使用EarmsEama评估该方法的有效性。EarmsEama越小, 该方法的预测性能越优。本文模型与其变体模型在东海、渤海的研究区域上对比结果分别如图 6图 7所示。整体而言, 预测精度随着预测时间的增加而降低, 也即EarmsEama值在增加。本文模型GCRU-ATT在EamaEarms指标上均性能最优, 变体模型GRU表现最差; 比较GCRU-ATT模型与GRU-ATT模型, 空间特征提取减小了模型的预测误差; 对比GCRU-ATT模型与GCRU模型, 通过加入注意力机制对GRU层输出信息分配不同的权重注意力, 关注重要信息, 进一步提高了SST的预测精度。以预测7 d的SST为例, GCRU-ATT模型在东海测试集7 d预测的EarmsEama值比GCRU模型分别减小了0.162 ℃和0.127 ℃, 比GRU-ATT模型分别减小了0.109 ℃和0.073 ℃; GCRU-ATT模型在渤海测试集7 d预测的EarmsEama值比GCRU模型分别减小了0.097 ℃和0.063 ℃, 比GRU-ATT模型分别减小0.062 ℃和0.026 ℃。实验表明GCRU-ATT模型取得最优的预测性能。

图 6 变体模型在东海测试集上的对比结果 Fig. 6 Comparison of the results of ablation models on the ECS test set

图 7 变体模型在渤海测试集上的对比结果 Fig. 7 Comparison of the results of ablation models on the BS test set
3.6 不同模型性能比较

基于空间和时间特征提取, 将本文模型与现有模型CNN-LSTM[16]、ConvGRU[17]、TSGN[19]进行比较, 可以发现: (1)TSGN模型预测性能优于CNN-LSTM。TSGN模型由GCN和LSTM模块构成, 其中GCN能捕获节点之间的空间相关性, 比CNN-LSTM模型预测性能优, 但TSGN和CNN-LSTM模型均使用不同的组件来捕获空间和时间相关性, 未考虑时空数据的异质性。(2)ConvGRU的预测性能优于CNN-LSTM, 由于ConvGRU包含卷积计算提取空间特征, 通过GRU模块提取时间特征, 同时学习时间和空间特征, 考虑了时空数据的异质性; 而CNN-LSTM首先学习空间特征, 然后是时间特征, 未考虑时空数据的异质性。(3)GCRU-ATT模型的预测性能优于ConvGRU和TSGN模型, 由于ConvGRU模型忽略了空间节点之间的关联性, 而TSGN模型未考虑时空数据的异质性。本文所提GCRU-ATT模型考虑时空数据的异质性, 通过构建无向图捕获空间节点间的依赖, 同时引入注意力机制对输出信息分配不同的权重注意力, 关注重要信息, 提高了SST的预测精度。

以东海历史SST作测试集, 将CNN-LSTM、TSGN、ConvGRU和本文模型共4个模型进行不同预测步长预测, 测试结果如图 8所示。由图 8可知, 本文模型的EarmsEama均低于其他三个模型, 其预测误差在所有模型中最小, 性能最优。GCRU-ATT模型在未来1 d、3 d和7 d预测的Earms分别为0.306 ℃、0.514 ℃、0.587 ℃; ConvGRU模型次之, Earms分别为0.356 ℃、0.623 ℃、0.794 ℃; TSGN模型的预测性能优于CNN-LSTM模型, Earms分别为0.387 ℃、0.678 ℃、0.839 ℃; CNN-LSTM模型总体上预测性能最差, Earms分别0.429 ℃、0.698 ℃、0.939 ℃。同理, Eama指标上GCRU-ATT模型取得最优结果。

图 8 不同模型在东海测试集上的误差统计 Fig. 8 Comparisons of error statistics among different models on the ECS test set

以渤海历史SST作测试集, 将CNN-LSTM、TSGN、ConvGRU和本文模型共4个模型进行不同预测步长预测, 测试结果如图 9所示。由图 9可知, 本文模型的EarmsEama均低于其他3个模型, 其预测误差在所有模型中最小, 性能最优, 该结论与东海做测试集的预测结果相同。GCRU-ATT模型在1 d、3 d和7 d预测步长的Earms分别为0.348 ℃、0.583 ℃和0.794 ℃。ConvGRU模型次之, 不同预测步长的Earms分别为0.439 ℃、0.678 ℃和0.833 ℃。TSGN模型的预测性能优于CNN-LSTM模型, 不同预测步长的Earms分别为0.497 ℃、0.701 ℃和0.954 ℃。CNN-LSTM模型总体上预测性能最差, 不同预测步长的Earms分别为0.544 ℃、0.737 ℃、0.996 ℃。同理, Eama指标上GCRU-ATT模型取得最优结果。

图 9 不同模型在渤海测试集上的误差统计 Fig. 9 Comparisons of error statistics among different models on the BS test set

表 3展示了CNN-LSTM、TSGN、ConvGRU和本文模型共4个模型在东海和渤海SST测试集上的误差统计, 表中加粗数字表示最优误差指标。在所有预测范围内, 与渤海数据集相比, 所有方法在东海数据集上都取得了更好的性能。这是因为东海的纬度较渤海低, 温差比渤海小, 而渤海靠近内陆, 易受海陆冷热交替的影响, 温差较大。从表 3可以看出, 不同预测步长的SST预测精度不同, 预测精度随着预测序列长度的增加而降低。GCRU-ATT模型与其他模型比较, 预测性能最优。

表 3 不同模型在不同时间步长的预测精度对比 Tab. 3 Comparison of the prediction accuracy of various models at different time steps
区域 模型 Earms/℃ Eama/℃
1 3 7 1 3 7
东海 CNN-LSTM 0.429 0.698 0.939 0.293 0.587 0.746
TSGN 0.387 0.678 0.839 0.291 0.576 0.691
ConvGRU 0.356 0.623 0.794 0.289 0.535 0.587
GCRU-ATT 0.306 0.514 0.587 0.219 0.437 0.484
渤海 CNN-LSTM 0.544 0.737 0.995 0.464 0.640 0.893
TSGN 0.497 0.701 0.954 0.452 0.603 0.852
ConvGRU 0.439 0.678 0.833 0.387 0.589 0.785
GCRU-ATT 0.348 0.583 0.794 0.234 0.441 0.575
3.7 个例分析 3.7.1 东海研究海域个例可视化

为更好地展示GCRU-ATT模型的预测结果, 选取东海研究区域2022年1月1日至2022年1月7日共7 d的SST预测, 对观测值、预测值和绝对误差值进行可视化, 如图 10所示。因为原始数据的分辨率问题, 海表面温度预测图存在一些细节变化规律的预测误差, 因此使用了克里金插值方法来弥补这些误差。对应本文的东海研究区域, 其中观测值和预测值的图像颜色由蓝色至红色变化, 对应SST值由小至大, 蓝色越深代表SST值越低, 红色越深代表SST值越高; 绝对误差值由蓝色至红色变化对应误差由小至大, 蓝色越深代表误差越小, 红色越深代表误差越大。由观测值可知, 研究区域的右上角温度偏高, 原因是水的比热容大, 冬季远海区域SST值比近海高; 由预测值可知, 该模型的预测值与观测值高度相似, 表明本模型的预测效果较好; 由绝对误差可知, 随着预测天数增加, 预测误差增大。本模型的预测效果良好, 误差整体偏小。但仍有部分区域的预测出现较大误差, 主要集中在研究区域的左上角, 第7 d时最大误差达到了1.75 ℃。

图 10 东海研究区域2022年1月1日至2022年1月7日周预测的每日SST值与每日绝对误差对比 Fig. 10 Comparisons of the daily sea surface temperature and daily absolute errors of the weekly prediction in the areas selected from ECS. The date range is from 1 January 2022 to 7 January 2022
3.7.2 渤海研究海域个例可视化

选取渤海研究区域2022年1月1日至2022年1月7日共7 d的SST预测, 对观测值、预测值和绝对误差值进行可视化, 如图 11所示。渤海研究区域地形复杂, 存在较多的陆地和海域的混合区域, 其中, 陆地区域对应可视化图像中的深蓝色。真实SST值和预测SST值由蓝色至红色变化, 对应SST值由小至大; 绝对误差值由蓝色至红色变化, 对应误差值由小变大。整体上, 随着预测天数增加, 预测误差增大。由观测值可知, 该图清晰反映了海岸线的轮廓; 由预测值可知, 该模型在渤海研究区域仍展现了较好的预测效果; 由绝对误差图可知, 该模型误差主要集中在研究区域的海岸线附近。第7 d部分海域SST值最大误差达到2.03 ℃。

图 11 渤海研究区域2022年1月1日至2022年1月7日周预测的每日SST值与每日绝对误差对比 Fig. 11 Comparisons of the daily sea surface temperature and daily absolute errors of the weekly prediction in the areas selected from ECS. The date range is from 1 January 2022 to 7 January 2022
3.7.3 单一观测点个例分析

为更好地说明GCRU-ATT模型的预测性能, 在东海研究区域和渤海研究区域分别随机选择一个观测点(东海: 30°7′30″N, 126°7′30″E, 渤海: 38°37′30″N, 119°37′30″E)。应用本文所提模型对所选取的两个观测点进行测试, 图 12展示了本文模型在东海和渤海两个位置未来1 d、3 d和7 d的预测结果。

图 12 GCRU-ATT模型在东海和渤海研究区域2022年测试集上不同时间步长的预测结果 Fig. 12 Forecast results of the graph convolutional recurrent unit–attention mechanism model at different time steps on the ECS and BS test sets of 2022

GCRU-ATT模型的预测结果表明, 无论东海还是渤海观测点, 该模型在不同的预测步长上都能获得良好的预测结果, 预测值与实际值拟合良好, 预测的偏差很低。尽管模型在最值的预测是有偏差的, 并且预测性能随着预测长度的增加而降低, 但这并不影响模型预测的准确性和稳定性。

4 结论

本文将海面温度空间分布构建网状拓扑图, 提出了一种同时捕捉全局时间和空间相关性的海面温度预测方法GCRU-ATT。本方法应用图卷积来捕获空间依赖关系, 使用GRU网络捕捉连续历史SST值的动态时间变化, 引入注意机制关注重要信息, 提高预测精度。选择东海和渤海研究区域, 应用GCRU-ATT模型对所提出的SST预测任务进行测试。结果表明, 在不同预测步长上, GCRU-ATT模型的预测精度均优于CNN-LSTM、TSGN和ConvGRU模型, 证明了该模型在实际SST预测的有效性, 但是影响SST变化还有其他环境因素如太阳辐射、大气运动等, 未来的研究可以考虑引入多个参数对模型进一步优化, 以提高SST的预测精度。

参考文献
[1]
SUMNER M D, MICHAEL K J, BRADSHAW C J A, et al. Remote sensing of Southern Ocean Sea surface temperature: implications for marine biophysical models[J]. Remote Sensing of Environment, 2003, 84(2): 161-173.
[2]
陆雪, 刘子洲, 翟方国. 近18 a山东半岛南部海域海面温度的长期变化研究[J]. 海洋科学, 2023, 47(4): 37-53.
LU Xue, LIU Zizhou, ZHAI Fangguo. Long-term changes in sea surface temperature in sea areas to the south of the Shandong Peninsula over the past 18 years[J]. Marine Sciences, 2023, 47(4): 37-53.
[3]
CONSTABLE A J, MELBOURNE-THOMASJ, CORNEYS P, et al. Climate change and Southern Ocean ecosystems Ⅰ: how changes in physical habitats directly affect marine biota[J]. Global Change Biology, 2015, 20(10): 3004-3025.
[4]
李玲莉, 王林慧, 宋军, 等. 两类El Niño事件对中国近海及毗邻海域海表温度的影响[J]. 海洋科学, 2021, 45(4): 51-63.
LI Lingli, WANG Linhui, SONG Jun, et al. Effects of two types of El Niño events on the sea surface temperature in China's offshore and adjacent seas[J]. Marine Sciences, 2021, 45(4): 51-63.
[5]
RÜHMKORFF S, WOLF F, VAJEDSAMIEI J, et al. Marine heatwaves and upwelling shape stress responses in a keystone predator[J]. Proceedings of the Royal Society B, 2023, 290(1991): 20222262. DOI:10.1098/rspb.2022.2262
[6]
CASTROS L, WICKG A, STEELE M. Validation of satellite sea surface temperature analyses in the Beaufort Sea using UpTemp buoys[J]. Remote Sensing of Environment, 2016, 187: 458-475.
[7]
KRISHNAMURTI T N, CHAKRABORTY A. Seasonal prediction of sea surface temperature anomalies using a suite of 13 coupled atmosphere–ocean models[J]. Journal of Climate, 2006, 19(23): 6069-6088. DOI:10.1175/JCLI3938.1
[8]
ZHU L Q, LIU Q, LIU X D, et al. RSST-ARGM: a data-driven approach to long-term sea surface temperature prediction[J]. EURASIP Journal on Wireless Communications and Networking, 2021, 171.
[9]
STOCKDALET N, BALMASEDAM A, VIDARD A. Tropical Atlantic SST prediction with coupled ocean– atmosphere GCMs[J]. Journal of Climate, 2006, 19(23): 6047-6061.
[10]
LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[11]
HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[12]
WANG W H, WEI F R, DONG L, et al. MINILM: Deep self-attention distillation for task-agnostic compression of pre-trained transformers[J]. Advances in Neural Information Processing Systems, 2020, 33: 5776-5788.
[13]
ZHANG Q, WANG H, DONG J Y, et al. Prediction of sea surface temperature using long short-term memory[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(10): 1745-1749.
[14]
XIAO C, CHEN N, HU C, et al. Short and mid-term sea surface temperature prediction using time-series satellite data and LSTM-AdaBoost combination approach[J]. Remote Sensing of Environment, 2019, 233: 111358.
[15]
贺琪, 胡泽煜, 徐慧芳, 等. 基于经验模态分解-门控循环模型的海表温度预测方法[J]. 激光与光电子学进展, 2021, 58(24): 2415005.
HE Qi, HU Zeyu, XU Huifang, et al. Sea surface temperature prediction method based on empirical mode decomposition-gated recurrent unit model[J]. Laser & Optoelectronics Progress, 2021, 58(24): 2415005.
[16]
孙苗, 赵龙飞, 孔祥超. 一种基于深度学习的海表面温度预测方法——以南海为例[J]. 海洋信息技术与应用, 2021, 36(4): 25-31.
SUN Miao, ZHAO Longfei, KONG Xiangchao. A SST prediction method based on deep learning: take the South China Sea case as an example[J]. Journal of Marine Information Technology and Application, 2021, 36(4): 25-31.
[17]
张雪薇, 韩震. 基于ConvGRU深度学习网络模型的海表面温度预测[J]. 大连海洋大学学报, 2022, 37(3): 531-538.
ZHANG Xuewei, HAN Zhen. Prediction of sea surface temperature based on ConvGRU deep learning network model[J]. Journal of Dalian Ocean University, 2022, 37(3): 531-538.
[18]
冯宁, 郭晟楠, 宋超, 等. 面向交通流量预测的多组件时空图卷积网络[J]. 软件学报, 2019, 30(3): 759-769.
FENG Ning, GUO Shengnan, SONG Chao, et al. Multicomponent spatial-temporal graph convolution networks for traffic flow forecasting[J]. Journal of Software, 2019, 30(3): 759-769.
[19]
SUN Y, YAO X, BI X, et al. Time-series graph network for sea surface temperature prediction[J]. Big Data Research, 2021, 25(4): 100237.
[20]
ZHENG G, LI X F, ZHANG R H, et al. Purely satellite data–driven deep learning forecast of complicated tropical instability waves[J]. Science Advances, 2020, 6(29): eaba1482.
[21]
YANG Y T, DONG J Y, SUN X, et al. A CFCC-LSTM model for sea surface temperature prediction[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(2): 207-211.
[22]
YU B, YIN H T, ZHU Z X. Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting[J]. arXiv preprint arXiv: 1709.04875, 2017.
[23]
KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv, 2016: 1609. 02907.
[24]
BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Transactions on Neural Networks, 1994, 5(2): 157-166.
[25]
LI M, HUANG P Y, CHANG X, et al. Video pivoting unsupervised multi-modal machine translation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45(3): 3918-3932.
[26]
GASTEIGER J, BOJCHEVSKI A, GÜ NNEMANN S. Predict then propagate: Graph neural networks meet personalized page Rank[J]. arXiv preprint arXiv, 2018: 1810.05997.