文章信息
- 徐美论, 李忠伟, 王雷全, 李娟, 胡亚斌, 梁建. 2023.
- XU Mei-lun, LI Zhong-wei, WANG Lei-quan, LI Juan, HU Ya-bin, LIANG Jian. 2023.
- 联合Bi-LSTM和注意力加强多尺度卷积的黄河三角洲湿地高光谱图像分类方法研究
- Combined Bi-LSTM and attention enhancement multiscale convolution for wetland hyperspectral image classification in the Yellow River Delta
- 海洋科学, 47(5): 27-40
- Marine Sciences, 47(5): 27-40.
- http://dx.doi.org/10.11759/hykx20220429013
-
文章历史
- 收稿日期:2022-04-29
- 修回日期:2022-12-30
2. 中国石油大学(华东)计算机科学与技术学院, 山东 青岛 266580;
3. 自然资源部 第一海洋研究所, 山东 青岛 266061;
4. 南通智能感知研究院, 江苏 南通 226007
2. College of Computer Science and Technology, China University of Petroleum (East China), Qingdao 266580, China;
3. Ministry of Natural Resources, First Institute of Oceanography, Qingdao 266061, China;
4. Nantong Intelligent Perception Research Institute, Nantong 226007, China
黄河三角洲是高效的生态经济区, 是国家级自然保护区, 在资源储备, 生态调节, 生物保护等[1-2]方面发挥着重要作用。黄河入海流路改道至清水沟路以来, 在新老河道的交汇处, 存在多种地物类型, 其生态资源、土地资源极为丰富, 而近年来由于油田和农田的增加导致滩涂大面积围垦, 破坏了生态环境, 使得面向黄河三角洲湿地分类遥感监测的需求日益增大; 加之遥感技术的飞速发展, 使得越来越多的学者投身于高光谱图像分类领域, 因此采用有效的分类方法来监测识别相关地物对于黄河三角洲湿地的生态资源保护具有重要意义。
高光谱遥感是将成像技术和光谱技术相结合的多维信息获取技术, 可以同时获取目标的二维空间信息与第三维的光谱信息, 得到高光谱分辨率的连续、窄波段图像数据[3]。与传统遥感相比, 其优势在于光谱分辨率高, 波段众多, 能够获取地物几乎连续的光谱特征曲线, 为图像分类提供了条件。根据每个像元的灰度、纹理、空间邻域信息及光谱信息等可得到像元的类别标签。高光谱图像(Hyperspectral Image, HSI)应用于农业、海洋遥感、地表资源调查、环境监测、地质资源勘探、军事侦察等领域均表现出突出优势与重要作用。
目前, 深度学习方法已成为高光谱图像分类领域的研究新热点, 其相较于传统的机器学习算法如支持向量机(SVM)、K-近邻法、朴素贝叶斯、决策树、稀疏表示、字典学习等能够自主学习图像的更高级特征, 可以更好地提取非线性和层次特征。其中, 卷积神经网络(CNN)、递归神经网络(RNN)、生成对抗网络(GAN)、长短期记忆网络(LSTM)等为基本、常见、高效、经典的深度学习网络。Li S等[4]综述了自编码(SAE)、CNN、RNN、GAN等深度学习网络在高光谱图像分类中的应用, 并比较了传统方法和深度学习方法间的差异性。张雪薇[5]列举了CNN、RNN、LSTM等神经网络在海洋信息探测中的应用现状, 并总结了深度学习方法的前景展望。高光谱图像分类方法高度依赖于空谱信息的特征提取, 而传统方法如支持向量机[6]、随机森林(RF)[7]等方法仅利用了光谱信息, 忽略了空间信息的重要性, 导致提取的特征信息不够完整, 影响分类准确率。RNN、LSTM网络主要用于光谱序列的学习, 例如杨胜龙[8]提出多层双向长短期记忆网络(Bi-LSTM)用于识别远洋渔船类型, 考虑船舶的两个方向的历史信息, 但仅利用单一的光谱波段信息进行特征的提取和识别, 因光谱存在同物异谱、同谱异物的现象而影响网络性能。因此, 空间信息对于分类至关重要。CNN网络主要用于提取空谱特征, 有1DCNN、2DCNN和3DCNN, 例如ROY S K等[9]综合考虑空谱信息, 提出典型3D-2D-CNN网络同时提取空谱信息, 3D-CNN有助于从一堆光谱波段中联合表示空间-光谱特征, 2D-CNN进一步学习更抽象的空间表示, 增加特征的辨别度, 从而提高分类精度; ZHANG Z[10]采用残差网络从高光谱图像(HSI)丰富的光谱特征和空间背景中连续学习鉴别特征, 进而提升网络性能。而上述方法均未考虑空间分布的特殊性, 即目标像素邻域内像素类别存在随机性。于是, ZHANG M[11]提出DR-CNN网络, 学习目标像素多邻域空间区域的上下文交互特征, 使提取到的空谱特征具有更强的识别能力。FENG J[12]提出RS-AMCNN网络, 自适应选取目标像素周围多个不同大小的邻域块, 不仅提取联合空间-光谱特征, 而且通过多尺度卷积操作利用不同空间位置的感受野。而这些模型忽略了卷积核提取不同区域特征对分类结果的贡献程度的不同, 因此, 近年注意力机制的兴起为深度学习提供更好的学习能力。
神经网络在注意力机制的辅助下可以聚焦局部重要位置而忽略无关位置, 根据输入的重要性自适应加权特征加以分配不同的权重值, 突出重要特征弱化相对无用特征。GUO M H[13]综述了通道、空间、分支等不同注意力的应用场景和方式。HUJ[14]提出的压缩激活网络(SENet)属于通道注意力, 通过对特征通道之间的相互依赖关系建立注意力机制, 自适应地对特征进行重新校准。J WANG[15]提出波段注意力, 使网络可以自动学习关注所需的波段集, 从而最大限度地提高分类精度。在卷积网络中加入注意力机制已是当下研究热点, 例如SUAN H[16]提出一种空间注意力机制网络(SSAN), 将光谱-空间网络(SSN)与SSAN相结合提取空谱特征。在此基础上, WOO S等[17]结合通道和位置注意力, 提出CBAM, 在通道和空间2个维度上均对输入特征进行特征优化, 使网络更多关注对分类有用的信息, 增强特征的表达能力。Li R[18]提出双路注意力网络DBDA, 将特征分别输入光谱特征提取分支和空间维提取分支, 分别加强光谱特征和空间特征的表征能力。Fu J[19]提出了一种新颖的对偶注意力网络, 位置注意力模块用于学习特征的空间依赖性, 通道注意力模块用来学习通道之间的内部关联性, 利用自注意力机制提高特征表示的判别性。
黄河三角洲湿地的黄河水含沙量巨大, 而河口区的裸滩含水量较大, 在卫星图像中其水体和裸滩的光谱特征差异较小, 因而根据黄河三角洲湿地类型及分布特点, 本文在深度学习方法和注意力机制的基础上作相关改进, 提出了联合分组预处理的双向长短期记忆网络(Devide pretreatment Bi-LSTM network, DBL)和注意力加强多尺度卷积网络(Attention enhancement on Multiple scales CNN, AMCNN)用于黄河三角洲湿地高光谱图像分类, 网络名字简称则为DBL-AMCNN。该网络主要有以下三点贡献:
(1) 该网络分为双路分别学习高光谱图像的光谱信息和空间信息, 最后将两路信息通过全连接层进行融合学习后得出最终分类结果。整个网络相互统一、相互制约, 通过反向传播不断训练优化。
(2) 光谱特征提取支路采用Bi-LSTM网络, 学习光谱间的双向关系, 并通过分组策略预处理缓解梯度消失现象, 更好地学习光谱的长期依赖关系; 从而缓解了由于水体和裸滩的光谱特征差异较小而影响分类精度的问题。
(3) 空间特征提取支路采用多尺度卷积神经网络, 并通过加入注意力对不同尺度和不同层次的网络信息进行信息增强学习, 最后级联多尺度多层次的信息得到空间特征用于后续分类; 在注意力增强特征信息表现力的基础上充分学习网络不同深度的特征信息, 使得分类精度更高, 黄河三角洲湿地不同地物类型的边界更清晰。
1 实验数据 1.1 研究区域黄河三角洲是我国暖温带最广阔、最完整、最年轻的滨海湿地, 位于山东省北部渤海湾和莱州湾之间, 东营市黄河入海口处, 东经118°10′至119°15′与北纬37°15′至38°10′之间, 地处黄河入海口, 总面积约5 450 km2, 是上游黄河携带大量泥沙在渤海凹陷处沉积形成的冲积平原, 是山东省东营市经济发展的广阔空间, 为山东黄河三角洲国家级自然保护区, 其水源充足, 海水和淡水的交汇促进泥沙絮凝沉降形成泥滩, 生长有许多湿地植被与珍稀动植物, 具有很高的科研价值; 加之其对于生态保护的重要性, 选取该研究区域, 对其地物类型进行有效的监测及分类。
1.2 数据如图 1所示, 高分五号(GF-5)数据集采集于2018年11月, 其区域覆盖了黄河三角洲的自然保护区滨海湿地, 其影像图由78、25、5三波段组合得到, 像素尺寸为462×617, 共150个波段, 光谱范围为390~1 029 nm, 其分辨率3.67~4.81 nm, 地面空间分辨率30 m。该区域为典型的滨海湿地, 其地物类型包含互花米草、芦苇、柽柳林、盐地碱蓬、潮滩芦苇、裸潮滩、盐碱滩及水体共8类。PROBA-CHRIS (Compact High Resolution Imaging Spectrometer) 是搭载于欧洲空间局(European Space Agency, ESA)小卫星上的遥感器, 成像模式多, 可获取0°、+36°、–36°、+55°和–55°等五种角度的高光谱图像。如图 2所示, 本文采用的CHRIS数据集区域位于黄河入海口新老入海径流清八汊和清水沟交界处, 于2012年6月获取黄河口滨海湿地CHRIS工作模式2的0°图像, 其影像图由15、10、5三波段组合得到; 像素尺寸为510×511, 共18个波段, 光谱范围为406~ 1 035 nm, 其光谱分辨率5.9~44.1 nm, 地面空间分辨率为17 m。该区域为典型的滨海湿地, 其地物类型包括芦苇、互花米草、滩涂、水体、裸地及柽柳碱蓬混生区共6类。
![]() |
图 1 实验区GF-5影像图及地物真值图 Fig. 1 GF-5 image and ground truth map in the experimental area |
![]() |
图 2 实验区CHRIS影像图及地物真值图 Fig. 2 CHRIS image and ground truth map in the experimental area |
图 1、图 2的真实地物标签图均由自然资源部第一海洋研究所和南通智能感知研究院相关人员联合进行了数据标签的人工标注和处理(去噪和大气校正)。此外, CHRIS是GF-5图像的黄河口入海口部分, 区域有重叠但地物标签存在不一样现象, 是因为两幅图像波段、所用卫星和采集年份不一样, 地物会发生变化, 从而地物类型存在差异, 在人工进行数据标签标记时进行了更细致的归类。
2 方法本文所提出的黄河三角洲滨海湿地高光谱图像分类方法的整体网络框架如图 3所示, 该网络分两路分别提取地物的空谱特征并融合; 针对黄河三角洲湿地地物中水体和裸滩的光谱特征差异较小的问题, 光谱特征提取支路采用分组预处理的Bi-LSTM网络, 分别从正反两方向学习光谱间相关性和长距离依赖性; 针对各地物空间分布边界的模糊性, 空间特征提取部分引入注意力机制进行特征的增强, 并通过级联多尺度卷积充分提取具表征力的特征。本节将分以下五小部分对图中相关工作做详细介绍。
![]() |
图 3 联合Bi-LSTM和注意力加强多尺度卷积的高光谱图像分类网络架构 Fig. 3 Combined Bi-LSTM and attention enhancement multi-scale convolution HSI classification network architecture |
研究表明在处理复杂光谱结构时深层的结构具有更好的泛化能力[20-21], 现有的方法主要关注光谱的完整性, 输入网络可在无监督情况下自动学习光谱特征, 而长短期记忆网络(LSTM)等时序网络更加关注相邻波段的上下文信息。因此, 如何正确地将高光谱矢量划分为不同的序列对网络的性能至关重要。高光谱含有数百个波段, 若将每个波段作为一个时间步输入一个频段一次则使得LSTM网络太深而无法训练。此外, 黄河三角洲湿地地物光谱之间具有强相似性, 如裸滩和水体光谱信息相似, 不易区分; 因此根据地物光谱间强相关性和长距离依赖性的特点进行分组预处理。
本文提出两种分组策略, 如图 4所示为分组策略1, 图 5所示为分组策略2, 并通过后续实验选择最优方案和最优时间步长。设N为波段数, t为LSTM中时间步数, 则每个时间步的序列长度为m=floor(N/τ), floor(x)表示向下舍入x。例如: 设z=[z1, z2, …, zn]为高光谱图像中某一像元在整个波段上的光谱向量序列。经分组变化后的光谱序列表示为x=[x1, x2, …xi, …xτ], 则存在下列分组策略。
![]() |
图 4 分组策略1 Fig. 4 Grouping strategy 1 |
![]() |
图 5 分组策略2 Fig. 5 Grouping strategy 2 |
分组策略1为:
$\begin{aligned} x^{(1)}= & {\left[z_1, z_2, \ldots, z_m\right] } \\ x^{(2)}= & {\left[z_{m+1}, z_{m+2}, \ldots, z_{2 m}\right] } \\ & \ldots \\ x^{(i)}= & {\left[z_{(i-1) m+1}, z_{(i-1) m+2}, \ldots, z_{i m}\right] } \\ & \ldots \\ x^{(\tau)}= & {\left[z_{(\tau-1) m+1}, z_{(\tau-1) m+2}, \ldots, z_{\tau m}\right] } \end{aligned}, $ | (1) |
分组策略2为:
$ \begin{array}{l} x^{(1)}=\left[z_1, z_{1+\tau}, \ldots, z_{1+\tau(m-1)}\right] \\ x^{(2)}=\left[z_2, z_{2+\tau}, \ldots, z_{2 \tau(m-1)}\right] \\ \;\;\;\cdots \\ x^{(i)}=\left[z_i, z_{i+\tau}, \ldots, z_{i+\tau(m-1)}\right] \\ \;\;\;\cdots \\ x^{(\tau)}=\left[z_\tau, z_{2 \tau}, \ldots, z_{\tau m}\right] \end{array} .$ | (2) |
训练RNN的主要挑战是长期依赖性, 即梯度在反向传播阶段趋于消失或爆炸, 导致RNN网络能够存取的上下文信息范围有限。由于谱带近似连续, 相邻谱带具有较高的相关性; 此外, 不相邻的光谱波段可能具有长期的相关性。因此, 为了更好地捕获序列之间的长期依赖关系。提出LSTM长短时记忆模块, 取代传统RNN中隐藏单元的存储单元。如图 6所示, LSTM处理序列问题有效的关键在于门结构, 通过门结构去除或者增加信息来改变细胞状态。存储单元中有四个主要元件, 包括输入门i(t)、遗忘门f(t)、输出门o(t)和自循环连接, 输入门的作用是允许或者阻止输入信号更新存储单元的状态; 输出门的作用是决定下个隐藏状态
$ i^{(t)}=\sigma\left(W_i x^{(t)}+U_i h^{(t-1)}+b_i\right),$ | (3) |
$ f^{(t)}=\sigma\left(W_f x^{(t)}+U_f h^{(t-1)}+b_f\right), $ | (4) |
$o^{(t)}=\sigma\left(W_o x^{(t)}+U_o h^{(t-1)}+b_o\right)$ | (5) |
$\tilde{c}^{(t)}=g\left(W_c x^{(t)}+U_c h^{(t-1)}+b_c\right), $ | (6) |
$c^{(t)}=i^{(t)} \tilde{c}^{(t)}+f^{(t)} \odot c^{(t-1)}, $ | (7) |
$ h^{(t)}=o^{(t)} \odot g\left(c^{(t)}\right),$ | (8) |
![]() |
图 6 LSTM网络门单元 Fig. 6 Gate unit in the LSTM network |
其中
每个波段图像不仅与其之前的波段图像相关, 还与其后续的波段图像相关, 基于此, 梁联晖等[22]运用Bi-RNN注意力网络, Mei S[23]运用Bi-LSTM, 有效学习序列长期依赖和上下文关系。因此在图像识别等某些任务中, 双向的序列网络可以很好的解决上述问题。
DBL是结合2.1中分组策略预处理和2.2中LSTM的经过双向处理后的改进网络。由于黄河三角洲湿地地物存在光谱相似, 同谱异物现象, 且相邻谱带具有较高的相关性, 不相邻的光谱波段可能具有长期的相关性。因此, 为了更好地区分不同地物的光谱信息, 捕获序列之间的长期依赖关系。本文提出DBL网络, 通过双向LSTM网络充分学习光谱信息的上下文关联性, 更好地区分湿地中裸滩和水体的光谱信息。如图 7所示, 该网络主要由LSTM、连接层和线性层组成, 在输入序列的所有时间步长中, 双向LSTM同时在两个方向上遍历输入序列, 训练两个LSTM。设输入序列为N, 第一个输入正序的用[f]表示, 第二个是输入序列的反转倒序, 用[r]表示, 该两层LSTM分别对光谱序列的前向和后向的相关性进行建模, 并生成两个特征向量O[f]和O[r], 然后级联O[f]和O[r]得到最终所学习到的特征向量并进一步通过线性层进行特征集成, 最后将所集成的双向特征送入softmax层进行分类。其模块计算过程如下:
$O={Linear}\left[{Con}\left(\left(O^{[f]}, O^{[r]}\right)\right)\right],$ | (9) |
$O^{(t)}=\phi\left(O^{(t)[f]} \oplus O^{(t)[r]}\right)+C,$ | (10) |
$ O^{(t)[f]}=\delta\left(U^{[f]} O^{(t-1)[f]} \oplus W^{[f]} N^{[t]}+b^{[f]}\right),$ | (11) |
$O^{(t)[r]}=\delta\left(U^{[r]} O^{(t+1)[r]} \oplus W^{[r]} N^{[t]}+b^{[r]}\right), $ | (12) |
![]() |
图 7 DBL网络 Fig. 7 DBL network |
其中Con表示级联双向计算结果(序列拼接), Linear表示线性层, 该网络中使用的为dense层;
$s^{(t)}=g_f^{(t)} s^{(t-1)}+g_i^{(t)} \delta_s\left(W h^{(t-1)}+U X^{(t)}\right),$ | (13) |
$h^{(t)}=g_o^{(t)} \delta_h\left(s^{(t)}\right),$ | (14) |
$g_i^{(t)}=F_S\left(W_i h^{(t-1)}+U_i N^{(t)}+b_i\right),$ | (15) |
$ g_f^{(t)}=F_S\left(W_f h^{(t-1)}+U_f N^{(t)}+b_f\right),$ | (16) |
$g_o^{(t)}=F_S\left(W_o h^{(t-1)}+U_o N^{(t)}+b_o\right),$ | (17) |
下标f, i和o表示图 4中LSTM单元的遗忘门、输入门和输出门, h表示系统状态, δh和δs表示系统状态和隐藏层状态的激活函数, 设置为“tanh”函数, b为偏差系数, g为随时间步长更新的门单元, Fs为sigmoid函数。
2.4 注意力机制模块提取的立方体的不同位置具有不同的语义信息。例如, 对象边缘通常比其他位置更具辨别力。如果能充分利用这些先验信息, 光谱和空间子网的学习能力将得到提高。由于黄河三角洲湿地地物空间分布的边界模糊, 网络对于边界地物的分类识别具挑战性。基于此, 本文将注意力机制加入到网络中, 使得网络更加关注对分类有用的信息并抑制对分类无用的信息, 从而可以让网络学习到更准确的特征信息, 更加精确高效地区分边界信息, 从而提升分类精度。
本文所使用的是一种简单而有效的卷积神经网络注意力模块, 先进行位置注意力加权, 后进行通道注意力加权。其具体实验过程如图 8所示, 给定一个中间特征图
$L^*=M_S(L) \otimes L,$ | (18) |
$ L^{+}=M_C\left(L^*\right) \otimes L^*,$ | (19) |
$ M_C(F)=\sigma\left\{\begin{array}{l} M L P[{AvgPool}(L)]+ \\ M L P[{MaxPool}(L)] \end{array}\right\}, $ | (20) |
$M_S(F)=\sigma\left\{f^{3 * 3}([{AvgPool}(L)+{MaxPool}(L)])\right\},$ | (21) |
![]() |
图 8 注意力机制模块 Fig. 8 Attention mechanism module |
其中
CNN不同层次之间的信息互补更有利于分类, 结合黄河三角洲湿地地物空间分布边界的模糊性特点, 本文提出AMCNN用于提取湿地高光谱图像的空间特征, 如图 9所示, CNN中加入批归一化层[24], 其多尺度体现在目标像素邻域在卷积过程中提取三个不同的邻域范围和浅中深三个不同层次的结构特征, 通过卷积、PCCBA注意力模块、批归一化、池化等, 分别从不同尺度和不同深度提取不同的空间特征, 并通过级联的方式融合这些特征用于后续通过全连接层和softmax层进行分类。该网络可加强特征之间的互补和层次之间的相关性, 提取到更加具有表现性的特征, 更加精准高效地对边界地物进行分类, 提升网络性能。相较于传统的多尺度多分支网络, 该网络不仅可以学习不同尺度之间相关性, 而且可以提取到不同尺度的特征信息。网络每个步骤细节参数如表 1所示, 步长是指卷积或池化过程中滑动窗口的移动步长, 填充是CNN中常用的一种技术, 通过在边界中添加零值使卷积运算前后特征图大小不变。
![]() |
图 9 引入BN层的多尺度卷积模块 Fig. 9 Spatial spectral gradient neural network model |
层 | 核大小 | 步长 | 填充 | 输出尺寸 |
输入层 | — | — | — | 28×28×4 |
Con2d1 | (32×3×3) | (1, 1) | 是 | 28×28×32 |
注意力模块1 | — | — | — | 28×28×32 |
BN2d1 | — | — | — | 28×28×32 |
Pooling2d1 | (2×2) | (2, 2) | 否 | 14×14×32 |
Flatten1 | — | — | — | (None, 6 272) |
Con2d2 | (48×3×3) | (1, 1) | 是 | 14×14×48 |
注意力模块2 | — | — | — | 14×14×48 |
BN2d2 | — | — | — | 14×14×48 |
Pooling2d2 | (2×2) | (2, 2) | 否 | 7×7×48 |
Flatten2 | — | — | — | (None, 2 352) |
Con2d3 | (60×3×3) | (1, 1) | 是 | 7×7×60 |
Flatten2 | — | — | — | (None, 2 352) |
注意力模块3 | — | — | — | 7×7×60 |
BN2d3 | — | — | — | 7×7×60 |
Pooling2d3 | (2×2) | (2, 2) | 否 | 3×3×60 |
Flatten3 | — | — | — | (None, 540) |
级联层 | — | — | — | (None, 128) |
全连接层 | — | — | — | (None, 16) |
本实验所选数据集为黄河三角洲湿地CHRIS高光谱影像。本实验均随机重复10次后取平均值, 每次训练均随机抽取训练集和测试集。如表 2、表 3所示。实验中训练集分别选取1%、2%、3%进行不同训练样本占比的比较, 剩下的为测试集。实验中采用小批量随机梯度下降算法优化网络, 实验中设置训练批次为300, 学习率为0.001, 批量大小为128。实验结果采用OA和Kappa系数评估。OA表示正确分类的样本占总测试样本的比例, Kappa系数表示真实值和分类结果之间的一致性, 两个指标越高说明分类结果越好。
序号 | 类别 | 训练集-1%/2%/3% | 总样本 |
1 | 互花米草 | 272/544/814 | 27 162 |
2 | 水体 | 1 220/2 440/3 661 | 122 043 |
3 | 芦苇 | 250/500/749 | 24 998 |
4 | 盐地碱蓬 | 190/380/570 | 19 011 |
5 | 盐碱滩 | 185/370/554 | 18 498 |
6 | 裸潮滩 | 445/890/1 334 | 44 467 |
7 | 潮滩芦苇 | 91/182/273 | 9 108 |
8 | 柽柳林 | 198/396/593 | 19 767 |
合计 | 8 | 2 851/5 702/8 548 | 285 054 |
序号 | 类别 | 训练集-1%/2%/3% | 总样本 |
1 | 柽柳林碱蓬混生 | 431/862/1 293 | 43 089 |
2 | 滩涂 | 831/1 662/2 493 | 83 052 |
3 | 芦苇 | 685/1 370/2 055 | 68 532 |
4 | 裸地 | 56/112/168 | 5 610 |
5 | 水体 | 564/1 128/1 692 | 56 427 |
6 | 互花米草 | 39/78/117 | 3 900 |
合计 | 6 | 2 606/5 212/7 818 | 260 610 |
本文所提出的模型在下述服务器上运行: 操作系统Ubuntu18.04.3, CPU处理器Intel(R) Core(TM) i7-9700K CPU@3.60GHz, GPU显卡NVIDIA RTX 3090 Super GP基于Tensorflow 2.5.0框架实现。
3.2 实验结果与分析首先验证分组策略的有效性, 对所提出的两种分组策略进行实验验证, 策略1按照光谱顺序将相邻波段划分为同一组, 策略2则按相同的时间步长间隔划分为同组。实验结果如图 10、图 11所示(采用1%的训练集), 通过实验说明, 太深的网络并不适合LSTM提取光谱特征, 所以本文中将时间步设置为3, 全连接FC神经元数量设置为128。实验结果证明了在不同时间步长的设置下策略2均优于策略1, 其原因一是策略2所划分的序列覆盖了更宽的光谱范围, 在每个时间步中有更多丰富的上下文光谱信息送入LSTM单元, 原因二是策略2中不同时间步之间的光谱距离更短, 使网络更好地学习长短期依赖关系。此外, 从可分性的角度来看, Xu Y[23]通过使用PCA将数据从原始高维空间投影到三维空间, 也验证了分组的有效性。
![]() |
图 10 CHRIS基于不同步长的分组策略性能 Fig. 10 CHRIS performance of band grouping with different numbers of time steps |
![]() |
图 11 GF-5基于不同步长的分组策略性能 Fig. 11 GF-5 performance of band grouping with different numbers of time steps |
其次, 采用第二种分组策略, 验证lstm不同方向的性能。实验结果如表 4所示, 在采用光谱特征进行图像分类的任务中, 双向网络能达到最好效果; 同时, 黄河三角洲湿地不同地物的光谱间差异性小, 利用DBL网络可综合学习不同方向的上下文长期依赖关系, 为分类网络提供更好的性能, 实现地物的有效区分。
分类结果 | 正向LSTM | 反向LSTM | 双向LSTM |
GF5-OA/% | 72.92 | 73.01 | 73.47 |
GF5-Kappa/% | 64.14 | 64.68 | 65.01 |
CHRIS-OA/% | 86.93 | 86.71 | 87.81 |
CHRIS-Kappa/% | 82.61 | 82.40 | 83.82 |
然后评估AMCNN在不同降维通道和不同输入邻域块大小下的性能, 因为PCA预处理的降维通道数P和输入网络的patch块大小w是网络中两个重要的影响性能的参数。由于经PCA降维预处理后, 高光谱图像的空谱信息多集中于第一主成分, 因此P选择3, 4, 6进行实验对比, w选择28, 24, 20, 其实验对比如表 5所示。因此加权计算时间花费和分类精度, P选择4, w选择28。
P | 3 | 4 | 6 |
时间/s | 270 | 300 | 570 |
OA | 85.30 | 85.96 | 85.64 |
w | 28 | 24 | 20 |
时间/s | 280 | 230 | 210 |
OA | 85.96 | 85.09 | 84.12 |
最后我们将所提出的方法同其他方法进行比较, 包括SVM、BL-0(无分组Bi-LSTM)、DBL-1(基于分组策略1的Bi-LSTM)、DBL-2(基于分组策略2的Bi-LSTM)、SSUN[25]、DBMA[26]、DBDA[18]、AMCNN (本文所提方法的空间特征提取支路)、DBL0-MCNN (无分组Bi-LSTM且无注意力机制)等, 分别采用不同占比的训练集, 其评估结果如表 6—8(GF-5-1%/2%/3%训练集)、表 9—11(CHRIS-1%/2%/3%训练集)所示, 各方法相应分类结果如图 12—14(GF-5-1%/2%/3%训练集), 图 15—17(CHRIS-1%/2%/3%训练集)所示。
类别 | SVM | BL-0 | DBL-1 | DBL-2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 78.42 | 69.03 | 73.89 | 71.94 | 87.32 | 86.58 | 89.38 | 90.35 | 90.38 | 90.79 |
2 | 91.56 | 87.31 | 89.31 | 89.09 | 93.60 | 93.28 | 92.94 | 93.98 | 93.43 | 92.99 |
3 | 65.64 | 46.79 | 50.61 | 53.14 | 85.13 | 83.39 | 84.75 | 81.66 | 83.36 | 85.66 |
4 | 43.13 | 38.69 | 40.06 | 38.29 | 56.33 | 55.15 | 68.05 | 61.99 | 57.85 | 62.64 |
5 | 60.69 | 56.77 | 65.09 | 62.65 | 77.81 | 72.87 | 64.04 | 78.96 | 76.38 | 76.05 |
6 | 73.90 | 58.40 | 61.13 | 68.28 | 70.16 | 78.76 | 76.52 | 75.26 | 76.73 | 79.12 |
7 | 49.61 | 40.77 | 46.58 | 59.18 | 70.35 | 70.63 | 73.86 | 65.46 | 74.29 | 77.42 |
8 | 54.41 | 60.77 | 58.71 | 65.54 | 86.46 | 86.21 | 83.65 | 84.54 | 86.66 | 89.74 |
OA/% | 76.13 | 68.96 | 71.71 | 73.37 | 83.17 | 84.43 | 84.88 | 84.96 | 85.09 | 86.11 |
Kappa/% | 68.13 | 59.04 | 62.52 | 64.77 | 78.40 | 79.47 | 81.28 | 80.19 | 80.39 | 81.80 |
类别 | SVM | BL0 | DBL1 | DBL2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 84.33 | 72.18 | 73.67 | 71.78 | 88.76 | 84.83 | 92.18 | 91.63 | 91.70 | 92.34 |
2 | 89.90 | 89.62 | 88.92 | 89.22 | 95.33 | 94.58 | 94.59 | 94.31 | 94.10 | 94.32 |
3 | 78.43 | 54.14 | 58.44 | 63.49 | 85.68 | 89.97 | 85.65 | 87.35 | 85.92 | 89.62 |
4 | 66.08 | 43.28 | 54..04 | 53.62 | 72.12 | 73.37 | 76.20 | 70.09 | 71.08 | 69.64 |
5 | 71.35 | 57.92 | 62.25 | 64.97 | 75.56 | 82.93 | 80.06 | 82.77 | 82.75 | 83.95 |
6 | 64.18 | 62.67 | 61.23 | 69.17 | 72.89 | 75.50 | 74.57 | 79.17 | 82.01 | 82.42 |
7 | 76.09 | 45.23 | 62.44 | 61.77 | 85.01 | 89.77 | 78.72 | 82.13 | 78.79 | 82.84 |
8 | 74.53 | 59.12 | 74.55 | 71.58 | 87.46 | 85.60 | 90.42 | 89.78 | 91.18 | 88.94 |
OA/% | 79.91 | 72.48 | 74.58 | 75.49 | 86.36 | 87.18 | 87.56 | 88.02 | 88.70 | 88.81 |
Kappa/% | 73.48 | 63.40 | 66.51 | 67.68 | 82.20 | 89.20 | 83.66 | 84.28 | 85.17 | 85.30 |
类别 | SVM | BL0 | DBL1 | DBL2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 84.84 | 72.46 | 74.93 | 76.44 | 89.04 | 91.84 | 88.74 | 93.07 | 90.54 | 93.83 |
2 | 90.52 | 89.82 | 89.84 | 89.78 | 94.03 | 95.85 | 96.70 | 96.17 | 95.51 | 95.54 |
3 | 78.42 | 56.58 | 61.33 | 62.65 | 91.44 | 87.15 | 86.55 | 85.96 | 89.89 | 89.64 |
4 | 66.66 | 46.08 | 44.79 | 38.28 | 75.76 | 77.00 | 82.03 | 72.91 | 80.13 | 76.30 |
5 | 71.58 | 65.60 | 59.34 | 66.94 | 73.03 | 80.98 | 80.79 | 81.67 | 84.57 | 84.54 |
6 | 65.08 | 68.13 | 69.77 | 72.12 | 77.23 | 78.72 | 80.64 | 82.25 | 81.38 | 84.54 |
7 | 74.88 | 48.17 | 60.06 | 55.65 | 84.73 | 86.94 | 94.15 | 87.38 | 85.50 | 84.75 |
8 | 75.36 | 70.47 | 68.39 | 70.34 | 88.77 | 92.94 | 87.68 | 90.61 | 89.19 | 91.59 |
OA/% | 80.43 | 74.71 | 75.37 | 76.02 | 87.33 | 89.32 | 89.60 | 89.65 | 89.86 | 90.64 |
Kappa/% | 74.21 | 66.55 | 67.40 | 68.31 | 83.38 | 85.94 | 86.45 | 86.34 | 86.66 | 87.47 |
类别 | SVM | BL-0 | DBL-1 | DBL-2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 77.74 | 77.87 | 77.25 | 80.40 | 88.40 | 83.53 | 86.35 | 84.42 | 86.98 | 87.04 |
2 | 83.75 | 86.34 | 89.96 | 89.03 | 90.03 | 91.14 | 88.36 | 90.38 | 90.00 | 94.43 |
3 | 93.85 | 93.29 | 93.46 | 94.17 | 88.72 | 93.42 | 93.02 | 93.69 | 93.01 | 95.57 |
4 | 47.70 | 55.65 | 50.88 | 60.23 | 80.21 | 75.91 | 81.14 | 80.78 | 80.06 | 81.26 |
5 | 90.44 | 79.77 | 87.21 | 87.04 | 88.59 | 88.04 | 88.31 | 88.99 | 89.21 | 90.79 |
6 | 71.66 | 54.31 | 62.76 | 82.67 | 83.66 | 85.84 | 84.13 | 84.97 | 85.30 | 85.52 |
OA/% | 85.90 | 84.21 | 86.94 | 87.81 | 89.38 | 89.20 | 89.35 | 91.14 | 91.38 | 92.30 |
Kappa/% | 81.31 | 78.99 | 82.61 | 83.82 | 86.02 | 85.71 | 85.84 | 88.24 | 88.61 | 89.78 |
类别 | SVM | BL0 | DBL1 | DBL2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 82.15 | 80.44 | 79.29 | 80.45 | 86.88 | 85.43 | 89.19 | 87.03 | 87.05 | 91.10 |
2 | 88.94 | 88.41 | 89.02 | 88.52 | 92.53 | 93.46 | 91.72 | 93.94 | 94.43 | 94.25 |
3 | 93.15 | 93.80 | 93.71 | 94.76 | 95.15 | 94.89 | 94.11 | 94.92 | 95.56 | 95.63 |
4 | 71.51 | 53.07 | 58.89 | 64.04 | 83.27 | 79.01 | 86.51 | 83.50 | 81.25 | 89.34 |
5 | 89.49 | 87.26 | 88.43 | 88.41 | 91.23 | 89.76 | 89.69 | 91.37 | 90.79 | 93.31 |
6 | 87.84 | 66.71 | 76.34 | 81.21 | 89.10 | 86.35 | 89.61 | 89.01 | 88.52 | 90.50 |
OA/% | 88.70 | 87.17 | 87.68 | 88.17 | 91.76 | 91.19 | 91.35 | 92.20 | 92.40 | 93.73 |
Kappa/% | 85.00 | 82.97 | 83.64 | 84.30 | 89.08 | 88.15 | 88.52 | 89.66 | 90.01 | 91.69 |
类别 | SVM | BL0 | DBL1 | DBL2 | DBL0-MCNN | DBMA | DBDA | SSUN | AMCNN | DBL-AMCNN |
1 | 82.17 | 82.23 | 82.20 | 79.71 | 82.19 | 89.70 | 87.84 | 93.67 | 92.53 | 91.33 |
2 | 89.35 | 86.72 | 87.59 | 89.97 | 95.95 | 92.01 | 93.01 | 93.26 | 94.02 | 95.35 |
3 | 93.03 | 94.80 | 94.40 | 94.28 | 97.90 | 94.93 | 94.21 | 93.03 | 95.72 | 95.93 |
4 | 72.65 | 58.78 | 65.27 | 64.18 | 81.34 | 84.76 | 84.83 | 93.16 | 83.19 | 89.48 |
5 | 89.82 | 88.76 | 88.33 | 87.86 | 91.78 | 88.77 | 92.52 | 94.51 | 93.34 | 93.87 |
6 | 89.72 | 75.20 | 80.46 | 81.49 | 90.46 | 91.11 | 90.31 | 92.06 | 94.78 | 95.96 |
OA/% | 88.94 | 87.77 | 88.04 | 88.27 | 92.88 | 91.43 | 92.10 | 93.51 | 93.85 | 94.41 |
Kappa/% | 85.31 | 83.80 | 84.14 | 84.42 | 90.52 | 88.63 | 89.53 | 89.65 | 91.86 | 92.58 |
![]() |
图 12 GF-5-1%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 12 Comparison of experimental results of different methods in GF-5-1% training set (a-i is the comparison method, j is the method in this paper) |
![]() |
图 13 GF-5-2%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 13 Comparison of experimental results of different methods in GF-5-2% training set (a-i is the comparison method, j is the method in this paper) |
![]() |
图 14 GF-5-3%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 14 Comparison of experimental results of different methods in GF-5-3% training set (a-i is the comparison method, j is the method in this paper) |
![]() |
图 15 CHRIS-1%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 15 Comparison of experimental results of different methods in CHRIS-1% training set (a-i is the comparison method, j is the method in this paper) |
![]() |
图 16 CHRIS-2%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 16 Comparison of experimental results of different methods in CHRIS-2% training set (a-i is the comparison method, j is the method in this paper) |
![]() |
图 17 CHRIS-3%训练集下不同方法实验结果对比图(a-i为对比方法, j为本文方法) Fig. 17 Comparison of experimental results of different methods in CHRIS-3% training set (a-i is the comparison method, j is the method in this paper) |
通过实验可知, 分组策略可以显著地提高LSTM的性能, 在两个数据集中, OA可提高约3%~5%, 其原因则是逐频带输入网络使得训练过深影响精度, 因此本文采用的分组策略2效果达到最优。此外, 光谱分支缺乏空间特征, 其分类图会受到胡椒噪声的干扰; 在空间分支中可有效利用地物连续性, 得到较清晰的分类图, 在不加注意力机制情况下SSUN的性能相较于AMCNN略低, 这是由于在AMCNN中使用的是双注意力, 可以同时捕获空谱信息, 有效提高网络精确率; DBL0-MCNN相较于DBMA、DBDA、SSUN略低, 其原因是无分组的Bi-LSTM加重了网络的计算负担, 使网络训练参数升高, 出现过拟合现象; 而DBMA、DBDA略低于SSUN可能由于该网络相对复杂, 不适用于小样本训练, 其参数训练出现欠拟合现象。因此, 相比之下, 本文所提出的DBL-AMCNN综合双向、分组和双注意力机制, 可达最优效果, 相比于其他卷积神经网络有效缓解过拟合现象, 减少网络训练压力和计算消耗, 提升抗噪声干扰能力; 从对比实验图的黑框和白框中可清晰看到本文算法在地物边界处的良好分类效果, 相比于其他方法地物边界更清晰, 更精确; 此外, 在不同占比训练集的实验相比较下, 总体精度在1%的极少训练集下已达到86%(GF5), 93%(CHRIS), 且其强泛化能力亦能在其他数据集中获得较优性能。
4 结语本文提出了一种新的高光谱图像分类方法, 并将其应用于黄河三角洲的滨海湿地地物识别检测, 根据该湿地地物的空谱特点, 网络分双路分别进行地物的光谱特征提取和空间特征提取。首先利用PCA对空间维进行降维预处理, 然后取降维后的小patch块输入AMCNN网络提取多尺度多层次融合的空间特征; 采用分组策略将对光谱维进行分组预处理后的光谱序列输入Bi-LSTM网络提取双向上下文关联和具长期依赖的光谱特征, 最后融合双路的空-谱特征通过softmax层进行分类。
本文通过一系列实验比较证明了所提DBL-AMCNN方法的有效性, 证明了分组和双向组合的有效性。此外, 通过双注意力和多尺度卷积的有效结合, 并验证注意力的对比试验, 证明了注意力模块在多尺度卷积的基础上进一步加强了空谱特征。所提出的方法不仅在少量的样本下实现了较好的分类效果, 而且降低了模型计算量和复杂度, 有效在庞大的数据提取困难度下更好的检测黄河三角洲滨海湿地的地物分布状况。
虽然所提出的分类方法和其他方法相比, 表现出最优异的性能, 但还存在不足之处, 之后的工作还需进一步优化模型, 继续提高模型效率和鲁棒性, 用更少的训练样本来达到更高的分类精度, 继续探索优化注意力及多尺度的参数问题, 并使网络能够自动学习双分支的贡献度权重因子并合理分配权重。
[1] |
李永涛, 杜振宇, 王霞, 等. 黄河三角洲自然保护区湿地生态服务功能价值评估[J]. 海洋环境科学, 2019, 38(5): 761-768. LI Yongtao, DU Zhenyu, WANG Xia, et al. Evaluation of wetland ecological service function in Yellow River delta nature reserve[J]. Marine environmental science, 2019, 38(5): 761-768. DOI:10.13634/j.cnki.mes.2019.05.017 |
[2] |
王娜娜, 刘宏元, 李英, 等. 黄河三角洲湿地生态系统服务价值评估[J]. 山东农业科学, 2022, 54(2): 153-158. WANG Nana, LIU Hongyuan, LI Ying, et al. Evaluation of wetland ecosystem services in Yellow River Delta[J]. Shandong Agricultural Sciences, 2022, 54(2): 153-158. DOI:10.14083/j.issn.1001-4942.2022.02.023 |
[3] |
张建伟, 陈允杰. 高光谱图像分类方法综述[J]. 南京信息工程大学学报(自然科学版), 2020, 12(1): 89-100. ZHANG Jianwei, CHEN Yunjie. A review of hyperspectral image classification methods[J]. Journal of Nanjing University of Information Science & Technology (Natural Science Edition), 2020, 12(1): 89-100. |
[4] |
LI S, SONG W, FANG L, et al. Deep Learning for Hyperspectral Image Classification: An Overview[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(9): 6690-6709. DOI:10.1109/TGRS.2019.2907932 |
[5] |
张雪薇, 韩震, 郭鑫. 深度学习在海洋信息探测中的应用: 现状与展望[J]. 海洋科学, 2022, 46(2): 145-155. ZHANG Xuewei, HAN Zhen, GUO Xin. Application of deep learning in ocean information detection: Current Situation and Prospect[J]. Marine Science, 2022, 46(2): 145-155. |
[6] |
MOUGHAL, T A. Hyperspectral image classification using Support Vector Machine[J]. Journal of Physics Conference, 2013, 439(1): 20-42. |
[7] |
XIA J, FALCO N, BENEDIKTSSON J A, et al. Hyperspectral Image Classification With Rotation Random Forest Via KPCA[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2017, 10(4): 1601-1609. |
[8] |
杨胜龙, 史慧敏, 张胜茂, 等. 基于Bi-LSTM模型的远洋渔船类型识别研究[J]. 海洋科学, 2022, 46(3): 25-35. YANG Shenglong, SHI Huimin, ZHANG Shengmao, et al. Research on type identification of ocean-going fishing vessel based on BiLSTM Model[J]. Marine Science, 2022, 46(3): 25-35. |
[9] |
ROY S K, KRISHNA G, DUBEY S R, et al. HybridSN: Exploring 3D-2D CNN Feature Hierarchy for Hyperspectral Image Classification[J]. IEEE Geoscience and Remote Sensing Letters, 2020, 17(2): 277-281. DOI:10.1109/LGRS.2019.2918719 |
[10] |
ZHONG Z, LI J, LUO Z, et al. Spectral-Spatial Residual Network for Hyperspectral Image Classification: A 3-D Deep Learning Framework[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 56(2): 847-858. |
[11] |
ZHANG M, LI W, DU Q. Diverse Region-Based CNN for Hyperspectral Image Classification[J]. IEEE Transac tions on Image Processing A Publication of the IEEE Signal Processing Society, 2018, 27(6): 2623-2634. DOI:10.1109/TIP.2018.2809606 |
[12] |
FENG J, WU X, SHANG R, et al. Attention Multibranch Convolutional Neural Network for Hyperspectral Image Classification Based on Adaptive Region Search[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(6): 5054-5070. |
[13] |
GUO M H, XU T X, LIU J J, et al. Attention Mechanisms in Computer Vision: A Survey[J]. 2021, 8 (3): 331-368.
|
[14] |
HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 7132-7141.
|
[15] |
WANG J, ZHOU J, HUANG W. Attend in bands: Hyperspectral band weighting and selection for image classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(12): 4712-4727. |
[16] |
SUN H, ZHENG X, LU X, et al. Spectral–Spatial Attention Network for Hyperspectral Image Classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5): 3232-3245. |
[17] |
WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV). 2018: 3-19.
|
[18] |
LI R, ZHENG S, DUAN C, et al. Classification of hyperspectral image based on double-branch dual-attention mechanism network[J]. Remote Sensing, 2020, 12(3): 582. |
[19] |
FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019: 3146-3154.
|
[20] |
CHEN Y, LIN Z, ZHAO X, et al. Deep learning-based classification of hyperspectral data[J]. IEEE Journal of Selected topics in applied earth observations and remote sensing, 2014, 7(6): 2094-2107. |
[21] |
CHEN Y, ZHAO X, JIA X. Spectral–spatial classification of hyperspectral data based on deep belief network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(6): 2381-2392. |
[22] |
梁联晖, 李军, 张绍泉. 基于3D Octave卷积和Bi-RNN注意力网络的高光谱图像分类方法[J]. 光子学报, 2021, 50(9): 13. LIANG Lianhui, LI Jun, ZHANG Shaoquan. Hyperspectral image classification based on 3D Octave convolution and BI-RNN attention Network[J]. Journal of photons, 2021, 50(9): 13. |
[23] |
MEI S, LI X, LIU X, et al. Hyperspectral image classification using attention-based bidirectional long shortterm memory network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60: 1-12. |
[24] |
IOFFE S, SZEGEDY C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]//International conference on machine learning. PMLR, 2015: 448-456.
|
[25] |
XU Y, ZHANG L, DU B, et al. Spectral–spatial unified networks for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(10): 5893-5909. |
[26] |
MA W, YANG Q, WU Y, et al. Double-branch multi-attention mechanism network for hyperspectral image classification[J]. Remote Sensing, 2019, 11(11): 1307. |