海洋科学  2021, Vol. 45 Issue (12): 1-7   PDF    
http://dx.doi.org/10.11759/hykx20201112001

文章信息

张明, 王子龙, 吕晓琪, 喻大华, 张宝华, 李建军. 2021.
ZHANG Ming, WANG Zi-long, LÜ Xiao-qi, YU Da-hua, ZHANG Bao-hua, LI Jian-jun. 2021.
一种增强型YOLOv3的合成孔径雷达(SAR)舰船检测方法
An enhanced YOLOv3 method for synthetic aperture radar (SAR) ship detection
海洋科学, 45(12): 1-7
Marina Sciences, 45(12): 1-7.
http://dx.doi.org/10.11759/hykx20201112001

文章历史

收稿日期:2020-11-12
修回日期:2021-05-07
一种增强型YOLOv3的合成孔径雷达(SAR)舰船检测方法
张明1,2, 王子龙1, 吕晓琪1,3, 喻大华1, 张宝华1, 李建军1     
1. 内蒙古科技大学 信息工程学院模式识别与智能图像处理重点实验室, 内蒙古 包头 014010;
2. 大连海事大学 信息科学技术学院, 辽宁 大连 116026;
3. 内蒙古工业大学, 内蒙古 呼和浩特 010051
摘要:近年来, 海战场成为现代战争的主要作战区域之一, 舰船目标逐渐成为海上重点监测对象, 能否快速准确地识别海战场舰船目标的战术意图, 给指挥员的决策提供必要的支持, 这关系到一场海上战役的成败。随着合成孔径雷达(synthetic aperture radar, SAR)成像技术的不断发展, 大量SAR图像可用于舰船目标检测与识别。利用SAR图像进行舰船目标检测与识别, 已经成为重要的海洋应用之一。针对传统SAR图像舰船检测方法准确率较低的问题, 本文在YOLOv3的基础上, 结合感受野(receptive field block, RFB)模块, 提出一种增强型的SAR舰船检测方法。该方法在最近公开的SAR图像舰船检测数据集上平均准确率值达到了91.50%, 与原YOLOv3相比提高了0.92%。实验结果充分表明本文提出的算法在SAR舰船的检测中具有较好的检测效果。
关键词舰船检测    合成孔径雷达(SAR)    YOLO    遥感图像    
An enhanced YOLOv3 method for synthetic aperture radar (SAR) ship detection
ZHANG Ming1,2, WANG Zi-long1, LÜ Xiao-qi1,3, YU Da-hua1, ZHANG Bao-hua1, LI Jian-jun1     
1. Key Laboratory of Pattern Recognition and Intelligent Image Processing, College of Information Engi­neering, Inner Mongolia University of Science and Technology, Baotou 014010, China;
2. School of Infor­mation Science and Technology, Dalian Maritime University, Dalian 116026, China;
3. Inner Mongolia University of Technology, Hohhot 010051, China
Abstract: Recently, the naval battlefield has become one of the main operational areas of modern warfare. Ship targets have gradually become the key objects monitored at sea. The success of a maritime battle is related to the ability to quickly and accurately identify the tactical intent of ship targets on the naval battlefield and to provide the necessary support for the commander's decision-making. With the development of synthetic aperture radar (SAR) imaging technology, a large number of SAR images can be used for ship target detection and recognition. Detection and identification of marine targets have become one of the most important marine applications of SAR data. In order to solve the problem of low accuracy of traditional SAR image ship detection, this paper proposes an enhanced SAR ship detection based on the algorithm YOLOv3 and the DarkNet-53 network structure, combined with the receptive field block (RFB) module. This method achieves a mean average precision (Pma) value of 91.50% in the recently published SAR image detection data set and shows an improvement of 0.92% compared with the original YOLOv3. The experimental results show that the algorithm proposed in this paper is effective in enhancing SAR ship detection.
Key words: ship detection    SAR    YOLO    remote sensing image    

合成孔径雷达(synthetic aperture radar, SAR)[1]是一种主动式高分辨率微波成像传感器, 在微波遥感领域中得到了快速的发展。与光学、红外传感器相比, SAR不会受到天气、光照等外部条件的影响, 具有全天时、全天候、大尺度、远距离和连续观测运动目标的能力, 并能拍摄高分辨率的图像。SAR成像的过程中能够观测到海面舰船目标、舰船尾迹图像变化及穿透海水探测复杂地形。而且, 对海面目标进行成像时具有长期、连续、实时等特点, 所以利用大量的SAR数据信息[2-7], 可以对海面舰船目标进行检测与跟踪。因此, SAR更适用于舰船目标检测、侦察和监视等研究。

SAR图像舰船检测方法主要包括基于统计模型、基于特征的方法和深度学习模型[8-9], 传统的方法有恒虚警率(constant false alarm rate, CFAR)[10-11]等。李健伟等[12]将候选区域提取的二值化标准梯度方法(binarized normed gradients, BING)[13]和快速区域卷积神经网络(faster region-convolutional neural network, Fast R-CNN)[14]相结合, 以这种方法进行SAR舰船检测, 检测率达到73.5%。杨龙等[15]将单点多框检测器(single shot multi box detector, SSD)应用到SAR舰船检测中, 提出了上下文信息的迁移学习模型, 实现了87.1%的检测精度。而当前主流算法为深度学习神经网络目标检测算法, 如: SSD[16], YOLO[17](you only look once), YOLOv2[18], YOLOv3[19], R-CNN[20] (region-convolutional neural network), Fast R-CNN[21]和Faster R-CNN[22]等。深度学习模型中的特征金字塔模型(feature pyramid network, FPN)因其能通过跨尺度特征融合的结构, 解决多尺度目标检测问题, 已被广泛用于多尺度检测[23]。如: NAS-FPN (Neural architecture search with rein forcement learning)[24], PANet (path aggregation network)[25], YOLOv3等网络。其中检测精度和速度比较好的算法是YOLOv3, 检测精度可达到90.58%。为了进一步提高舰船检测精度, 本文在YOLOv3的基础上, 结合DarkNet-53网络结构和感受野(RFB)模块, 提出一种增强型的SAR舰船检测方法, 该方法可以解决复杂场景下舰船目标精准检测问题, 同时为海上目标检测智能化发展提供技术支撑, 进而对未来战场态势评估、战术目标打击等任务提供指导建议。

1 方法 1.1 YOLOv3算法原理

YOLOv3主要使用残差网络改进特征提取网络, 将基础网络DarkNet-19[18]升级到DarkNet-53[19], 通过DarkNet-53特征提取网络对输入图像提取特征, 得到一定大小的特征图, 借鉴特征金字塔网络的思想, 在3个不同尺度(13×13、26×26和52×52)大小的特征图上, 给每个尺度分配三个不同大小的预选框, 然后基于图像的全局信息进行目标预测, 从而实现端到端的检测。

YOLOv3损失函数公式如下:

$Loss = {\rm{ }}los{s_{xy}} + los{s_{{\rm{wh}}}} + los{s_{{\rm{class}}}} + los{s_{{\rm{confidence}}}}, $ (1)

其中, 为损失函数; lossxy为目标中心相对所在网格左上角坐标的偏移量误差;losswh为预选框长宽误差;lossclass为分类误差,lossconfidence为目标置信度误差。

1.2 感受野(RFB)模块原理

RFB结构主要有两个特点[26]: (1) 使用不同尺寸卷积核的卷积层构成的多分枝结构; (2) 引入了空洞卷积层, 来增加感受野。其中RFB结构中用不同膨胀因子rate(内核元素间的距离)表示空洞卷积层的参数。在RFB结构中每个分支上, 特定核大小的卷积层后面跟着一个相应膨胀系数的卷积层, 所有不同尺寸和膨胀因子的卷积层的特征图被连接起来, 合成一个卷积数组, 达到融合不同特征的目的。其结构如下图 1所示。

图 1 RFB模型结构 Fig. 1 RFB model structure

RFB-s和RFB相比, 针对于多尺度检测问题主要有两个改进, 一方面用3×3卷积层代替5×5卷积层, 另一方面用1×3和3×1卷积层代替3×3卷积层, 主要目的应该是为了减少计算量, 本文用RFB-s网络对YOLOv3进行改进。RFB-s其结构如下图 2所示。

图 2 RFB-s模型结构 Fig. 2 RFB-s model structure
1.3 改进的模型结构

本文算法分别在YOLOv3中的DarkNet-53的最后一层、第152层与最后一层上采样连接后、和第92层与第152层上采样连接后加入感受野模块(图 3红色部分)。新的网络模型结构如图 3所示。

图 3 YOLOv3-RFB-s网络模型图 Fig. 3 YOLOv3-RFB-s network model diagram
1.4 参数设置

本文实验在中科院公布的数据集进行SAR舰船检测模型的训练, 训练参数: batch_size为32, 动量为0.9, 权重衰减正则系数为0.000 5, 学习率为0.001, IOU设置为0.5。

2 实验结果与分析 2.1 实验数据集

本文实验数据采用中国科学院空天信息研究院数字地球重点实验室王超研究员团队最近公开的SAR图像船舶检测数据集。该数据集来自国产高分三号SAR数据和Sentinel-1 SAR数据, 均为多源、多模式SAR图像。包含SAR舰船检测图像43 550张, 图片大小为256×256, 将数据集按照7︰1︰2随机分为训练集、验证集和测试集。其中部分数据集样本如图 4所示。

图 4 数据集样本 Fig. 4 Samples of the data set
2.2 实验环境

本文所有实验都在一个深度学习加速计算服务器上进行, 该服务配置CPU为Intel Xeon E3 v4, GPU为NVIDIA v10, 内存为32 G, 所提出的网络模型都在公开的TensorFlow框架和Keras人工神经网络库上实现。

2.3 实验评价指标

为了有效地评价模型性能, 本文采用平均准确率平均准确率(mean average precision, Pma)、Pd(检测率)和Pm(漏检率)等评价指标。公式定义为:

平均准确率为:

$ {P_{\rm{ma}}} = \mathop \smallint \limits_0^1 P\left( R \right){\rm{d}}R , $ (2)

检测率为:

$ {P_{\rm{d}}} = \frac{{TP}}{{GT}}, $ (3)

漏检率为:

$ {P_{\rm{m}}} = \frac{{FN}}{{GT}}, $ (4)

式中, P为准确率; R为召回率; TP为被预测为正样本, 实际为正样本; FN为被预测为负样本, 实际为正样本; GT为真实目标。

2.4 置信度的选择

为了得到更有效的模型, 本文设置了三个不同的置信度参数, 分别为0.2、0.25和0.3。实验结果如表 1所示。在检测的样本中一共有图片8 710张, 有舰船目标11 805个。从表 1中(其中FP被预测为正样本, 实际为负样本)。可以得出, 本文实验在不同置信度的检测结果中, 当置信度为0.2的时候检测效果最好, 平均准确率为91.50%, 检测率为93.63%, 漏检率为6.37%。

表 1 不同置信度下的实验结果 Tab. 1 Experimental results under different confidence levels
置信度 TP FP FN GT Pd/% Pm/% Pma/%
0.3 10 897 1 216 983 11 805 92.05 7.95 90.09
0.25 10 968 1 411 837 11 805 92.91 7.09 90.86
0.2 11 054 1 670 751 11 805 93.63 6.37 91.50

为了评估所提模型的收敛性, 本文将模型损失曲线可视化, 如图 5所示。实验结果表明, 损失曲线在第30个epoch时接近零, 在随后的20个批次中, 损失曲线没有明显的波动, 从这些现象可以得出模型已经达到收敛状态。

图 5 模型的loss曲线 Fig. 5 Loss curve of the model

此外, 为了评价所提模型的性能, 本文与原YOLOv3网络进行了比较。当两个模型的置信度均设置为0.2时, 从表 2中可以得出, 本文的模型与YOLOv3相比检测到的目标数量提高68个, 误检数量减少130个, 漏检数量减少68个, 检测率提高了0.57%, 平均准确率值提高了0.92%。说明本文方法与YOLOv3相比具有较好的检测效果, 在性能上有了进一步的提升。

表 2 实验SAR舰船检测结果评价指标 Tab. 2 Evaluation index of experimental SAR ship detection results
网络模型 TP FP FN Pd/% Pm/% Pma/%
YOLOv3 10 986 1 800 819 93.06 6.94 90.58
YOLOv3+RFB-s 11 054 1 670 751 93.63 6.37 91.50

为了验证所提模型的有效性, 本文将模型的P-R曲线可视化, 如图 6所示。结果表明, 随着召回率的上升, 改进后模型的精确度下降比较缓慢, 且模型的精准确度大于YOLOv3, 说明改进后的模型与YOLOv3相比, 在舰船检测特征提取的过程中, 具有更强大的提取与判别能力。

图 6 模型的P-R曲线图 Fig. 6 P-R curve of the model

为了验证方法的有效性, 本文随机选取三幅图像, 分别用原YOLOv3和本文方法进行舰船检测, 实验结果效果图如图 7所示, 在(d)与(g)图片中原YOLOv3与本文实验同时正确检测出真实目标但原YOLOv3出现了误检现象。在(e)与(h)图片中YOLOv3出现漏检现象。在(f)与(i)图片中YOLOv3没有正确检测出舰船。而本文实验能够正确检测出下图中的舰船目标, 且得分相对较高。与YOLOv3相比在简单和复杂的背景下都具有较好的检测结果。

图 7 SAR舰船检测结果图 Fig. 7 Result of SAR ship detection (a-c)为数据集中真实的目标(黄色框标出); (d-f)为原YOLOv3检测结果; (g-i)为本文方法的检测结果 (a-c) Real targets in the data set (marked in yellow boxes); (d-f) Detection results using the original YOLOv3 method; (g-i) Detection results using our method
3 结论

针对SAR舰船检测准确率较差、检测困难的问题, 本文在YOLOv3的基础上, 结合DarkNet-53网络结构和感受野(RFB)模块, 提出一种增强型的SAR舰船检测方法, 该方法具有较好的检测效果。在实验过程中通过设置不同置信度, 最终发现当置信度为0.2时模型效果最优。为了验证模型的有效性, 该模型检测结果与YOLOv3进行了比较, 结果表明该模型不仅提升了检测率, 而且降低了误检率, 在相对复杂的环境下能够更准确地检测出图像中的舰船目标。但是, 本文算法在多个小目标密集且噪声比较大的时候, 虚假目标也会呈现高亮度的状态与真实目标非常接近很难分辨出真实目标, 会存在漏检或误检的现象, 之后我们将会针对这一现象进行改进, 提高在高噪声、多目标的情况下的检测性能。

参考文献
[1]
WANG Y, WANG C, ZHANG H, et al. A SAR dataset of ship detection for deep learning under complex backgrounds[J]. Remote Sensing, 2019, 11(7): 765-771. DOI:10.3390/rs11070765
[2]
CHEN S, WANG H, XU F, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806-4817. DOI:10.1109/TGRS.2016.2551720
[3]
BREKKE C, SOLBERG A H. Oil spill detection by satellite remote sensing[J]. Remote sensing of environ­ ment, 2005, 95(1): 1-13. DOI:10.1016/j.rse.2004.11.015
[4]
ELDHUSET K. An automatic ship and ship wake detection system for spaceborne SAR images in coastal regions[J]. IEEE transactions on Geoscience and Remote Sensing, 1996, 34(4): 1010-1019. DOI:10.1109/36.508418
[5]
ZHANG T, ZHANG X. High-speed ship detection in SAR images based on a grid convolutional neural net­work[J]. Remote Sensing, 2019, 11(10): 1206-1213. DOI:10.3390/rs11101206
[6]
ZHANG M, AN J, ZHANG J, et al. Enhanced delaunay triangulation sea ice tracking algorithm with combining feature tracking and pattern matching[J]. Remote Sen­ sing, 2020, 12(3): 581-587. DOI:10.3390/rs12030581
[7]
张明, 吕晓琪, 张晓峰, 等. 结合纹理特征的SVM海冰分类方法研究[J]. 海洋学报, 2018, 40(11): 149-156.
ZHANG Ming, LÜ Xiaoqi, ZHANG Xiaofeng, et al. Research on SVM sea ice classification based on texture features[J]. Haiyang Xuebao, 2018, 40(11): 149-156.
[8]
HUANG Z, PAN Z, LEI B. Transfer learning with deep convolutional neural network for SAR target clas­si­fication with limited labeled data[J]. Remote Sensing, 2017, 9(9): 907-913. DOI:10.3390/rs9090907
[9]
WANG C, ZHANG H, WU F, et al. A novel hierarchical ship classifier for COSMO-SkyMed SAR data[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 11(2): 484-488.
[10]
GAO G. A parzen-window-kernel-based CFAR algori­thm for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 8(3): 557-561.
[11]
HOU B, CHEN X, JIAO L. Multilayer CFAR detection of ship targets in very high resolution SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 12(4): 811-815.
[12]
李健伟, 曲长文, 彭书娟, 等. 基于级联CNN的SAR图像舰船目标检测算法[J]. 控制与决策, 2019, 44(1): 40-44.
LI Jianwei, QU Changwen, PENG Shujuan, et al. Ship targets detection method based on convolutional neural network for SAR image[J]. Fire Control & Command Control, 2019, 44(1): 40-44.
[13]
CHENG M M, ZHANG Z, LIN W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 3286-3293.
[14]
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J/OL]. arXiv preprint arXiv: 1409.1556, 2014.
[15]
杨龙, 苏娟, 李响. 基于深度卷积神经网络的SAR舰船目标检测[J]. 系统工程与电子技术, 2019, 41(9): 1990-1997.
YANG Long, SU Juan, LI Xiang. Ship detection in SAR images based on deep convolutional neural network[J]. Systems Engineering and Electronics, 2019, 41(9): 1990-1997.
[16]
LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
[17]
REDMON J, DIVVALA S, GIRSHCK R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 779-788.
[18]
REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 7263-7271.
[19]
REDMON J, FARHADI A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv: 1804. 02767, 2018.
[20]
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 580-587.
[21]
GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision, 2015: 1440-1448.
[22]
REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[23]
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 2117-2125.
[24]
GHIASI G, LIN T Y, LE Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 7036-7045.
[25]
ZHAO Q, SHENG T, WANG Y, et al. M2det: A single-shot object detector based on multi-level feature pyramid network[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 9259-9266. DOI:10.1609/aaai.v33i01.33019259
[26]
LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 385-400.