文章信息
- 张明, 王子龙, 吕晓琪, 喻大华, 张宝华, 李建军. 2021.
- ZHANG Ming, WANG Zi-long, LÜ Xiao-qi, YU Da-hua, ZHANG Bao-hua, LI Jian-jun. 2021.
- 一种增强型YOLOv3的合成孔径雷达(SAR)舰船检测方法
- An enhanced YOLOv3 method for synthetic aperture radar (SAR) ship detection
- 海洋科学, 45(12): 1-7
- Marine Sciences, 45(12): 1-7.
- http://dx.doi.org/10.11759/hykx20201112001
-
文章历史
- 收稿日期:2020-11-12
- 修回日期:2021-05-07
2. 大连海事大学 信息科学技术学院, 辽宁 大连 116026;
3. 内蒙古工业大学, 内蒙古 呼和浩特 010051
2. School of Information Science and Technology, Dalian Maritime University, Dalian 116026, China;
3. Inner Mongolia University of Technology, Hohhot 010051, China
合成孔径雷达(synthetic aperture radar, SAR)[1]是一种主动式高分辨率微波成像传感器, 在微波遥感领域中得到了快速的发展。与光学、红外传感器相比, SAR不会受到天气、光照等外部条件的影响, 具有全天时、全天候、大尺度、远距离和连续观测运动目标的能力, 并能拍摄高分辨率的图像。SAR成像的过程中能够观测到海面舰船目标、舰船尾迹图像变化及穿透海水探测复杂地形。而且, 对海面目标进行成像时具有长期、连续、实时等特点, 所以利用大量的SAR数据信息[2-7], 可以对海面舰船目标进行检测与跟踪。因此, SAR更适用于舰船目标检测、侦察和监视等研究。
SAR图像舰船检测方法主要包括基于统计模型、基于特征的方法和深度学习模型[8-9], 传统的方法有恒虚警率(constant false alarm rate, CFAR)[10-11]等。李健伟等[12]将候选区域提取的二值化标准梯度方法(binarized normed gradients, BING)[13]和快速区域卷积神经网络(faster region-convolutional neural network, Fast R-CNN)[14]相结合, 以这种方法进行SAR舰船检测, 检测率达到73.5%。杨龙等[15]将单点多框检测器(single shot multi box detector, SSD)应用到SAR舰船检测中, 提出了上下文信息的迁移学习模型, 实现了87.1%的检测精度。而当前主流算法为深度学习神经网络目标检测算法, 如: SSD[16], YOLO[17](you only look once), YOLOv2[18], YOLOv3[19], R-CNN[20] (region-convolutional neural network), Fast R-CNN[21]和Faster R-CNN[22]等。深度学习模型中的特征金字塔模型(feature pyramid network, FPN)因其能通过跨尺度特征融合的结构, 解决多尺度目标检测问题, 已被广泛用于多尺度检测[23]。如: NAS-FPN (Neural architecture search with rein forcement learning)[24], PANet (path aggregation network)[25], YOLOv3等网络。其中检测精度和速度比较好的算法是YOLOv3, 检测精度可达到90.58%。为了进一步提高舰船检测精度, 本文在YOLOv3的基础上, 结合DarkNet-53网络结构和感受野(RFB)模块, 提出一种增强型的SAR舰船检测方法, 该方法可以解决复杂场景下舰船目标精准检测问题, 同时为海上目标检测智能化发展提供技术支撑, 进而对未来战场态势评估、战术目标打击等任务提供指导建议。
1 方法 1.1 YOLOv3算法原理YOLOv3主要使用残差网络改进特征提取网络, 将基础网络DarkNet-19[18]升级到DarkNet-53[19], 通过DarkNet-53特征提取网络对输入图像提取特征, 得到一定大小的特征图, 借鉴特征金字塔网络的思想, 在3个不同尺度(13×13、26×26和52×52)大小的特征图上, 给每个尺度分配三个不同大小的预选框, 然后基于图像的全局信息进行目标预测, 从而实现端到端的检测。
YOLOv3损失函数公式如下:
$Loss = {\rm{ }}los{s_{xy}} + los{s_{{\rm{wh}}}} + los{s_{{\rm{class}}}} + los{s_{{\rm{confidence}}}}, $ | (1) |
其中, 为损失函数; lossxy为目标中心相对所在网格左上角坐标的偏移量误差;losswh为预选框长宽误差;lossclass为分类误差,lossconfidence为目标置信度误差。
1.2 感受野(RFB)模块原理RFB结构主要有两个特点[26]: (1) 使用不同尺寸卷积核的卷积层构成的多分枝结构; (2) 引入了空洞卷积层, 来增加感受野。其中RFB结构中用不同膨胀因子rate(内核元素间的距离)表示空洞卷积层的参数。在RFB结构中每个分支上, 特定核大小的卷积层后面跟着一个相应膨胀系数的卷积层, 所有不同尺寸和膨胀因子的卷积层的特征图被连接起来, 合成一个卷积数组, 达到融合不同特征的目的。其结构如下图 1所示。
RFB-s和RFB相比, 针对于多尺度检测问题主要有两个改进, 一方面用3×3卷积层代替5×5卷积层, 另一方面用1×3和3×1卷积层代替3×3卷积层, 主要目的应该是为了减少计算量, 本文用RFB-s网络对YOLOv3进行改进。RFB-s其结构如下图 2所示。
1.3 改进的模型结构本文算法分别在YOLOv3中的DarkNet-53的最后一层、第152层与最后一层上采样连接后、和第92层与第152层上采样连接后加入感受野模块(图 3红色部分)。新的网络模型结构如图 3所示。
1.4 参数设置本文实验在中科院公布的数据集进行SAR舰船检测模型的训练, 训练参数: batch_size为32, 动量为0.9, 权重衰减正则系数为0.000 5, 学习率为0.001, IOU设置为0.5。
2 实验结果与分析 2.1 实验数据集本文实验数据采用中国科学院空天信息研究院数字地球重点实验室王超研究员团队最近公开的SAR图像船舶检测数据集。该数据集来自国产高分三号SAR数据和Sentinel-1 SAR数据, 均为多源、多模式SAR图像。包含SAR舰船检测图像43 550张, 图片大小为256×256, 将数据集按照7︰1︰2随机分为训练集、验证集和测试集。其中部分数据集样本如图 4所示。
2.2 实验环境本文所有实验都在一个深度学习加速计算服务器上进行, 该服务配置CPU为Intel Xeon E3 v4, GPU为NVIDIA v10, 内存为32 G, 所提出的网络模型都在公开的TensorFlow框架和Keras人工神经网络库上实现。
2.3 实验评价指标为了有效地评价模型性能, 本文采用平均准确率平均准确率(mean average precision, Pma)、Pd(检测率)和Pm(漏检率)等评价指标。公式定义为:
平均准确率为:
$ {P_{\rm{ma}}} = \mathop \smallint \limits_0^1 P\left( R \right){\rm{d}}R , $ | (2) |
检测率为:
$ {P_{\rm{d}}} = \frac{{TP}}{{GT}}, $ | (3) |
漏检率为:
$ {P_{\rm{m}}} = \frac{{FN}}{{GT}}, $ | (4) |
式中, P为准确率; R为召回率; TP为被预测为正样本, 实际为正样本; FN为被预测为负样本, 实际为正样本; GT为真实目标。
2.4 置信度的选择为了得到更有效的模型, 本文设置了三个不同的置信度参数, 分别为0.2、0.25和0.3。实验结果如表 1所示。在检测的样本中一共有图片8 710张, 有舰船目标11 805个。从表 1中(其中FP被预测为正样本, 实际为负样本)。可以得出, 本文实验在不同置信度的检测结果中, 当置信度为0.2的时候检测效果最好, 平均准确率为91.50%, 检测率为93.63%, 漏检率为6.37%。
置信度 | TP | FP | FN | GT | Pd/% | Pm/% | Pma/% |
0.3 | 10 897 | 1 216 | 983 | 11 805 | 92.05 | 7.95 | 90.09 |
0.25 | 10 968 | 1 411 | 837 | 11 805 | 92.91 | 7.09 | 90.86 |
0.2 | 11 054 | 1 670 | 751 | 11 805 | 93.63 | 6.37 | 91.50 |
为了评估所提模型的收敛性, 本文将模型损失曲线可视化, 如图 5所示。实验结果表明, 损失曲线在第30个epoch时接近零, 在随后的20个批次中, 损失曲线没有明显的波动, 从这些现象可以得出模型已经达到收敛状态。
此外, 为了评价所提模型的性能, 本文与原YOLOv3网络进行了比较。当两个模型的置信度均设置为0.2时, 从表 2中可以得出, 本文的模型与YOLOv3相比检测到的目标数量提高68个, 误检数量减少130个, 漏检数量减少68个, 检测率提高了0.57%, 平均准确率值提高了0.92%。说明本文方法与YOLOv3相比具有较好的检测效果, 在性能上有了进一步的提升。
网络模型 | TP | FP | FN | Pd/% | Pm/% | Pma/% |
YOLOv3 | 10 986 | 1 800 | 819 | 93.06 | 6.94 | 90.58 |
YOLOv3+RFB-s | 11 054 | 1 670 | 751 | 93.63 | 6.37 | 91.50 |
为了验证所提模型的有效性, 本文将模型的P-R曲线可视化, 如图 6所示。结果表明, 随着召回率的上升, 改进后模型的精确度下降比较缓慢, 且模型的精准确度大于YOLOv3, 说明改进后的模型与YOLOv3相比, 在舰船检测特征提取的过程中, 具有更强大的提取与判别能力。
为了验证方法的有效性, 本文随机选取三幅图像, 分别用原YOLOv3和本文方法进行舰船检测, 实验结果效果图如图 7所示, 在(d)与(g)图片中原YOLOv3与本文实验同时正确检测出真实目标但原YOLOv3出现了误检现象。在(e)与(h)图片中YOLOv3出现漏检现象。在(f)与(i)图片中YOLOv3没有正确检测出舰船。而本文实验能够正确检测出下图中的舰船目标, 且得分相对较高。与YOLOv3相比在简单和复杂的背景下都具有较好的检测结果。
3 结论针对SAR舰船检测准确率较差、检测困难的问题, 本文在YOLOv3的基础上, 结合DarkNet-53网络结构和感受野(RFB)模块, 提出一种增强型的SAR舰船检测方法, 该方法具有较好的检测效果。在实验过程中通过设置不同置信度, 最终发现当置信度为0.2时模型效果最优。为了验证模型的有效性, 该模型检测结果与YOLOv3进行了比较, 结果表明该模型不仅提升了检测率, 而且降低了误检率, 在相对复杂的环境下能够更准确地检测出图像中的舰船目标。但是, 本文算法在多个小目标密集且噪声比较大的时候, 虚假目标也会呈现高亮度的状态与真实目标非常接近很难分辨出真实目标, 会存在漏检或误检的现象, 之后我们将会针对这一现象进行改进, 提高在高噪声、多目标的情况下的检测性能。
[1] |
WANG Y, WANG C, ZHANG H, et al. A SAR dataset of ship detection for deep learning under complex backgrounds[J]. Remote Sensing, 2019, 11(7): 765-771. DOI:10.3390/rs11070765 |
[2] |
CHEN S, WANG H, XU F, et al. Target classification using the deep convolutional networks for SAR images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(8): 4806-4817. DOI:10.1109/TGRS.2016.2551720 |
[3] |
BREKKE C, SOLBERG A H. Oil spill detection by satellite remote sensing[J]. Remote sensing of environ ment, 2005, 95(1): 1-13. DOI:10.1016/j.rse.2004.11.015 |
[4] |
ELDHUSET K. An automatic ship and ship wake detection system for spaceborne SAR images in coastal regions[J]. IEEE transactions on Geoscience and Remote Sensing, 1996, 34(4): 1010-1019. DOI:10.1109/36.508418 |
[5] |
ZHANG T, ZHANG X. High-speed ship detection in SAR images based on a grid convolutional neural network[J]. Remote Sensing, 2019, 11(10): 1206-1213. DOI:10.3390/rs11101206 |
[6] |
ZHANG M, AN J, ZHANG J, et al. Enhanced delaunay triangulation sea ice tracking algorithm with combining feature tracking and pattern matching[J]. Remote Sen sing, 2020, 12(3): 581-587. DOI:10.3390/rs12030581 |
[7] |
张明, 吕晓琪, 张晓峰, 等. 结合纹理特征的SVM海冰分类方法研究[J]. 海洋学报, 2018, 40(11): 149-156. ZHANG Ming, LÜ Xiaoqi, ZHANG Xiaofeng, et al. Research on SVM sea ice classification based on texture features[J]. Haiyang Xuebao, 2018, 40(11): 149-156. |
[8] |
HUANG Z, PAN Z, LEI B. Transfer learning with deep convolutional neural network for SAR target classification with limited labeled data[J]. Remote Sensing, 2017, 9(9): 907-913. DOI:10.3390/rs9090907 |
[9] |
WANG C, ZHANG H, WU F, et al. A novel hierarchical ship classifier for COSMO-SkyMed SAR data[J]. IEEE Geoscience and Remote Sensing Letters, 2013, 11(2): 484-488. |
[10] |
GAO G. A parzen-window-kernel-based CFAR algorithm for ship detection in SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2010, 8(3): 557-561. |
[11] |
HOU B, CHEN X, JIAO L. Multilayer CFAR detection of ship targets in very high resolution SAR images[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 12(4): 811-815. |
[12] |
李健伟, 曲长文, 彭书娟, 等. 基于级联CNN的SAR图像舰船目标检测算法[J]. 控制与决策, 2019, 44(1): 40-44. LI Jianwei, QU Changwen, PENG Shujuan, et al. Ship targets detection method based on convolutional neural network for SAR image[J]. Fire Control & Command Control, 2019, 44(1): 40-44. |
[13] |
CHENG M M, ZHANG Z, LIN W Y, et al. BING: Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 3286-3293.
|
[14] |
SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J/OL]. arXiv preprint arXiv: 1409.1556, 2014.
|
[15] |
杨龙, 苏娟, 李响. 基于深度卷积神经网络的SAR舰船目标检测[J]. 系统工程与电子技术, 2019, 41(9): 1990-1997. YANG Long, SU Juan, LI Xiang. Ship detection in SAR images based on deep convolutional neural network[J]. Systems Engineering and Electronics, 2019, 41(9): 1990-1997. |
[16] |
LIU W, ANGUELOV D, ERHAN D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016: 21-37.
|
[17] |
REDMON J, DIVVALA S, GIRSHCK R, et al. You only look once: Unified, real-time object detection[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2016: 779-788.
|
[18] |
REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 7263-7271.
|
[19] |
REDMON J, FARHADI A. Yolov3: An incremental improvement[J/OL]. arXiv preprint arXiv: 1804. 02767, 2018.
|
[20] |
GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2014: 580-587.
|
[21] |
GIRSHICK R. Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision, 2015: 1440-1448.
|
[22] |
REN S, HE K, GIRSHICK R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149. |
[23] |
LIN T Y, DOLLÁR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition, 2017: 2117-2125.
|
[24] |
GHIASI G, LIN T Y, LE Q V. Nas-fpn: Learning scalable feature pyramid architecture for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019: 7036-7045.
|
[25] |
ZHAO Q, SHENG T, WANG Y, et al. M2det: A single-shot object detector based on multi-level feature pyramid network[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2019, 33: 9259-9266. DOI:10.1609/aaai.v33i01.33019259 |
[26] |
LIU S, HUANG D. Receptive field block net for accurate and fast object detection[C]//Proceedings of the European Conference on Computer Vision (ECCV), 2018: 385-400.
|