海洋与湖沼  2021, Vol. 52 Issue (5): 1160-1169   PDF    
http://dx.doi.org/10.11693/hyhz20210100005
中国海洋湖沼学会主办。
0

文章信息

孙东洋, 刘辉, 张纪红, 孙利元, 王清, 赵建民. 2021.
UN Dong-Yang, LIU Hui, ZHANG Ji-Hong, SUN Li-Yuan, WANG Qing, ZHAO Jian-Min. 2021.
基于深度卷积神经网络的海洋牧场岩礁性生物图像分类
CLASSIFICATION OF REEF BIOLOGICAL IMAGES OF MARINE RANCH BASED ON DEEP CONVOLUTION NEURAL NETWORK
海洋与湖沼, 52(5): 1160-1169
Oceanologia et Limnologia Sinica, 52(5): 1160-1169.
http://dx.doi.org/10.11693/hyhz20210100005

文章历史

收稿日期:2021-01-07
收修改稿日期:2021-03-26
基于深度卷积神经网络的海洋牧场岩礁性生物图像分类
孙东洋1,2, 刘辉1, 张纪红2, 孙利元3, 王清1, 赵建民1     
1. 中国科学院烟台海岸带研究所 烟台 264003;
2. 烟台大学 烟台 264005;
3. 山东省水生生物资源养护管理中心 烟台 264000
摘要:水下视频可直观记录和反映海洋牧场生物资源的现状和变动,目前亟待开展基于图像的海洋牧场生物识别分类方法研究,以充分发挥图像处理技术在海洋牧场生物群落监测领域的应用潜力。利用采集自我国北方烟威地区包含鱼礁、藻床和泥沙三种图像背景的水下视频,开展了图像增强、图像分类数据集的建立和3种分类模型的应用。对比了基于绿通道的色彩补偿和限制对比度的自适应直方图均衡等方法在海洋牧场水下图像增强上的效果。建立了北方海洋牧场常见岩礁生物图像分类数据集,包括花鲈(Lateolabrax japonicus)、鮻(Liza haematocheilus)、许氏平鲉(Sebastes schlegelii)等鱼类11种、棘皮类3种和蟹类1种,共23 211张图像。基于飞桨深度学习框架和PaddleX全流程开发工具,选择AlexNet、MobileNet V3和ResNet50三种图像分类卷积神经网络进行迁移学习,并分别验证了其在含噪音水下图像上的鲁棒性。结果表明,三种模型在测试集的类准确率分别达到96.64%、94.75%和99.23%,其中ResNet50模型在含有高斯噪音的图像集验证具有更好的鲁棒性。综之,基于深度学习的计算机视觉技术在我国海洋牧场生物群落监测中具有较大应用潜力,可为我国海洋牧场监测和管理提供新的思路和方法。
关键词海洋牧场    岩礁性生物    图像增强    卷积神经网络    迁移学习    
CLASSIFICATION OF REEF BIOLOGICAL IMAGES OF MARINE RANCH BASED ON DEEP CONVOLUTION NEURAL NETWORK
UN Dong-Yang1,2, LIU Hui1, ZHANG Ji-Hong2, SUN Li-Yuan3, WANG Qing1, ZHAO Jian-Min1     
1. Yantai Institute of Coastal Zone Research, Chinese Academy of Sciences, Yantai 264003, China;
2. Yantai University, Yantai 264005, China;
3. Shandong Hydrobios Resources Conservation and Management Center, Yantai 264000, China
Abstract: Status and change of biological resources in marine ranch can be recorded with underwater video. It is necessary to develop image-based biological classification methods to fully develop machine vision technology. We collected underwater videos with different backgrounds of reef, algal bed, and sediment in Yantai and Weihai areas, Shandong, China, and conduct image enhancement, construction of dataset, and application of three classification model. Effects of various color compensation methods were compared in the enhancement of underwater image in marine ranch area, including color compensation based on green channel, contrast limited adaptive histgram equalization, and so on. An image dataset for reef biological classification was established with manual annotation. In total, 23211 images were used, from which 11 species of common fish in reef area (including Lateolabrax japonicus, Liza haematocheilus, Sebastes schlegelii etc.), 3 species of echinoderm, and 1 species of crab, were recognized and the images processed. Using the PaddlePaddle2.0 and PaddleX development kits, convolutional neural networks AlexNet, MobileNet V3, and ResNet50 were applied to transfer the learning image classification and verify the robustness of the algorithm on underwater images with noise, from which the accuracy of recognition reached 96.64%, 94.75%, and 99.23%, respectively. In addition, the ResNet50 model performed better in robustness with Gaussian noise. Therefore, computer vision technology based on deep learning presented a great application potential in biological resources monitoring in marine ranch, and provide new ideas and methods for the monitoring and management of marine ranch in China.
Key words: marine ranch    reef organisms    image enhancement    convolutional neural network    transfer learning    

海洋牧场建设是我国近海环境修复和资源增殖的重要手段, 也是促进海洋渔业产业转型升级的新业态(杨红生等, 2016)。生物资源的精细化监测是实现海洋牧场“信息化”和“智能化”的重要内容。近年来, 基于全息影像和背影成像等技术的浮游生物识别、基于水声学的渔业资源监测等新技术不断展现, 具有较强的海洋牧场生物资源监测应用潜力(潘若凡, 2014; Mallet et al, 2014; 王欢欢等, 2018; 刘辉等, 2020)。通过潜水进行视频采集或定置式的实时视频设备开展鱼类等生物监测也是目前常用的方式, 可直观记录和反映出生境和生物资源现状和变动。我国多数海洋牧场也已实现水质参数和水下视频的实时传输和可视化, 对于实现海洋牧场生物精细化监测提供大规模的数量来源(翟方国等, 2020)。但是目前海洋牧场水下视频分析尚缺少自动图像分类识别方法, 对于长时间序列视频数据的信息挖掘能力有限。

近几年, 深度学习等人工智能技术发展迅速, 基于深度卷积神经网络的图像分类和目标检测等算法取得高于人类检测水平的精度。继2012年AlexNet(Krizhevsky et al, 2017)取得超过传统图像分类算法的竞赛成绩, 后又出现了GoogLeNet(Szegedy et al, 2015)、Resnet50(He et al, 2016a)、MobileNetV3 (Howard et al, 2019)等网络模型, 在ImageNet数据集中的错误率降到3.57%以下。深度学习在水生生物图像识别领域也有明显优势。陈文辉等(2019)利用VGG(Visual Geometry Group) 19和GoogLeNet模型进行迁移学习对4种淡水鱼类的分类准确率达到97.14%。Qin等(2016)建立DeepFish网络结构在Fish4Knowledge数据集上获得98.64%的准确率。Tamou等(2018)在Fish4-Knowledge热带鱼类数据集上使用稀疏和低等级矩阵分解的水下视频前景提取方法获取鱼前景图片, 微调AlexNet达到了99.45%的准确率。

丰富的图像数据集是进行深度神经网络建立和参数优化的基础, 当前海洋鱼类分类算法研究常用的是Fish4Knowledge项目建立的包含23种台湾海域鱼类的图像数据集。目前我国北方海洋牧场尚缺少数据集建立以及图像处理和分类方法研究, 限制了深度学习等人工智能技术在海洋牧场生物监测和管理领域的实践和应用。

烟威海区是山东半岛的传统渔场, 渔业资源丰富, 具有多处国家级海洋牧场。近年来北方海域多出现高温缺氧现象, 严重威胁海洋牧场生态系统的健康和安全。因此, 能否利用视频观测在更长时间序列和更细致时间尺度上进行生物群落监测, 以掌握海洋牧场海域渔业生物资源的时空变动及其对极端气候条件的响应, 该问题受到广泛关注。本研究针对烟威海区常见岩礁性生物, 从图像增强、数据集建立和模型迁移学习方面开展了较系统的生物图像分类方法研究, 为我国北方海洋牧场水下生物的图像识别和生物群落结构变动的精细化监测提供方法和参考。

1 北方海洋牧场生物图像数据集建立 1.1 视频和图像数据采集

本研究所用视频资料来源于课题组收集的山东烟台牟平北部海洋牧场等地的水下视频, 视频背景包含水泥构件礁、海藻床和泥沙底3种。水下视频时间跨度为2019年6月至2020年7月, 图像尺寸为1 920×1 080像素, 帧率为30帧/秒, 按照每30或60 min分段储存, 视频总大小为2.97 T。人工查看全部视频并选择包含生物的图像4 494张图片进行提取, 完成待处理图像的收集。

1.2 图像增强方法及原理

红光在海水中的衰减大于绿光和蓝光, 导致水下图像颜色失真(Li et al, 2015)。本研究所用视频和图像在白天颜色偏绿, 夜晚则由于补光而颜色真实度高于白天。为了便于人工查阅并进行清晰的标注, 本研究针对颜色偏差大的图像尝试了不同的图像增强算法, 包括白平衡(Huo et al, 2006)、直方图均衡(Pizer et al, 1987; Mohan et al, 2020)、基于亮通道的色彩补偿(代成刚等, 2018)、限制对比度的自适应直方图均衡(Zuiderveld, 1994; 张璞等, 2011)等图像增强方法。各算法的图像增强效果演示见图 1

图 1 不同图像增强方法的效果对比 Fig. 1 Results of image enhancement by various methods 注: a: 藻类背景; b: 礁体背景; c: 泥沙背景补光图片; d: 泥沙背景无补光图片; 第1—5列依次为不同背景的原图(第1列)、均值白平衡(第2列)、直方图均衡(第3列)、基于绿通道色彩补偿(第4列)、限制对比度的自适应直方图均衡(第5列)
1.2.1 白平衡(White Balance, WB)

白平衡是通过控制色温来解决由光源和光线问题引起的图像色彩偏差的方法, 主要思路是使图像红、绿和蓝通道的平均灰度值趋于相近。三通道各乘系数进行校正, 该系数为图像总平均灰度值与相应通道平均灰度值的比值。三通道灰度值整体改变, 使水下图像看起来更符合真实色彩。以红通道为例, 白平衡的公式计算为

    (1)

式中, I为图像增强后的红通道灰度值; IR为原始图像中红通道的灰度值; I为图像总平均灰度值, 为红通道平均灰度值。

1.2.2 直方图均衡(Histgram Equalization, HE)

直方图均衡是灰度变换的一种应用, 是通过改变原始图像的统计直方图分布来改变图像对比度以达到图像增强效果; 处理后图像的统计直方图趋于均衡, 亮度和对比度到得到提升。

1.2.3 基于绿通道的色彩补偿(Color Compensation Based on Green Channel, CCBGC)

因本研究水下图像绿通道灰度值较高, 因此本研究中基于亮通道的色彩补偿即以绿通道为基准, 将红、蓝通道的灰度值补偿到和绿通道相对均衡, 即对红、蓝通道分别增加其与绿通道灰度平均值差值相应的补偿值。以补偿红通道为例, 基于绿通道的色彩补偿公式为

    (2)

式中, I为图像增强后的红通道灰度值; IR为原始图像红通道的灰度值; IG为图像绿通道的灰度值; 3为红、绿通道灰度值均值。在进行色彩补偿前需先将图像归一化。

1.2.4 限制对比度的自适应直方图均衡(Contrast Limited Adaptive Histgram Equalization, CLAHE)

限制对比度的自适应直方图均衡是直方图均衡的延伸版本, 将图像划分小块并分块计算直方图, 通过累积直方图函数前预先设定的阈值来裁剪直方图来达到限制对比度的提高程度, 超出设定阈值的像素数量重新均分到直方图其他区间内, 每个小块经过对比度限制后重新分布亮度来提高整张图片的对比度。通常, CLAHE处理得到图像比HE的局部色彩对比度明显, 图片整体色彩效果更真实。

1.3 不同图像增强方法的效果比较

本研究采用峰值信噪比和结构相似度2个指标来评价图像增强的效果(Zhou et al, 2004; 刘黎明, 2016)。

峰值信噪比(dB)是信号最大值与增强前后图像均方误差比值的对数, 用于表征原图像与处理后图像之间的相近程度, 数值越大表示增强图像相比原图失真越小。计算公式为

    (3)

式中, RPSNR为峰值信噪比值; EMSE为图像增强前后的均方误差; Vpeak为信号最大值, 本研究为255。

结构相似度是通过对比增强图像和原图的结构相似性来评价图像增强效果, 结构相似度指数由亮度项、对比度项和结构项三项的乘积得到, 结构相似度数值越接近1表明失真越小、两幅图像越相似。本研究采用的是上述三项指数aβγ为1时的简化形式, 计算公式为

    (4)

式中, SSSIM为结构相似度值; μx, μy, σx, σy, σxy分别为图像xy的均值、标准差及交叉协方差, C1C2为常数。

RPSNRSSSIM指标进行图像质量评价, 评价结果如表 1所示。

表 1 PSNR value of different image enhancement algorithm
图像序号 WB HE CCBGC CLAHE
a 19.97 12.69 12.68 15.76
b 16.77 11.98 11.92 16.77
c 24.06 13.73 13.69 17.27
d 16.49 11.69 11.49 15.45
注: a、b、c、d对应图 1中的图片类型序号; WB: 白平衡; HE: 直方图均衡; CCBGC: 基于绿通道的色彩补偿; CLAHE: 限制对比度的自适应直方图均衡

表 1表 2中结果可知, 白平衡的RPSNR值最大, 但其SSSIM值最小, 其在四种方法中的数值排序位置并不一致, 综合人眼感官, 该方法效果欠佳。在其余3种图像增强方法中, 对RPSNRSSSIM值和人眼感官综合比较, CLAHE图像增强后的图像质量更好, 本次数据集建立过程中对模糊图像的增强主要用到该方法。

表 2 种图像增强算法的SSSIM Tab. 2 SSIM value of different image enhancement algorithm
图像序号 WB HE CCBGC CLAHE
a 0.20 0.23 0.22 0.43
b 0.08 0.08 0.10 0.32
c 0.55 0.27 0.34 0.54
d 0.14 0.24 0.17 0.51
注: a、b、c、d对应图 1中的图片类型序号
1.4 海洋牧场生物图像分类数据集的建立

采用python环境下的Labelme图像标注软件对4 494张海洋牧场水下图像进行生物个体的多边形标注, 标注信息以json格式保存。标注遵循以下规则开展: 图片中出现的所有生物个体都进行标注; 每个物种个体标注的体型轮廓尽可能完整, 保留鱼鳍、蟹螯等细节信息; 生物个体间出现遮挡则以先以完整的生物个体为主; 轮廓不完整但能清晰人眼鉴定的生物个体仍进行标注; 物种鉴定对照相应海域渔业网具调查物种名录。水下视频中共鉴定出水下生物18种, 其中绿鳍马面鲀等3种鱼类因出现频率过低难以截取不同姿态的鱼类图像而没有进行标注。

标注完成后, 依据json文件中记录的多边形和标签信息从原图中分割出15个物种共21 457张图片。初步截取的图像中矛尾虾虎鱼、黑棘鲷和多棘海盘车的图片数量较小和所占比例较小。为解决因物种出现频次不同带来的图像数量不均衡问题, 本研究通过随机翻转、随机旋转、随机平移、随机修改对比度和亮度等图像增广方式, 使上述物种图像数量扩增300张以上, 最终建立的数据集图像总数为23 211。物种类别及数量分布见表 3, 物种标注的示例图像见图 2

表 3 烟威海洋牧场生物图像数据集的物种组成及数量分布 Tab. 3 Species composition and count distribution of underwater biological image dataset at marine ranch in Yantai and Weihai
类别 物种名 拉丁文名 类别 图片数量(增广前)(张)
鱼类 花鲈 Lateolabrax japonicus 鲈形目 6 315
Liza haematocheilus 鲻形目 3 538
许氏平鲉 Sebastes schlegelii 鲉形目 831
铠平鲉 Sebastes hubbsi 鲉形目 288
褐牙鲆 Paralichthys olivaceus 鲽形目 726
大泷六线鱼 Hexagrammos otakii 鲉形目 501
方氏云鳚 Enedrias fangi 鲈形目 365
纹缟虾虎鱼 Tridentiger trigonocephalus 鲈形目 329
五带高鳍虾虎鱼 Pterogobius zacalles 鲈形目 282
矛尾虾虎鱼 Chaeturichthys stigmatias 鲈形目 290(58)
黑棘鲷 Acanthopagrus schlegelii 鲈形目 360(18)
蟹类 日本蟳 Charybdis japonica 十足目 3 291
棘皮类 海燕 Asterina pectinifera 瓣棘海星目 4 396
砂海星 Luidia quinariavon 柱体木 449
多棘海盘车 Asierias amurensis 钳棘目 350(70)

图 2 烟威海洋牧场生物分类图像数据集物种及标注的示例图片 Fig. 2 Sample images in the underwater biological image dataset of marine ranch in Yantai and Weihai 注: a—o依次为花鲈、、许氏平鲉、铠平鲉、褐牙鲆、大泷六线鱼、方氏云鳚、纹缟虾虎鱼、五带高鳍虾虎鱼、矛尾虾虎鱼、黑棘鲷、日本蟳、海燕、砂海星、多棘海盘车

数据集所包含的物种喜好栖息生境略有差异, 花鲈、铠平鲉、方氏云鳚、纹缟虾虎鱼、矛尾虾虎鱼、黑棘鲷、日本蟳、砂海星、多棘海盘车共10个物种主要出现礁石背景视频中; 褐牙鲆和海燕2个物种主要出现在泥沙底背景的视频中; 鮻主要出现在以沙底或海水为背景的海域视频中; 五带高鳍虾虎鱼主要出现在海藻床为背景的海域视频中; 许氏平鲉和大泷六线鱼2个物种在上述不同视频背景中都有出现。

2 基于深度卷积神经网络的图像分类模型

深度卷积神经网络(Deep Convolutional Neural Networks, DCNN)是目前图像分类领域广泛应用的高效识别方法, 其结构主要包括输入层、卷积层、激励层、池化层和全连接层等, 分别实现图像读取及预处理、特征提取、非线性映射、过拟合抑制(特征信息过滤)和特征综合等功能。AlexNet模型的提出使卷积神经网络受到关注; ResNet50模型为抑制过拟合引入残差网络结构; MobileNet模型提出了深度可分离卷积以减少参数和运算过程, 是适用于移动端设备的轻量级深度卷积神经网络模型。

2.1 AlexNet模型

AlexNet模型包括输入层、5个卷积池化层、3个全连接层、Softmax分类层, 其中网络结构共8层。5个卷积-池化层提取图像特征, 局部响应归一化提高精度, 用Relu激活函数(He et al, 2015)代替之前网络的sigmoid激活函数, 全连接层后使用Dropout抑制过拟合。相比于之前的LeNet模型, AlexNet参数更多、结构更深且更复杂。

2.2 ResNet系列模型

单纯增加网络模型的层数会在一定范围内提升准确率, 但层数过多会使得信息在网络传递中大量损失, 从而引起网络预测误差的显著增高。Kaiming He等提出了残差网络(Residual Network)(He et al, 2015, 2016b), 用Identity和Bottleneck两种残差模块通过残差学习的方式解决随深度增加带来的退化问题。两种残差模块结构如图 3所示。Identity模块其输入输出维度不变, 常用于Resnet34, 模型层数为34层; Bottleneck是可添加维度的残差模块, 适用于维度不同的网络短链接, 常用于Resnet50和Resnet101, 模型层数分别为50层和101层, 两种方法都是不增加参数和计算过程的条件下将输出特征与输入特征合并, 避免了训练过程中信息的丢失。

图 3 Identity(a)和Bottleneck(b)两种残差模块结构图 Fig. 3 Two types of residual block structure, Identity(a)和Bottleneck(b) 注: Identity: 用于ResNet-34; Bottleneck: 用于ResNet-50/101/152
2.3 MobileNet系列模型

MobileNet是Google提出的一种轻量级神经网络模型, 是在保证识别准确率和模型训练速度的前提下提出了一种深度可分离卷积作为基本单元结构(Howard et al, 2019; 邵伟平等, 2020)。深度可分离卷积将一个标准卷积拆分成深度卷积和逐点卷积, 深度卷积中每个卷积核都对应一个特征图的输入通道, 使得卷积之后特征图通道数不变, 之后对特征图逐点卷积增加特征图通道数。深度可分离卷积实现了更少参数和更少的运算, 达到了与复杂模型相差不多的结果, 为轻量级网络模型在移动端设备的应用做铺垫。

3 分类模型的训练及结果 3.1 开发环境及网络配置

本研究选择飞桨深度学习框架PaddlePaddle 2.0、PaddleX 1.3开发工具为开发平台, 使用配备Titan RTX的戴尔T7920工作站进行模型训练、验证和测试。按照0.7︰0.15︰0.15的比例, 将海洋牧场生物图像数据集划分为训练集、验证集和测试集。AlexNet、ResNet50和MobileNetV3模型的预训练参数来自于飞桨平台。三种图像分类模型在飞奖PaddleCals的信息如表 4所示。三个模型的输入图片尺寸为224×224×3, 分类数量为15, 批次迭代训练的图像数量为256, 训练回合次数为120, 共迭代6 960次。AlexNet和ResNet50的学习率调整采用分段降低方法, 初始值为0.01, 学习率衰减系数为0.1, 衰减回合数分别为30、60和90, 即每过30个回合模型学习率衰减为原先0.1倍; 动量值(momentum_rate)为0.9; 权重衰减为L2正则化, 权重衰减系数为0.000 1, 以防止过拟合。MobileNetV3模型的学习率调整采用Cosine Warmup方法, 初始大小为0.01, 权重衰减为L2正则化, 权重衰减系数为0.000 2。

表 4 AlexNet、ResNet50和MobileNetV3模型的参数量和准确率信息 Tab. 4 Basic information of several typical network models
模型 提出年份 浮点运算数(×109个) 参数量(×106个) Top1准确率(%) Top5准确率(%)
AlexNet 2012 1.37 61.09 56.7 79.2
ResNet50 2015 8.19 25.56 76.50 93
MobileNetV3 2019 0.45 5.47 75.32 92.31
注: Top1准确率: 将预测概率最大的类别作为输出类别的情况下, 正确预测数量与总预测数量之比; Top5准确率: 将预测概率降序排列并取前5作为输出类别的情况下, 正确预测数量与总预测数量之比; 上述准确率来自于飞桨PaddleClas工具在ImageNet数据集上训练得到的精度
3.2 模型训练过程

损失值(loss)表示模型预测值与真实值的差距, 可直观反映模型训练过程中模型精确度的变化, 损失值越小表示模型参数越趋于最佳。ResNet50模型训练前期损失值和Top1准确率的变化如图 4所示; AlexNet、ResNet50、MobileNetV3模型训练过程中验证集准确率变化曲线如图 5所示。

图 4 ResNet50模型训练初期验证集损失值和准确率的变化 Fig. 4 Loss and accuracy of ResNet50 in the initial training stage

图 5 AlexNet、ResNet50和MobileNetV3模型训练过程中验证集准确率 Fig. 5 Accuracy of validation dataset among AlexNet, ResNet50, and MobileNetV3

图 4所示, ResNet50模型训练前期损失值快速下降, 在200次迭代后数值都稳定在0.1左右, 之后模型参数仍不断优化。ResNet50模型训练前期准确率提升较快, 500次迭代之后准确率稳定在96%以上。如图 5所示, ResNet50模型收敛较快且准确率较高, 在94回合验证集准确率达到99.85%; AlexNet模型第59个回合时验证集准确率达到99.53%; MobileNetV3准确率相比较低。

3.3 模型评估

本研究采用准确率(Accuracy)、类准确率(Class-wise Accuracy)、精确率(Precision)3个指标对模型预测能力进行评估。准确率指验证集或测试集中图片预测正确的比率, 类准确率指各物种预测准确率的平均值, 精确率指预测为某物种且预测正确的比率。上述指标的计算公式为

    (5)
    (6)
    (7)

式中, A为准确率; AC为类准确率; P为精确率; NTP为预测正确的图片数量; NTPi为预测为第i类物种且预测正确的图片数量; NPi为预测为第i类的图片数量; Ni为第i类物种的图片数量; N为图片总数量; n为物种数。

图 6所示, ResNet50模型在海洋牧场水下图像分类中具有较好的准确率, 出现错误分类的个体为少量的大泷六线鱼、许氏平鮋和黑棘鲷。如表 5所示, ResNet50在模型验证集和测试集的准确率最高, 分别达到99.85%和99.67%, 其次为AlexNet和MobileNet V3, 验证集准确率分别为99.34%和96.45%, 测试集准确率为98.56%和98.14%。从验证集和测试集的准确率和类准确率结果来看, 实验中的3个模型对我国北方海洋牧场水下生物图像分类具有很好的预测效果。

图 6 ResNet50模型预测结果的混淆矩阵 Fig. 6 Confusion matrix of ResNet50 model test results 注: 蓝色为预测正确图片数; 黄色为预测错误的图片数; 深蓝色代表正确预测的图片数量较大; 浅蓝色代表正确预测的图片数量较小

表 5 AlexNet、MobileNetV3、ResNet50模型在验证集和测试集上的评估结果 Tab. 5 Evaluation results of the AlexNet, MobileNetV3, and ResNet50 model in validation dataset and test dataset
模型 验证集准确率(%) 测试集准确率(%) 测试集类准确率(%) 测试集精确率(%)
AlexNet 98.53 98.56 96.64 97.74
MobileNetV3 96.25 98.14 94.75 96.76
ResNet50 99.85 99.67 99.23 99.75
3.4 模型鲁棒性评估

为评估海洋牧场生物图像分类模型在应对图像采集和传输过程中的噪音干扰的性能, 本研究对训练完成的模型进行了鲁棒性的测试。通过对原始测试集中图像添加方差为0.01至0.1的高斯噪音形成新的测试数据集, 进一步对训练完成的模型进行预测和评估。加入高斯噪音的图像示例如图 7所示, 3个模型对含噪音数据集的Top1准确率如图 8所示。

图 7 加入高斯噪音的水下鱼类图像示例 Fig. 7 Sample pictures of underwater fish image with Gaussian noise 注: a: 加高斯噪音的花鲈图片; b: 加高斯噪音的大泷六线鱼图片; 1—4列图片中高斯噪音的方差值分别为0(第1列), 0.01(第2列), 0.05(第3列)和0.1(第4列)

图 8 AlexNet、ResNet50、MobileNetV3模型对不同方差的高斯噪音图像识别准确率 Fig. 8 The recognition accuracy of different variance Gaussian noise images with AlexNet, ResNet50, and MobileNetV3 models 注: Top1准确率: 将预测概率最大的类别作为输出类别的情况下, 正确预测数量与总预测数量之比

图 8所示, 随着高斯噪音方差的增加, 3个模型的预测效果都出现下降趋势, 但下降幅度不同。当高斯噪音方差达到0.02时, Mobilenetv3模型准确率降至0.7附近; 高斯噪音方差增加到0.05时, AlexNet模型的准确率降至0.8附近。相比而言, ResNet50模型的鲁棒性最高, 方差在0.05时模型预测的准确率基本稳定, 但当方差增加在0.1时模型的预测准确率降至0.8左右。该结果表明图像分类模型精度受水下图像质量和稳定性影响。

4 结语

深度卷积神经网络是当前图像分类领域的重要方法, 本研究基于我国北方海洋牧场生物资源观测的需求, 建立了烟威地区海洋牧场水下生物图像数据集, 利用AlexNet、ResNet50和MobileNetV3三种深度神经网络模型进行迁移学习, 验证了深度学习技术在海洋牧场常见岩礁性生物图像分类应用中性能和鲁棒性。海洋生物分类准确率受到图像质量、神经网络网络结构及生物个体形态相似度的影响。海洋牧场海区的生物多以岩礁性生物为主, 鲈形目、鲉形目偏多, 各物种在水下图像中形态相似度较高, 尤其是同一属内物种相似性偏高, 给图像分类带来一定难度。本研究中棘皮类种数少, 与鱼类和蟹类的特征差异明显, 所以棘皮类分类准确率相对较高, 而许氏平鲉、大泷六线鱼、黑棘鲷有彼此错分类的情况。综之, 从本研究结果来看, 深度学习技术在我国北方海洋牧场水下生物图像分类上具有一定应用潜力, 可丰富我国北方海洋牧场种群行为和群落结构研究的技术体系, 进一步仍需在海洋牧场水下生物目标检测、图像增强算法优化以及将图像检测结果与海洋牧场生态问题耦合分析等方面继续开展工作。

参考文献
王欢欢, 毕福洋, 曹敏, 等. 2018. 獐子岛海洋牧场秋季渔业资源声学调查与评估. 大连海洋大学学报, 33(6): 802-807
代成刚, 林明星, 王震, 等. 2018. 基于亮通道色彩补偿与融合的水下图像增强. 光学学报, 38(11): 86-95
刘辉, 奉杰, 赵建民. 2020. 海洋牧场生态系统监测评估研究进展与展望. 科技促进发展, 16(2): 213-218
刘黎明. 2016. CLAHE算法在不同彩色空间中的图像增强效果评估. 舰船电子对抗, 39(6): 62-68
张璞, 王英, 王苏苏. 2011. 基于CLAHE变换的低对比度图像增强改进算法. 青岛大学学报(工程技术版), 26(4): 57-60 DOI:10.3969/j.issn.1006-9798.2011.04.013
杨红生, 霍达, 许强. 2016. 现代海洋牧场建设之我见. 海洋与湖沼, 47(6): 1069-1074
陈文辉, 蔡妹姝, 严松, 等. 2019. 基于深度卷积神经网络与迁移学习的鱼类分类识别. 福建师大福清分校学报, (5): 30-38 DOI:10.3969/j.issn.1008-3421.2019.05.006
邵伟平, 王兴, 曹昭睿, 等. 2020. 基于MobileNet与YOLOv3的轻量化卷积神经网络设计. 计算机应用, 40(S1): 8-13
翟方国, 李培良, 顾艳镇, 等. 2020. 海底有缆在线观测系统研究与应用综述. 海洋科学, 44(8): 14-28
潘若凡, 2014. 浮游动物行为生态的实验观测技术和定量分析方法. 青岛: 中国海洋大学硕士学位论文
He K M, Zhang X Y, Ren S Q et al, 2015. Delving deep into rectifiers: surpassing human-level performance on ImageNet classification. In: Proceedings of 2015 IEEE International Conference on Computer Vision. Santiago: IEEE, 1026-1034
He K M, Zhang X Y, Ren S Q et al, 2016a. Deep residual learning for image recognition. In: Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 770-778
He K M, Zhang X Y, Ren S Q et al, 2016b. Identity mappings in deep residual networks. In: Proceedings of the 14th European Conference on Computer Vision. Amsterdam, the Netherlands: Springer, 630-645
Howard A, Sandler M, Chen B et al, 2019. Searching for MobileNetV3. In: Proceedings of 2019 IEEE/CVF International Conference on Computer Vision. Seoul, Korea (South): IEEE, 1314-1324
Huo J Y, Chang Y L, Wang J et al, 2006. Robust automatic white balance algorithm using gray color points in images. IEEE Transactions on Consumer Electronics, 52(2): 541-546 DOI:10.1109/TCE.2006.1649677
Krizhevsky A, Sutskever I, Hinton G E, 2017. ImageNet classification with deep convolutional neural networks. Communications of the ACM, 60(6): 84-90 DOI:10.1145/3065386
Li C Y, Guo J C, 2015. Underwater image enhancement by dehazing and color correction. Journal of Electronic Imaging, 24(3): 033023 DOI:10.1117/1.JEI.24.3.033023
Mallet D, Pelletier D, 2014. Underwater video techniques for observing coastal marine biodiversity: A review of sixty years of publications (1952-2012). Fisheries Research, 154: 44-62 DOI:10.1016/j.fishres.2014.01.019
Mohan S, Simon P, 2020. Underwater image enhancement based on histogram manipulation and multiscale fusion. Procedia Computer Science, 171: 941-950 DOI:10.1016/j.procs.2020.04.102
Pizer S M, Amburn E P, Austin J D et al, 1987. Adaptive histogram equalization and its variations. Computer Vision, Graphics, and Image Processing, 39(3): 355-368 DOI:10.1016/S0734-189X(87)80186-X
Qin H W, Li X, Liang J et al, 2016. DeepFish: accurate underwater live fish recognition with a deep architecture. Neurocomputing, 187: 49-58 DOI:10.1016/j.neucom.2015.10.122
Szegedy C, Liu W, Jia Y Q et al, 2015. Going deeper with convolutions. In: Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 1-9
Tamou A B, Benzinou A, Nasreddine K et al, 2018. Underwater live fish recognition by deep learning. In: Proceedings of the 8th International Conference on Image and Signal Processing. Cherbourg, France: Springer, 275-283
Zhou W, Alan C B, Hamid R S et al, 2004. Image Qualifty Assessment: From Error Visibility to Structural Similarity. IEEE Transactions on Image Processing, 13(4): 600-612 DOI:10.1109/TIP.2003.819861
Zuiderveld K, 1994. Contrast limited adaptive histogram equalization. In: Heckbert P S ed. Graphics Gems IV. Amsterdam: Elsevier, 474-485