基于BiLSTM模型的远洋渔船类型识别研究

海洋科学

2022, Vol. 46

Issue (3): 25-35

PDF

显示缩略图
本文结构
摘要
关键词
Abstract
Key words
1 材料与方法
1.1 船舶信息
表1(Table 1)
1.2 AIS数据
1.3 特征参数挖掘
表2(Table 2)
1.4 LSTM模型
1.5 BiLSTM模型
1.6 模型构建和部署
1.7 模型评价
表3(Table 3)
2 结果
2.1 渔船/非渔船类别识别结果
表4(Table 4)
表5(Table 5)
表6(Table 6)
2.2 渔船类别识别结果
表7(Table 7)
表8(Table 8)
表9(Table 9)
3 讨论
3.1 数据选择
3.2 模型输入特征参数
3.3 模型精度
4 结语
参考文献

http://dx.doi.org/10.11759/hykx20210708001

文章信息

杨胜龙, 史慧敏, 张胜茂, 张涵, 费英杰, 王斐, 金卫国, 王国来, 樊伟. 2022.

YANG Sheng-long, SHI Hui-min, ZHANG Sheng-mao, ZHANG Han, FEI Ying-jie, WANG Fei, JIN Wei-guo, WANG Guo-lai, FAN Wei. 2022.

基于BiLSTM模型的远洋渔船类型识别研究

Pelagic fishing vessel classification using bidirectional long short-term memory networks

海洋科学, 46(3): 25-35

Marine Sciences, 46(3): 25-35.

http://dx.doi.org/10.11759/hykx20210708001

文章历史

收稿日期：2021-07-08

修回日期：2021-11-02

引用本文

杨胜龙, 史慧敏, 张胜茂, 张涵, 费英杰, 王斐, 金卫国, 王国来, 樊伟. 2022. 基于BiLSTM模型的远洋渔船类型识别研究[J]. 海洋科学, 46(3): 25-35.

YANG Sheng-long, SHI Hui-min, ZHANG Sheng-mao, ZHANG Han, FEI Ying-jie, WANG Fei, JIN Wei-guo, WANG Guo-lai, FAN Wei. 2022. Pelagic fishing vessel classification using bidirectional long short-term memory networks[J]. Marine Sciences, 46(3): 25-35.

基于BiLSTM模型的远洋渔船类型识别研究

杨胜龙^1,2, 史慧敏^1,3, 张胜茂¹, 张涵⁴, 费英杰⁴, 王斐¹, 金卫国⁵, 王国来⁵, 樊伟^1,2

1. 中国水产科学研究院东海水产研究所, 农业农村部远洋与极地渔业创新重点实验室, 上海 200090;
2. 中国水产科学研究院渔业资源与遥感信息技术重点开放实验室, 上海 200090;
3. 上海海洋大学信息学院, 上海 201306;
4. 上海理工大学理学院, 上海 200093;
5. 上海开创远洋渔业有限公司, 上海 200082

收稿日期：2021-07-08；修回日期：2021-11-02

基金项目：国家重点研发计划项目(2019YFD0901404, 2019YFD0901405); 中央级公益性科研院所基本科研业务费项目(2019T09); 上海市科技创新行动计划项目(19DZ1207504); 福建省海洋渔业资源与生态环境重点实验室开放基金项目(fjmfre2019003)

作者简介：杨胜龙(1982—), 男, 博士, 副研究员, 主要从事海洋生态学研究, E-mail: ysl6782195@126.com.

通信作者：樊伟(1971—), 通信作者, E-mail: fanwee@126.com.

摘要：船舶自动识别系统(Automatic identification system, AIS)为渔业资源和渔船捕捞活动管理和研究提供了可能。明确船舶作业类型是开展AIS信息渔业研究应用前提, 为渔业研究和管理提供渔船捕捞类型基础数据支撑, 保障渔船作业安全和监督非法捕捞渔业活动, 作者通过搜集整理3 000多艘已知类型船舶信息, 从空间、时间和行为等多方面挖掘17种船舶特征参数, 采用三层双向长短期记忆网络(Bidirectional long short-term memory, BiLSTM)方法, 分别构建渔船/非渔船类别识别模型和不同渔船类型识别模型。模型结果表明, 渔船/非渔船的BiLSTM模型的训练数据集分类平均准确率为99.6%, 平均精确率为99.8%; 验证数据集分类平均准确率为93.6%, 平均精确率为95.6%。渔船多分类模型训练数据集分类平均准确率为99.0%, 平均精确率为99.3%; 验证数据集分类平均准确率是97.0%, 平均精确率是97.6%。作者构建的渔船/非渔船类别识别模型和渔船类别识别模型训练和验证精度都较高, 模型具有较好的泛化能力, 可用于主要捕捞类型渔船识别分类。

关键词：渔船类别识别船舶自动识别系统双向长短期记忆网络

Pelagic fishing vessel classification using bidirectional long short-term memory networks

YANG Sheng-long^1,2, SHI Hui-min^1,3, ZHANG Sheng-mao¹, ZHANG Han⁴, FEI Ying-jie⁴, WANG Fei¹, JIN Wei-guo⁵, WANG Guo-lai⁵, FAN Wei^1,2

1. Key Laboratory of East China Sea & Oceanic Fishery Resources Exploitation and Utilization, Ministry of Agriculture, Chinese Academy of Fishery Sciences, Shanghai 200090, China;
2. Key and Open Laboratory of Remote Sensing Information Technology in Fishing Resource, East China Sea Fisheries Research Institute, Chinese Academy of Fishery Sciences, Shanghai 200090, China;
3. College of Information, Shanghai Ocean University, Shanghai 201306, China;
4. College of Science, University of Shanghai for Science and Technology, Shanghai 200093, China;
5. Shanghai Kaichuang Deep Sea Fisheries Co., Ltd, Shanghai 200082, China

Received: Jul. 08, 2021

Foundation: National Key R & D Program of China, Nos. 2019YFD0901404, 2019YFD0901405; Special Funds of Basic Research of Central Public Welfare Institute, No. 2019T09; Shanghai Science and Technology Innovation Action plan, No. 19DZ1207504; Jimei University, Fujian Provincial Key Laboratory of Marine Fishery Resources and Eco-environment Funding, No. fjmfre2019003

Abstract: Automatic identification systems (AIS) information provides the possibility for the fine management and research of fishery resources and fishing activities. Existing fishery research mostly describes fishing activities of fishing vessels based on clear fishing gear AIS data. However, the fishing vessel types are often unknown in practice. Therefore, it is necessary to build a classification model of ship type to identify fishing vessels of unknown fishing type and provide data support for fishery research and management to protect the sustainable development of fishery resources. Fishing ships require a certain fishing license to operate with licensed fishing gear. Identifying specific fishing ship trajectory information such as fishing activity or gear type is also useful for monitoring illegal fishing activities.This article collected and sorted the information of 3067 known types of ships (including 4 types of fishing vessels, 1831 total; 3 types of nonfishing vessels, 1236 total). Seventeen characteristic parameters of each vessel were extracted based on the time, latitude and longitude, ship speed and heading course derive from AIS. Seventeen characteristic parameters were used as model input variables, and a three-layer bidirectional long short-term memory BiLSTM, network was used to construct a fishing vessel/non-fishing vessel classification recognition model and recognition models for fishing vessels. The model results showed that the average accuracy rate of training data classification of the fishing /non-fishing vessel LSTM model was 99.6%, the average precision was 99.8%, the average recall was 99.5%, the average kappa coefficient was 0.992, the F₁ score was 0.997, and the AUC was 0.996. The average accuracy, average precision, average recall, average kappa coefficient, F₁ score and AUC for the testing data set were 93.6%, 95.6%, 93.8%, 0.867, 0.947 and 0.936, respectively. The results of the training data set of the fishing vessel classification model showed that the average accuracy was 99%, the average precision was 99.3%, the average recall was 99%, the average kappa coefficient was 0.967, the F₁ score was 0.991, and the AUC was 0.98. The average accuracy rate of the validation data set classification was 97%, the average precision was 97.6%., the average recall was 97.4%, the average kappa coefficient was 0.895, the F₁ score was 0.975, and the AUC was 0.942. Two models with high performance, could help to distinguish the fishing/non-fishing vessel, and detection the gear type of fishing vessel. Furthermore to supervise the fishing activity to protect fishery ecosystems.

Key words: fishing ships classification AIS data BiLSTM

过度捕捞是渔业资源可持续利用的巨大挑战, 非法、不报告和不管制捕捞(Illegal, unreported and unregulated, IUU)被视为对海洋生态系统健康的主要威胁之一。IUU^[1-3]每年造成的损失约为100亿~235亿美元, 相当于1 100万~2 600万t渔获损失, 但在浩瀚大海中监督和制止这些非法活动非常困难。最近的研究表明, 船舶自动识别系统(Automatic identification system, AIS)信息可用于监测渔船捕捞活动。AIS的初衷是保障船舶航行安全性^[4], 但AIS提供渔船实时位置、航向和速度等信息, 为渔业资源研究提供了新的时空高精度数据^[4-5], 并已成功地用于渔船捕捞活动的多尺度时空分析^[5-10]。渔业资源分析一般依据某种捕捞类型或者鱼种开展, 因此基于AIS的渔业分析也是依据具体的渔船捕捞作业类型开展。AIS数据不包含船舶类型信息, 现有文献均按明确的渔具类型搜集AIS信息开展相关研究^[8-10]。然在实践中还有很多捕捞类型未知的渔船, 因此, 有必要建立基于AIS信息的船舶类型识别模型, 以识别未知捕捞类型的渔船, 可为渔业研究和管理提供基础数据库支撑。此外渔船需依据特定的捕捞许可证开展特定的捕捞作业活动, 识别特定的渔船轨迹信息(捕鱼活动或渔具类型)对于监视非法捕鱼活动及渔业安全生产也很有帮助。

速度和航向是区别船舶行为的重要变量, 常被用于船舶分类。郑巧玲等^[11]基于速度和航向时间序列数据, 采用BP方法构建了中国近海3类小型渔船类型识别模型。PARK^[12]对速度和航向时间序列进行分组编码, 采用图像识别方法构建了韩国半岛海域6种近海渔船类别识别模型。速度和航向是描述渔船捕捞行为的重要特征参数, 但渔船的空间地理信息也是渔船捕捞行为的重要特征。MARZUKI等^[13]挖掘单元区域内渔船航向、速度、位置和时间特征, 采用随机森林和支持向量机算法对船舶进行分类, 该算法可以有效识别4个类别的渔船, 但是对噪声敏感, 容易产生过拟合的问题。HUANG等^[14]按照不同的速度段提取了时间、空间位置和速度等23个特征参数, 采用XGBoost方法建立了中国近海9种渔船类别识别模型。上述文献仅对近海区域性渔船类型识别, 但在远洋中不能保证所有非渔船和渔船有相似时空特征。例如延绳钓为周期性作业, 每条渔船每天下网的时间段并不相同, 而货船和运输船在很长时间内行为与其相似。KROODSMA等^[6]基于AIS数据挖掘连续一段时间内渔船空间行为的12种特征参数, 对全球6类渔船和6类非渔船构建了卷积神经网络深度学习算法, 证实了深度学习在船舶分类中有良好应用。

船舶航迹具有明显的时间平滑性, 下一时刻的位置状态由历史时刻的位置滑行而来^[15]。船舶的位置、速度和航向等信息是连续的。船舶行为特征是通过一定时间内船舶的位置、速度和航向等信息组成。远洋捕捞4种主要类型渔船, 鱿鱼钓船在晚上靠灯光吸引鱿鱼并钓获, 渔船处于漂流状态; 拖网渔船放网后, 以2.5~5.5节航速航行拖动渔网捕获, 作业一般持续2~3 h^[9]; 延绳钓船快速航行布放钓钩后再回收钓钩捕获金枪鱼, 作业时间长、跨度大、空间轨迹变化大。金枪鱼围网船快速航行寻找鱼群, 发现鱼群快速下网包围, 在原地进行捕捞^[9]。渔船的空间行为具有时间连续性, 因此有必要考虑时间维度。长短期记忆网络(Long short-term memory, LSTM)和双向长短期记忆网络(Bidirectional long short-term memory, BiLSTM)作为一种经典的深度学习算法, 能够较好地刻画船舶轨迹随时间变化发展规律^[16-17]。目前LSTM和BiLSTM已成功应用于语音识别、翻译、时间序列预测等领域^[18-19]。船舶前后两个轨迹点的信息是相互关联的, BiLSTM能考虑两个方向的历史信息^[17], 因此本文提出采用BiLSTM方法构建船舶分类模型。作者首先搜集有明确表示的船舶类型信息, 依据MMSI号提取渔船轨迹时间序列数据; 随后对渔船轨迹数据进行预处理、数据特征挖掘和船舶类别标识。渔业管理和渔业科研部门关注的是渔船, 本文首先构建渔船/非渔船二分类BiLSTM模型, 再构建渔船多分类BiLSTM模型, 最后对构建的两种模型进行评价。

1 材料与方法 1.1 船舶信息

本文所指渔船是仅利用渔具开展捕捞活动的商业捕捞船舶, 根据该定义将远洋船舶分成渔船和非渔船。按捕捞方式和对象, 渔船大致可分为拖网、围网、流刺网、鱿钓、垂钓和延绳钓等类型^[6]。对每种捕捞按作业方式又可细分, 如围网有灯光围网和金枪鱼围网, 拖网有底拖和中层拖网等。本文参考文献[6]标记的船舶类型信息, 同时搜集国内渔业企业船舶水上移动通信业务标识码(Maritime mobile service identify, MMSI)和类型标识信息。绝大数渔船都是单一捕捞类型, 即只有一种作业方式, 只有少数渔船在不同季节会转换捕捞作业方式。本文只考虑单一捕捞类型渔船, 剔除船舶数量太少和捕捞方式非常少见的类型, 最后提取了延绳钓、其他围网、金枪鱼围网、拖网和鱿鱼钓等5种远洋主要捕捞渔船和拖船、油轮、货船和专用运输船等4种主要非渔船。根据渔船行为相似性将渔船合并为4类, 非渔船合并为3类, 不同渔船和非渔船描述见表 1。

表 1 船舶类型和数量 Tab. 1 Types and numbers of vessels

名称	类型	是否是渔船	数量(艘)
延绳钓	类型1	是	477
金枪鱼围网/其他围网	类型2	是	204
拖网	类型3	是	1 050
鱿鱼钓	类型4	是	100
拖船	类型5	否	261
油轮/货船	类型6	否	849
专用运输船	类型7	否	126

表选项

1.2 AIS数据

依据船舶MMSI号, 从exactView卫星传输的AIS数据中提取全球公海船舶轨迹数据, 包括发送时间、经纬度、航向、航速等。本实验AIS原始数据时间跨度为2017年7月—2019年12月。按MMSI号提取AIS时间序列数据, 剔除时间重复和航速大于15节的船位点数据。剔除船位轨迹点个数小于1 000的MMSI号。

对每个MMSI时间序列数据计算前后两个轨迹点的时间和距离, 将时间间隔超过24 h的船位轨迹点数据分开, 每个MMSI时间序列数据被分成若干时间序列数据段。删除每个时间段内船位轨迹点数据少于10个点的段, 这样处理有利于排除不正确的轨迹点数据^[6]。为减少数据分析量又不影响分析结果, 对每个时间段里面的轨迹点数据, 作者按每5 min挑选轨迹点数据, 从处理后的每个MMSI号中, 随机挑选时间连续的5 000个点的特征信息, 绘制上述选择后每个MMSI连续5 000个点的速度空间轨迹图(图 1)。

图 1 不同船舶轨迹分布图 Fig. 1 The trajectory of different type vessels

图选项

依据绘制的速度空间轨迹图, 目视删除船舶静止不动或者轨迹明显紊乱不符的MMSI, 最后选择了3 067个MMSI号数据(表 1)。

1.3 特征参数挖掘

AIS数据包含经纬度、瞬时船速和航向等有效信息, 其他参数(MMSI前后两个船位点的航向差、时间、距离、平均速度、向前速度差、向后速度差、离岸距离等信息)都能表征船舶一般行为特征。根据参考文献[20]和[21], 本文提取能表征船舶一般行为特征的17个特征参数, 分别是时间、经纬度、船速和航向、前后两个船位点的航向差、时间、距离、平均速度、向前速度差、向后速度差、离岸距离等、距离[–90, 0], [0, 0], [90, 0], [180, 0]点距离等信息。[–90, 0], [0, 0], [90, 0], [180, 0]4个点将地球经度划4份, 4个距离等信息描述船舶在地球4个空间经向变动。对预处理挑选的MMIS数据, 按照每个时间段分别计算上述17个特征参数作为模型的输入变量。每个特征参数的表达方式和说明见表 2。

表 2 输入变量描述 Tab. 2 Description of input variables

特征变量	公式	变量描述
特征变量1	$ \frac{{month - 6}}{6} $	month是一年中的月份
特征变量2	$ \frac{{hour - 12}}{{12}} $	hour是24小时制的当地时间
特征变量3	$ lon = \left\{ \begin{gathered} lon/{\text{18}}\;\;\;\;\;\;\;\;\;\;\;\;\;\;lon > 0 \hfill \\ (lon + 360)/{\text{18}}\;\;\;lon < 0 \hfill \\ \end{gathered} \right. $	lon是每个轨迹点的经度
特征变量4	lat/9	lat是每个轨迹点的纬度
特征变量5	$ \log(1 + distcoast{\text{)}} $	distcoast是轨迹点到最近的海岸的距离
特征变量6	course/180	course是每个轨迹点的瞬时航向
特征变量7	log(1+ speed)	speed是每个轨迹点的瞬时速度
特征变量8	log(1+ Δd)	Δd是当前轨迹点与上一个轨迹点之间的距离
特征变量9	log(1+ Δt)	Δt是当前轨迹点与上一个轨迹点之间的时间
特征变量10	$ \bar v = \frac{{\Delta d}}{{\Delta t}} $	$ \bar v $是当前轨迹点与上一轨迹点之间的平均航行速度
特征变量11	$ \frac{{\Delta c}}{{180}} $	Δc当前轨迹点与上一个轨迹点之间的航向差
特征变量12	$ \frac{{{c_{t + 1}} - {c_{t - 1}}}}{{{\text{180}}}} $	$ {c_{t + 1}} $是第t+1个轨迹点的航向
特征变量13	Δv_–1	Δv_–1当前轨迹点与上一个轨迹点之间的速度差
特征变量14	log(1+ fdist1)	fdist1是当前轨迹到[–90, 0]距离
特征变量15	log(1+ fdist2)	fdist2是当前轨迹到[0, 0]距离
特征变量16	log(1+ fdist3)	fdist3是当前轨迹到[90, 0]距离
特征变量17	log(1+ fdist4)	fdist4是当前轨迹到[180, 0]距离

表选项

1.4 LSTM模型

船舶轨迹数据是时间连续的空间轨迹信息, 船舶前后两个航迹点的信息相互关联。在递归神经网络(Recursive neural network, RNN)中, 前一时刻的神经元输出可以传输到当前时刻, 因此RNN在时间序列数据方面具有独特的优势, 并已成功应用于分类识别^[22]。但如果学习序列较长, 传统的RNN有时会消失或爆炸梯度。通过引入门机制^[23], 设计了长短期记忆来解决该问题。LSTM利用具有各种门的存储单元来保存有用的信息, 以长期保持依赖关系, 单层LSTM网络的内部结构如图 2所示。

图 2 LSTM神经元结构 Fig. 2 Structure of LSTM Network

图选项

LTSM内部有3个控制门, 分别是输入门$ {i_t} $、输出门$ {o_t} $和遗忘门$ {f_t} $。每一刻的输入$ {x_t} $和上一时刻的输出$ {h_{t - 1}} $共同决定当前时刻各个门单元的状态值已经中间单元C_t。在t时刻, 各个门更新的公式如下:

$ {f_t} = \sigma \left( {{w^f} \cdot \left[ {{h_{t - 1}}, {x_t}} \right] + {b^f}} \right) , $

(1)

$ {i_t} = \sigma \left( {{w^i} \cdot \left[ {{h_{t - 1}}, {x_t}} \right] + {b^i}} \right) , $

(2)

$ {\tilde C_t} = tanh\left( {{w^c} \cdot \left[ {{h_{t - 1}}, {x_t}} \right] + {b^c}} \right) , $

(3)

$ {C_t} = {f_t}*{C_{t - 1}} + {i_t}*{\tilde C_t} , $

(4)

$ {o_t} = \sigma \left( {{w^o} \cdot \left[ {{h_{t - 1}}, {x_t}} \right] + {b^o}} \right) , $

(5)

$ {h_t} = {o_t}*tanh\left( {{C_t}} \right) , $

(6)

式中, $ {w^f} $、$ {w^i} $、$ {w^c} $和$ {w^o} $分别为对应的遗忘门、输入门和输出门的权值, $ {b^f} $、$ {b^i} $、$ {b^c} $和$ {b^o} $分别为对应的遗忘门、输入门和输出门的阈值, $ \sigma $是sigmoid函数。

1.5 BiLSTM模型

LSTM模型仅在一个方向上考虑信息, 并且只能在前一时刻学习信息。给定时刻的渔船状态会受到前一时刻的影响, 这意味着下一时刻的状态也会对前一时刻产生影响^[24]。双向LSTM可以使用两个独立的隐藏层在向前和向后方向上处理序列数据, 并已成功应用于语言和图像处理中^[25]。双向LSTM模型的结构由正反两个方向的2个单向LSTM网络组成, 如图 3。其中$ \vec h $表示向前传递信息, $ \overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\leftarrow}$}}{h} $表示向后传递信息。在t时刻, 输入信息传递给两个方向的LSTM网络, 输出由2个方向的LSTM输出共同确定, 迭代的公式如下:

$ {\vec h_t} = \text{H}({w_{x\vec h}} \cdot {x_t} + {w_{\vec h\vec h}} \cdot {\vec h_{t - 1}} + {b_{\vec h}}) , $

(7)

$ {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} _t} = \text{H}({w_{x\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} }} \cdot {x_t} + {w_{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} \mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} }} \cdot {\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} _{t - 1}} + {b_{\mathord{\buildrel{\lower3pt\hbox{$\scriptscriptstyle\leftarrow$}} \over h} }}) $

(8)

$ {y_t} = {w_{\vec hy}} \cdot {\vec h_t} + {w_{\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\leftarrow}$}}{h} y}} \cdot {\overset{\lower0.5em\hbox{$\smash{\scriptscriptstyle\leftarrow}$}}{h} _t} + {b_y} , $

(9)

图 3 双向LSTM结构图 Fig. 3 Structure of BILSTM Network

图选项

1.6 模型构建和部署

本文构建两个BILSTM分类模型。第一个模型区分渔船和非渔船, 提供渔船信息; 第二个模型对4种主要的远洋捕捞渔船类别识别, 为渔业资源和管理研究提供信息。经过多次对比实验发现多层模型比单层模型有更好的结果, 本文两个BILSTM模型采用3个层数, 第一、二和三层中间网络单元数分别是70、50和25。网络函数梯度训练和优化采用“Adam”算法。maxEpochs为70, miniBatchSize为30, 学习率为0.001。对于每种类型的船只, 随机选择70%的数据作为训练数据集, 其余30%用作测试数据集。在MATLAB软件平台中构造两个BiLSTM, 采用深度学习功能包来完成模型的建立和培训。实验环境是一台装有Intel E3 1270 V5处理器, 32 GB内存和NVIDIA Quadro P600显卡的PC。

1.7 模型评价

通过比较模型的预测分类结果和实际标记结果, 评估两个BiLSTM模型的性能^[26]。对渔船/非渔船模型, 计算二分类混淆矩阵。对于渔船类别识别模型, 采用一对多的方法定义混淆矩阵, 表 3列出了基于经典矩阵进行二进制分类的“一对多”方法。

表 3 第i类船舶混淆矩阵 Tab. 3 Confusion matrix for class i vessels

类别	预测第i类	预测非第i类
第i类	正确地预测为正例(TP_i)	错误地预测为反例(FN_i)
非第i类	错误地预测为正例(FP_i)	正确地预测为反例(TN_i)

表选项

TP_i是模型正确分类的第i类正样本; FN_i是模型错误分类的第一类正样本; FP_i是模型错误分类的其他第i类样本; TN_i是模型正确分类的第i类其他样本。

计算平均准确率、平均精确率、平均召回率、平均Kappa系数、F₁得分和曲线下面积(Area Under Curve, AUC)用于评估两个BILSTM模型的分类性能^[26], 计算公式如下:

平均准确率

$ AA = \left( {\sum\limits_{i = 1}^{\text{k}} {\frac{{T{P_i} + T{N_i}}}{{T{P_i} + T{N_i} + F{P_i} + F{N_i}}}} } \right)/{\text{k}} , $

(10)

平均精确率

$ AP = \left( {\sum\limits_{i = 1}^{\text{k}} {\frac{{T{P_i}}}{{T{P_i} + F{P_i}}}} } \right)/{\text{k}} , $

(11)

平均召回率

$ AR = \left( {\sum\limits_{i = 1}^{\text{k}} {\frac{{T{P_i}}}{{T{P_i} + F{N_i}}}} } \right)/{\text{k}} , $

(12)

F₁分数

$ {F_1}{\text{ score}} = \frac{{2AP \cdot AR}}{{AP + AR}} , $

(13)

$ AUC = \frac{1}{2}\left( {\sum\limits_{i = 1}^{\text{k}} {\frac{{T{P_i}}}{{T{P_i} + F{N_i}}}} /{\text{k}} + \sum\limits_{i = 1}^{\text{k}} {\frac{{T{N_i}}}{{T{N_i} + F{P_i}}}} /{\text{k}}} \right) , $

(14)

$ Kappa = \left( {\sum\limits_{i = 1}^{\text{k}} {\frac{{p{0_i} - p{e_i}}}{{1 - p{e_i}}}} } \right)/{\text{k}} , $

(15)

式中, p0_i是准确率, $ p{e_i} = \frac{{\left( {T{P_i} + F{N_i}} \right) \cdot \left( {T{P_i} + F{P_i}} \right) + \left( {F{P_i} + T{N_i}} \right) \cdot \left( {F{N_i} + T{N_i}} \right)}}{{{{\text{N}}^2}}} $, N为总的记录个数。对于渔船/非渔船模型k=2, 渔船类别识别模型k=4。

平均准确率可以测试分类器的平均每类有效性, 如果类别样本量不平衡, 则此指标不是很有效果。F₁分数是精度和召回率的谐和平均值, 代表了分类器识别阳性分类的有效性。曲线下面积是平衡精度, 代表了分类器避免错误分类的能力。Kappa系数是用于一致性测试的指标, 也可以用于衡量分类的效果。在本文中不同类型船舶的样本量差异很大, 因此F₁得分、曲线下面积和Kappa系数越高, 模型的性能越好。

2 结果 2.1 渔船/非渔船类别识别结果

渔船/非渔船模型的训练时间为40 min, 训练数据集模型结果表明有1 200条渔船和798条非渔船被正确识别(表 4)。有2条渔船被错误地识别为非渔船, 6条非渔船被错误地识别为渔船。分类平均准确率是99.6%, 平均精确率是99.8%, 平均召回率为99.5%, 平均算Kappa系数为0.992, F₁分数为0.997, 曲线下面积为0.996。

表 4 训练数据集混淆矩阵 Tab. 4 Confusion table of training dataset

类别	渔船	非渔船
渔船	1200	6
非渔船	2	798

表选项

验证数据集中有396条渔船和252条非渔船被正确识别(表 5), 有18条渔船被错误的识别为非渔船, 26条非渔船被错误的识别为渔船。分类平均准确率是93.6%, 平均精确率是95.6%, 平均灵敏度为93.8%, 平均算Kappa系数为0.867, F₁分数为0.947, 曲线下面积为0.936。

表 5 验证数据集混淆矩阵 Tab. 5 Confusion table of testing dataset

类别	渔船	非渔船
渔船	395	26
非渔船	18	252

表选项

所有数据的分类平均准确率是98.1%, 平均精确率是98%, 平均召回率为98.8%, 平均Kappa系数为0.96, F₁分数为0.984, 曲线下面积为0.979 (表 6)。

表 6 评价指标结果 Tab. 6 Results of evaluation index

数据集	平均准确率	平均精确率	平均召回率	F₁分数	Kappa系数	曲线下面积
训练集	0.996	0.998	0.995	0.997	0.992	0.996
测试集	0.936	0.956	0.938	0.947	0.867	0.936
所有数据	0.981	0.980	0.988	0.984	0.960	0.979

表选项

在渔船/非渔船二分类模型中, 所有数据中每种船舶模型错误分类统计个数见图 4。共有52艘渔船被模型错误分类, 其中有16艘拖网渔船被模型错误分类, 其次是货物和油轮, 有11艘被模型错误分类, 最少的是鱿鱼钓渔船和拖船, 都只有2艘渔船被错误分类。

图 4 不同类型船舶错误分类数 Fig. 4 Number of misclassification of different types of vessels

图选项

2.2 渔船类别识别结果

模型2的训练时间为23 min, 训练数据混淆矩阵见表 7。训练数据集模型结果表明有300条延绳钓渔船、127条金枪鱼围网/围网渔船、702拖网和64条鱿鱼钓渔船被正确识别(表 7)。渔船类别识别模型的训练数据集的结果显示平均准确率是99%, 平均精确率是99.3%, 平均召回率为99%, 平均Kappa系数为0.967, F₁分数为0.991, 曲线下面积为0.98。7艘延绳钓渔船被错误地识别为拖网渔船和围网渔船。

表 7 训练数据集混淆矩阵 Tab. 7 Confusion table of training dataset

类别	延绳钓	金枪鱼围网/围网	拖网	鱿鱼钓
延绳钓	300	1	6	0
金枪鱼围网/围网	1	127	12	0
拖网	1	2	702	1
鱿鱼钓	0	0	0	64

表选项

验证数据集中有126条延绳钓渔船、50条金枪鱼围网/围网渔船、290拖网和25条鱿鱼钓渔船被正确识别(表 8)。渔船类别识别模型的测试数据集的结果显示, 平均准确度为97%, 平均准确度为97.6%, 平均召回率为97.4%, 平均Kappa系数为0.895, F₁得分为0.975, 曲线下面积为0.942。有10条延绳钓渔船被误认为是围网和拖网渔船, 5艘围网渔船被错误地识别为延绳钓和拖网渔船。模型错误地将14艘拖网渔船识别为延绳钓和围网渔船。两艘鱿鱼钓渔船被误认为是拖网渔船。

表 8 验证数据集混淆矩阵 Tab. 8 Confusion table of testing dataset

类别	延绳钓	金枪鱼围网/围网	拖网	鱿鱼钓
延绳钓	126	2	4	0
金枪鱼围网/围网	2	50	7	1
拖网	8	3	290	1
鱿鱼钓	0	0	3	25

表选项

所有数据集的平均准确度、平均准确度、平均召回率、平均kappa系数、F₁得分和曲线下面积分别为98.4%, 98.5%, 98.6%, 0.945、0.986和0.977(表 9)。

表 9 评价指标结果 Tab. 9 Results of evaluation index

数据集	平均准确率	平均精确率	平均召回率	F₁分数	Kappa系数	曲线下面积
训练集	0.990	0.993	0.990	0.991	0.967	0.980
测试集	0.970	0.976	0.974	0.975	0.895	0.942
所有数据	0.984	0.985	0.988	0.986	0.945	0.977

表选项

3 讨论 3.1 数据选择

本文选择了5种主要的远洋捕捞船舶和4种主要的远洋非捕捞船舶, 并将5类捕捞船舶合并为4类, 4类非捕捞合并为3类。公海中还有其他类型的渔船, 它们在数量上比本文选择的类型少, 因此NIEBLAS等^[20]将其他的杆钓、底拖网和定置网等渔船合并为其他类渔船, 不做单独分类。本文没有收集足够的其他类型船舶数据, 考虑到样本量对模型训练的影响, 因此建模时没有考虑。未来需要收集更多的渔船和非渔船数据, 完善模型和数据库。

文中选择的是某一区域一个国家或地区的渔船^[11-14], 本文挑选远洋渔船和非渔船数据包括3大洋公海和经济专属区, 来自不同国家。对特定区域的近海渔船, 由于特定的捕捞对象和地理环境, 船舶可能表现为某种的区域一致行为特性。而公海不同国家的渔船在大的相似性下可能存在不一致性, 因此本文的模型方法更具一般性。

模型输入数据选择时, 由于数据量大, 为方便数据整理和快速挑选数据, 编写代码自动选择了连续5 000点船舶轨迹数据, 并绘制连续时间的空间轨迹图, 人工目视挑选数据。对于连续轨迹点不足5 000点数据可以多时段合并、可以将不同时段的数据挖掘模型特征参数后人工合并, 剔除其中的时间间隔。

3.2 模型输入特征参数

速度、航向是描述船舶瞬时空间行为的关键信息, 有大量文献采用速度构建了不同捕捞类型渔船的渔船作业状态模型^[9-11], 也常被用于渔船类型分类^[8-10]。一定时间内船舶在大海上的连续空间轨迹可以看成二维拓扑结构。每种船舶的拓扑结构具有自身特征, 因此可以基于渔船在连续时间下特有的空间拓扑结构开展分类和作业状态识别^[25]。因此本文参考已有文献提取了位置、距离和速度等信息刻画船舶在二维空间的轨迹变动。船舶航迹具有明显的时间平滑性, 下一时刻的位置状态由历史时刻的位置滑行而来, 船舶前后两个轨迹点的信息是相互关联的。因此AIS数据蕴含丰富的时间信息, 本文提取了前后两个船位点的航向差、时间、距离、平均速度、向前速度差和向后速度差, 描述轨迹点随时间的变化。

文中还提取了到最近港口距离和时间^[6], 到最近锚地的距离和访问的时间, 以及轨迹点1 km半径内船舶数据。作者暂无法获取和计算上述数据而未考虑到模型中。到港口的距离和时间是货船和运输船表现的明显特征, 而1 km半径内船舶数量是渔船聚集作业的明显特征。未来在获得全球有效的港口数据可以计算每个轨迹点到最近港口距离和时间, 加入模型输入变量。

3.3 模型精度

渔业管理、监督和分析中首先感兴趣的是渔船信息, 然后是具体捕捞作业类型的渔船行为。因此本文构建了渔船/非渔船二分类模型和渔船多分类模型。两种模型训练数据的平均准确率都达到99%, 验证数平均准确率都在94%以上。渔船多分类模型在每种渔船类别识别准确率在91%以上。构建的渔船/非渔船类别识别模型和渔船类别识别模型训练和验证精度都较高, 说明模型具有较好的泛化能力。

SHENG^[27]等采用logistic回归模型构建了运输船和渔船二分类模型, 分类准确率为92.3%。ZHANG等^[28]采用集成学习方法构建了渔船和游船二分类模型, 平均准确率为76.7%。本文的渔船/非渔船二分类模型训练精度为99.6%, 验证精度为93.6%, 分类结果好于上述文献。

只对渔船类别识别方面, PARK^[12]基于速度和航向时间序列进行分组编码方法构建了韩国半岛海域6种近海渔船类别识别模型, 准确率为76.2%。MARZUKI等^[13]针对渔船轨迹数据的地理特征和行为特征对拖网、延绳钓、围网和杆钓4种渔船构建的模型训练精度都在95%以上。郑巧玲等^[11]采用BP方法构建的中国近海3类小型渔船类别识别模型平均准确率为91%以上。HUANG等^[14]采用XGBoost方法建立的中国近海9种渔船类别识别模型平均准确率在96.9%。本文模型训练精度为99%, 验证精度为97%, 均高于已有文献分类结果。

KROODSMA等^[6]构建的卷积神经网络深度学习算法训练平均准确率为95%。本文考虑所有7种类型船舶数据, 构建本文相似结构的BiLSTM模型, 模型训练精度为99%, 验证精度为96%, 训练精度高于KROODSMA结果。不同的是本文只考虑了远洋5大类渔船和4种主要货船, 而KROODSMA等^[6]构建的模型包含了杆钓、底拖网和定制网等渔船其他渔船以及客船等非渔船, 船舶种类比本文多。

4 结语

本研究采用BiLSTM模型对5种主要远洋捕捞类型渔船和4种非捕捞船舶进行分类分析, 模型训练和验证数据集计算的各项评价指标都很好, BiLSTM系统能够很好地描述渔船时间序列轨迹数据的内部规律, 构建的模型对远洋船舶类型分类精度很高, 且模型不具有区域性。未来研究中除主要作业类型, 还需要考虑更多的渔船作业类型, 通过收集更多的船舶样本数据、到最近锚地的距离、到最近锚地访问的时间以及半径1 km范围内的船舶数量信息不断提升模型的分类能力, 建立更全面的渔船类别识别数据库。

参考文献

[1]	DIRO G T, BLACK E, GRIMES D. Seasonal forecasting of Ethiopian spring rains[J]. Meteorological Applications, 2010, 15(1): 73-83.

[2]	KASSAWMAR T, ZELEKE G, BANTIDER A, et al. A synoptic land change assessment of Ethiopia's rainfed agricultural area for evidence-based agricultural ecosystem management[J]. Heliyon, 2018, 4(11): e00914. DOI:10.1016/j.heliyon.2018.e00914

[3]	ROCKSTROM J, Barron J, FOX P. Rainwater management for increased productivity among small-holder farmers in drought prone environments[J]. Physics & Chemistry of the Earth Parts A/b/c, 2002, 27(11/12): 949-959.

[4]	MCCAULEY D J, WOODS P, SULLIVAN B, et al. Ending hide and seek at sea[J]. Science, 2016, 351(6278): 1148-1150. DOI:10.1126/science.aad5686

[5]	CIMINO M A, ANDERSON M, SCHRAMEK T, et al. Towards a fishing pressure prediction system for a western pacific EEZ[J]. Science Reports, 2019, 9(461): 1-10.

[6]	KROODSMA D A, MAYORAGA J, HOCHBERG T, et al. Tracking the global footprint of fisheries[J]. Science, 2018, 359(6378): 904-908. DOI:10.1126/science.aao5646

[7]	SHELMERDINE R L. Teasing out the detail: How our understanding of marine AIS data can better inform industries, developments, and planning[J]. Mar Policy, 2015, 54: 17-25. DOI:10.1016/j.marpol.2014.12.010

[8]	GUYADER L D, RAY C, BROSSET D. Defining high-resolution dredge fishing grounds with automatic identification system (AIS) data[J]. Aquatic Living Resources, 2017, 30: 39-49. DOI:10.1051/alr/2017038

[9]	DE SOUZA E N, BOERDER K, MATWIN S, et al. Improving fishing pattern detection from satellite AIS using data mining and machine learning[J]. PloS One, 2016, 11(7): e0158248. DOI:10.1371/journal.pone.0158248

[10]	VESPE M, GIBIN M, ALESSANDRINI A, et al. Mapping EU fishing activities using ship tracking data (Article)[J]. Journal of Maps, 2016, 12: 520-525. DOI:10.1080/17445647.2016.1195299

[11]	郑晓玲, 樊伟, 张胜茂, 等. 基于神经网络和VMS的渔船捕捞类型辨别[J]. 南方水产科学, 2016, 12(2): 81-87. ZHENG Xiaoling, FAN Wei, ZHANG Shengmao, et al. Identification of fishing type from VMS data based on artificial neural network[J]. South China Fisheries Science, 2016, 12(2): 81-87.

[12]	PARK J W, LEE K M, KIM K I. Automatic identification system based fishing trajectory data preprocessing method using map reduce(Article)[J]. International Journal of Recent Technology and Engineering, 2019, 8(2): 352-356.

[13]	MARZUKI M I, GASPAR P, GARELLO R, et al. Fishing gear identification from vessel-monitoring-system-based fishing vessel trajectories[J]. IEEE Journal of Oceanic Engineering, 2018, 43(3): 689-699. DOI:10.1109/JOE.2017.2723278

[14]	HUANG H G, HONG F, LIU J, et al. FVID: Fishing vessel type identification based on VMS trajectories[J]. Journal of Ocean University of China, 2019, 18(2): 403-412. DOI:10.1007/s11802-019-3717-9

[15]	王立林, 刘俊. 基于多尺度卷积的船舶行为识别方法[J]. 计算机应用, 2019, 39(12): 3691-3696. WANG Lilin, LIU Jun. Ship behavior recognition method based on multi-scale convolution[J]. Journal of Computer Applications, 2019, 39(12): 3691-3696.

[16]	ZHOU X Y, LIU Z J, WANG F W, et al. Using deep learning to forecast maritime vessel flows[J]. Sensors, 2020, 20(6): 1761. DOI:10.3390/s20061761

[17]	TANG H, YIN Y, SHEN H L. A model for vessel trajectory prediction based on long short-term memory neural network[J]. Journal of Marine Engineering & Techno logy, 2019, 3: 1-10.

[18]	吴赛赛, 周爱莲, 谢能付, 等. 基于深度学习的作物病虫害可视化知识图谱构建[J]. 农业工程学报, 2020, 36(24): 177-185. WU Saisai, ZHOU Ailian, XIE Nengfu, et al. Construction of visualization domain-specific knowledge graph of crop diseases and pests based on deep learning[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(24): 177-185.

[19]	解毅, 张永清, 荀兰, 等. 基于多源遥感数据融合和LSTM算法的作物分类研究[J]. 农业工程学报, 2019, 35(15): 129-137. XIE Yi, ZHANG Yongqing, XUN Lan, et al. Crop classification based on multi-source remote sensing data fusion and LSTM algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(15): 129-137.

[20]	NIEBLAS A E, BARDE J, LOUYS J, et al. Global atlas of AIS-based fishing activity challenges and opportunities[R]. Rome: FAO, 2019.

[21]	BERTRAND S, DIAZ E, LENGAIGNE M. Patterns in the spatial distribution of Peruvian anchovy (Engraulis ringens) revealed by spatially explicit fishing data[J]. 2008, 79(4): 379-389.

[22]	ZONOOZI A, KIM J J, LI X L, et al. Periodic-CRN: A convolutional recurrent model for crowd density prediction with recurring periodic patterns[C]//In Proc 27th Int Conf Arti Inte, Stockholm: International Joint Conferences on Artificial Intelligence, 2018: 3732-3738.

[23]	HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI:10.1162/neco.1997.9.8.1735

[24]	MA J, JIA C F, YANG X, et al. A data-driven approach for collision risk early warning in vessel encounter situations using attention-BiLSTM[J]. IEEE Access, 2020, 8: 188771-188783. DOI:10.1109/ACCESS.2020.3031722

[25]	GERS F A, SCHMIDHUBER J, CUMMINS F. Learning to forget: continual prediction with LSTM[J]. Neural Computation, 2000, 12(10): 2451-2471. DOI:10.1162/089976600300015015

[26]	ZHOU Y, DAAMEN W, VELLINGA T, et al. Ship classification based on ship behavior clustering from AIS data[J]. Ocean Engineering, 2019, 175: 176-187. DOI:10.1016/j.oceaneng.2019.02.005

[27]	SHENG K, LIU Z, ZHOU D C, et al. Research on ship classification based on trajectory features[J]. Journal of Navigation, 2018, 71(1): 100-106. DOI:10.1017/S0373463317000546

[28]	ZHANG T, ZHAO S, CHEN J. Research on ship classification based on trajectory association[J]. Knowledge Science, Engineering and Management, 2019, 11775: 327-340.

返回顶部

微信扫一扫：分享

文章信息

文章历史