海洋科学  2025, Vol. 49 Issue (7): 39-52   PDF    
http://dx.doi.org/10.11759/hykx20250114003

文章信息

范志诚, 彭辉, 王硕. 2025.
FAN Zhicheng, PENG Hui, WANG Shuo. 2025.
基于CNN-SHAP的小清河入海总氮通量影响因素分析
Analysis of factors affecting total nitrogen flux into the sea from the Xiaoqing River based on CNN-SHAP
海洋科学, 49(7): 39-52
Marine Sciences, 49(7): 39-52.
http://dx.doi.org/10.11759/hykx20250114003

文章历史

收稿日期:2025-01-14
修回日期:2025-04-14
基于CNN-SHAP的小清河入海总氮通量影响因素分析
范志诚1,2, 彭辉1,2, 王硕3     
1. 中国海洋大学 海洋环境与生态教育部重点实验室, 山东 青岛 266100;
2. 中国海洋大学 山东省海洋工程地质与环境重点实验室, 山东 青岛 266100;
3. 山东大学 环境科学与工程学院, 山东 青岛 266237
摘要:针对我国近海总氮污染问题, 提出了一种基于卷积神经网络(Convolutional Neural Network, CNN)和可解释方法SHAP(SHapley Additive exPlanations)的河流入海总氮通量可解释预测模型, 模型耦合了马尔科夫链模拟的流域河网拓扑结构, 并充分利用多源时空数据。构建的模型应用于小清河, 将小清河流域气象、土地利用、土壤类型以及点源和非点源氮排放等多源数据, 通过马尔科夫链河网结构, 转换为三维输入数据。模型评估显示, 三维输入方式的模型在训练集和测试集上都表现出更高的准确性, 预测入海通量的相关系数达到了0.99。使用SHAP方法识别了影响模型预测的关键因素, 并分析了空间特征对模型预测的影响, 揭示了流域不同空间位置对入海总氮通量的影响差异。研究结果不仅提高了入海水质预测的准确性, 也为近海环境管理提供了科学依据。
关键词总氮通量预测    CNN模型    SHAP    深度学习    
Analysis of factors affecting total nitrogen flux into the sea from the Xiaoqing River based on CNN-SHAP
FAN Zhicheng1,2, PENG Hui1,2, WANG Shuo3     
1. Key Laboratory of Marine Environment Science and Ecology, Ministry of Education and College of Environmental Science and Engineering, Ocean University of China, Qingdao 266100, China;
2. Shandong Provincial Key Laboratory of Marine Environment and Geological Engineering, Ocean University of China, Qingdao 266100, China;
3. School of Environmental Science and Engineering, Shandong University, Qingdao 266237, China
Abstract: This study proposes an interpretable prediction model for total nitrogen flux from rivers to the sea to address the problem of total nitrogen pollution in China's coastal waters. The model is based on a Convolutional Neural Network (CNN) and the SHAP (SHapley Additive exPlanations) methods. It couples the river network topology structure simulated by a Markov chain and fully utilizes multisource spatiotemporal data. For the purposes of this study, the model is applied to the Xiaoqing River. Multisource data, such as meteorology, land use, soil type, and point and nonpoint source nitrogen emissions in the Xiaoqing River Basin, are converted into three-dimensional input data based on the Markov chain river network structure. Model evaluation shows that the model with three-dimensional input performs better in both the training set and the test set, achieving higher accuracy. The correlation coefficient of the predicted inflow flux reaches 0.99. The SHAP method is used to identify the key factors that affect the model's prediction and analyze the influence of spatial features on the prediction, revealing differences in the impact of different spatial locations in the basin on the total nitrogen flux to the sea. The research results not only improve the accuracy of the prediction of sea water quality but also provide a scientific basis for the management of the coastal environment.
Key words: total nitrogen flux prediction    CNN model    SHAP    deep learning    

随着我国现代化进程的不断加速, 非点源污染与点源氮污染问题愈发严重。我国河流面临富营养化加剧、蓝藻水华灾害频繁、水质恶化和水生生态系统破坏等一系列生态问题[1-2]。作为陆地与海洋之间物质迁移与能量交换的重要通道, 河流不仅承载了密集人类活动带来的环境压力, 也将这些压力逐步传递至海洋系统[3-4]。因此, 建立河流入海氮污染模型, 对保障近海生态环境安全、推动流域与海洋环境协同治理具有重要意义[5-6]。根据《2023中国海洋生态环境状况公报》显示, 中国沿海氮污染问题主要集中在途经人口密集或农业发达区域的河口地带[7]。因此, 构建入海总氮通量预测模型, 识别影响入海总氮通量变化的关键驱动因素, 对于陆海污染协同控制和近海环境管理具有深远的意义。

目前用于入海水质预测的模型有两类, 一类是传统的物理机制模型, 如DELFT-3D[8]、SWMM-EFDC[9]、MIKE[10]、SWAT[11]模型等, 这类模型需要大量输入数据和参数设置, 并依赖长时间的模型预热过程, 难以捕捉水质影响因素间复杂的非线性关系[12]。另一类是数据驱动的水质模型, 尤其是深度学习方法, 可以在不依赖物理过程知识的前提下, 从数据中自动学习输入与输出数据之间的非线性特征, 进而以简单的建模流程准确地实现对影响因素的分析[13-14]。卷积神经网络(Convolutional Neural Networks, CNN)作为最具代表性的数据驱动模型之一, 在处理图像和其他多维数据方面表现出卓越的能力[15]。CNN模型以人类视觉神经系统为设计灵感, 广泛应用于图像分类、目标识别、医学影像分析和物理过程建模等多个领域[16-17]。在遥感、水资源等与水环境密切相关的领域, 深度学习技术也逐渐成为主流方法[18-19]。尽管在2018年前水文学领域并未广泛使用深度学习模型[20], 近年来, 随着模型结构与训练方法的不断优化, CNN模型在水文领域的应用逐渐增多[7, 21-22]。例如, Pyo等[23]基于CNN模型学习EFDC模型生成的水质图像, 成功预测了河流中的蓝藻浓度; Quang等[24]利用韩国汉江10 a的水质监测数据, 基于不同深度学习架构对蓝藻浓度进行建模, 实现了高精度预测。这些研究验证了CNN模型在水文水质建模中的潜力和有效性, 它在处理图像等多维数据和多维特征方面的强大能力, 为精确预测入海水质提供了一种有效的解决方案。然而, 现有的水质预测模型仍存在一些显著不足: 多数模型依赖于监测点获取的低维水质数据(如氨氮、总氮、溶解氧等), 未直接考虑影响流域水质的多种潜在因素; 且河流设置的监测点有限, 导致预测模型的空间泛化能力较弱[25]。此外, 现有模型大多基于时间序列或单点空间观测, 未能有效融入流域尺度上的空间结构及多种环境变量的交互作用[23-24, 26], 这限制了模型捕捉总氮通量驱动机制的能力与精度。

此外, 深度学习模型普遍存在“黑箱”问题, 即模型的内部机制难以解释, 影响了其科学解释性与结果可用性。近年来, 从博弈论中Shapley值扩展而来的SHAP(SHapley Additive exPlanations, SHAP)算法为深度学习提供了可解释工具。该方法已被广泛应用于机器学习与深度学习模型的特征重要性分析中。例如, Wang等[27]利用SHAP识别了小清河流域产流过程的关键驱动因子; Yang等[28]对滇池水质参数进行解释性建模; Rahmani等[29]则基于SHAP对CNN模型进行可解释性分析, 从而识别影响地面沉降的关键因素。这些研究表明, SHAP方法可以有效提升CNN模型在环境建模中的透明度与可解释性, 增强模型的实际应用价值。

综上所述, 本文聚焦于小清河流域的入海总氮通量问题, 基于流域的气象、土地利用、土壤类型、点源与非点源氮排放等多源数据, 构建了一个融合丰富空间结构与多维特征信息的三维CNN输入形式, 并设计了相应的CNN预测模型用于模拟总氮通量的时空分布特征。同时, 结合SHAP方法对模型结果进行可解释性分析, 从而识别出入海总氮通量变化的关键影响因素及其空间异质性。本研究旨在为流域-海洋一体化氮污染管控与近海水质精准治理提供科学支撑。

1 材料与方法 1.1 研究区域与数据来源

小清河位于山东省内, 是黄河流域渤海水系的重要支流。其源头位于省会济南市的泉群区域, 依次流经济南市、淄博市、滨州市、东营市、潍坊市, 最终于潍坊的寿光市羊口镇进入莱州湾。小清河主干流全长237 km, 流域面积约10 336 km2, 约占全省总面积的6.7%。小清河流域季节变化显著, 气候类型属于温带季风气候。作为莱州湾主要入海河流之一, 小清河在区域氮输入中占据重要地位, 其氮的输送贡献量达到30%, 仅次于黄河[30]

本文采用的DEM(Digital Elevation Model)数据来源于SRTM数据集(http://dwtkns.com/srtm30m/), 空间分辨率为30 m, 土地利用的数据来源于全球土地利用数据库(http://www.globallandcover.com/GLC30Download/index.aspx), 土壤数据来源于联合国粮农组织的全球土壤数据库(http://www.fao.org/soils-portal/data-hub/soil-maps-and-databases/harmonized-world-soil-database-v12/en/), 气象数据来源于中国气象同化驱动数据集(http://www.cmads.org/), 选取小清河流域内2009—2024年的日降水(P)、日最高气温(Tmax)、日最低气温(Tmin)、日平均相对湿度(R)、日平均风速(W)、日太阳辐射(S)这6种日尺度气象要素信息。点源和非点源的氮排放数据来自于济南市、淄博市、潍坊市统计年鉴(2009—2024年)以及全国第二次污染源普查, 其中非点源的排放主要考虑了3种指标: 日平均农村生活污水氮排放(DW)、日平均畜禽养殖氮排放(LW)、日平均农业施肥量(AF)。

鉴于水质数据的稀缺性, 本研究采用SWAT (Soil and Water Assessment Tool)模型对小清河流域的水质数据进行了扩展与补充[31]。在SWAT模型构建过程中, 集成了小清河的逐日水文监测数据、逐月水质监测数据以及其他必要的地理与环境数据, 将整个流域划分为80个子流域和471个水文响应单元。随后, 利用SWAT的自带插件SWAT-CUP对模型进行了率定与验证: 率定期为2009—2016年, 验证期为2017—2024年。模型的验证基于位于小清河入海口处羊口监测站的月度总氮通量观测数据, 相关的率定与验证结果详见表 1, 总氮实测值与SWAT模拟结果的对比如图 1所示。从图 1可以看出, SWAT模型模拟结果与实测值整体拟合较好, 能够较为准确地反映出总氮通量的季节性变化特征。在完成对月尺度数据的有效率定和验证的基础上, 用构建的SWAT模型对2009—2024年小清河入海总氮通量进行了日尺度的模拟计算。

表 1 SWAT模型率定与验证结果 Tab. 1 Results of calibration and validation of SWAT model
R2 NSE PBIAS
率定期 0.68 0.60 –25.7%
验证期 0.65 0.48 –0.24%
注: R2是决定系数; NSE是纳什效率系数; PBIAS是百分比偏差。

图 1 羊口站总氮模拟值和实测值对比 Fig. 1 Comparison of simulated and measured total nitrogen values at the Yangkou Station 注: 图中时间为非连续时间段(2009年1月–2010年6月、2014年4月–2017年7月、2018年1月–2019年12月、2021年1月–2022年12月), 已在横轴中做断轴处理
1.2 数据预处理

构建CNN模型所采用的输入数据主要包括气象数据(6个指标)、地形数据(8个指标)、土地利用(6个指标)、土壤类型(8个指标)、污染物排放数据(包括点源排放1个指标和面源排放3个指标), 模型的输出为小清河入海总氮通量。其中, 地形、土地利用和土壤类型被视为静态空间属性, 不随时间变化; 气象数据以日尺度时间序列的形式输入模型; 面源排放数据为年尺度时间序列, 包含生活和工业污水、畜禽养殖和农业施肥3类污染指标; 点源排放数据采用日平均排放量进行输入, 反映工业及城市污水处理厂的稳定排放过程。

由于输入特征之间存在不同的量纲和尺度差异, 可能会导致模型在权重更新过程中出现收敛困难或训练效率低下的问题。为提高模型训练的稳定性与收敛速度, 本文对所有输入数据进行了归一化处理, 采用Z-Score标准化方法, 将各特征值转换为具有相同均值和标准差的分布形式:

$ X^*=\left(X-\mu_X\right) / \sigma_X, $ (1)

式中: X*为归一化后的数据; X为原始数据; μX为均值; σX为标准差。

在模型构建过程中, 原始数据被划分为训练集与测试集。训练集用于模型参数的学习, 测试集用于评估模型的泛化能力与性能表现。若训练集样本量不足, 可能导致模型对噪声过度拟合; 而测试集比例过大则会降低有效训练样本的利用率。结合现有研究经验[25], 本研究将全部数据按8∶2的比例随机划分为训练集与测试集, 以在模型训练效果与数据利用效率之间取得平衡。

大型流域的河网在经过数字化之后, 其结构与马尔科夫链所描述的状态空间转换过程具有高度相似性。河流的流动过程符合马尔科夫性质, 即系统的下一状态仅依赖当前状态, 而与其历史状态无关。这种特性使得可以将流域河网的结构抽象为一个状态转移过程, 从而实现对流域空间结构的数字化建模。

基于上述思路, 本文将河流简化为1个N×N关系矩阵P。若子流域j是子流域i的最近下游空间单元, 则有H(i, j)=1; 否则, H(i, j)设置为0。如图 2所示, 矩阵P是基于马尔科夫链转移概率矩阵方法构建的河网关系矩阵, 可有效表达由多个子流域组成的上下游水文连接关系。由于流向关系是确定性的, 因此矩阵中的所有转移概率均为0或1。在此基础上, 将流域内的地形、气象、土地利用、土壤类型和氮排放等多源异构数据按照河网关系矩阵中河道的空间位置进行组织与填充, 每类数据对应一个通道, 多通道数据叠加后构成了用于模型输入的流域特征图像, 既保留了流域空间结构的水文连通性, 也实现了多源信息的融合表达。

图 2 流域河网关系矩阵 Fig. 2 Matrix of watershed stream network relationships 注: 本文所有流域地图是基于高程(DEM)、土地利用类型、土壤类型、河网等空间数据库, 在ArcSWAT平台上划分子流域和水文响应单元(HRU)所生成, 是基于公开空间数据自行分析和生成的模拟图。政区位置参考了《山东省地图》, 审图号鲁SG(2021)025号
1.3 CNN模型

卷积神经网络(CNN)是一种深度学习框架, 它主要由卷积层、池化层和全连接层组成(图 3)。卷积层通过卷积操作提取输入的特征, 使用多个卷积核来捕捉输入的局部依赖性和空间层次结构, 每个卷积核负责检测输入中的特定类型特征。池化层(或下采样层)则用于降低数据的空间维度和复杂性, 增强模型的泛化能力。通过堆叠多个卷积和池化层, CNN能够构建复杂的数据表征, 进而通过全连接层对这些特征进行分类或回归分析。

图 3 卷积神经网络结构 Fig. 3 Structure of a convolutional neural network

卷积层后的特征图大小计算公式为

$ N=(W-F+2 P) / S+1, $ (2)

式中: N为卷积后产生的特征图大小; W为输入矩阵大小; F为卷积核大小; P为填充大小; S为步长。

池化层后特征图大小计算公式为

$ N=[W+2 P-D(F-1)-1] / S+1, $ (3)

式中: D为通道数。

1.4 SHAP算法

CNN模型是一个具有大量参数的黑盒模型, 算法的透明性和可信度通常要借助于事后可解释方法进行分析。SHAP算法是一种以计算特征对模型输出的边际贡献为核心思想的事后解释的方法, 它利用博弈论中的Shapley值概念, 通过计算每个特征对模型输出结果的贡献程度, 量化每个特征在模型预测中的贡献。

对于模型中特征i的Shapley值的计算公式如下:

$ {\rm{ Shapley }}(i) = \sum\limits_{S \subseteq N\backslash i} {\frac{{S!(N - S - 1)!}}{{N!}}} [f(S\bigcup i ) - f(S)] $ (4)

式中: N表示所有特征的集合; S是不包含特征i的任何一个特征子集; f(S)是在S中具有特征的模型预测, f(Si)是具有S中的特征i的模型预测。SHAP值是Shapley值在机器学习模型解释中的实际应用形式, 借助高效算法实现对特征贡献的近似计算。

1.5 模型评价方法

模型预测结果采用纳什效率系数(NSE)和相关系数(R)来评价。这些指标的计算公式如下:

纳什效率系数(NSE):

$ {\rm{NSE}} = 1 - \frac{{\sum\limits_{i = 1}^n {{{\left( {{O_i} - {{\rm{P}}_i}} \right)}^2}} }}{{\sum\limits_{i = 1}^n {{{\left( {{O_i} - \bar O} \right)}^2}} }}. $ (5)

相关系数(R):

$ R = \sum\limits_{i = 1}^n {\frac{{\left( {{O_i} - \bar O} \right)\left( {{P_i} - \bar P} \right)}}{{\sqrt {\sum\limits_{i = 1}^n {{{\left( {{O_i} - \bar O} \right)}^2}} \sum\limits_{i = 1}^n {{{\left( {{P_i} - \bar P} \right)}^2}} } }}} , $ (6)

式中: Oi为实际值; Pi为模型预测值; OP分别代表实际值和预测值的平均值。由于深度学习模型的参数训练具有一定的随机性, 因此选择分别训练3次后的评价指标的平均值作为最终的模型结果。

1.6 模型结构与超参数设置

本研究采用马尔科夫链转移概率矩阵的方法, 对各个指标的输入数据进行重新整合, 形成了一个尺寸为80×80×32的三维输入数据, 以此作为CNN模型的输入。作为对比, 我们还将输入数据按子流域编号整合为80×32的二维输入方式。在二维输入方式中, 每一行代表一个子流域, 每一列对应一个指标。这种方式不考虑子流域之间的相互关系, 因此每个子流域的指标数据是独立的。模型的主要结构流程如图 4所示。

图 4 模型流程图 Fig. 4 Model flow chart

硬件环境配置为Intel i7-12700H处理器, 配备NVIDIA GeForce RTX3060显卡(6GB显存)和16GB内存。模型使用Python3.9进行编程实现, 采用TensorFlow作为深度学习框架。超参数的优化采用贝叶斯搜索方法, 经过优化后得到的学习率为0.0026, 正则化丢弃率为0.65, 优化算法选用Adamax, 激活函数为ReLU。

2 结果与分析 2.1 模型效果评估

基于两种不同的输入结构, 分别构建了入海总氮通量预测的卷积神经网络(CNN)模型, 评价结果如表 2所示。通过对入海总氮通量的预测, CNN模型在处理大量数据时展现出了良好的拟合效果。其中, 基于马尔科夫链转移概率矩阵的三维输入方法在拟合效果上明显优于二维输入方法。在训练集上, 三维输入方法的纳什效率系数(NSE)和相关系数(R)分别达到了0.98和0.99, 均高于二维输入方法的0.89(NSE)和0.92(R), 这表明三维输入方法在捕捉数据中的空间结构和多层次特征方面表现更佳。具体来看, 三维输入方法相对于普通的二维输入方法, 在训练集上, NSE提升了约10.11%, R提升了约7.61%; 在测试集上, NSE提升了约5.68%, R提升了约4.35%。

表 2 模型结果 Tab. 2 Model results
输入方式 纳什效率系数(NSE) 相关系数(R)
训练集 测试集 训练集 测试集
80×80×32 0.98 0.93 0.99 0.96
80×32 0.89 0.88 0.92 0.92

与其他相关研究相比, 例如徐洁等[32]对多个河流断面进行的总氮通量预测研究, 以及武暕等[33]对辽宁省入海河流总氮浓度的预测研究, 本研究通过采用CNN模型对入海总氮通量的预测, 获得了更高的结果精度。这些提升反映出三维输入方法能够有效利用更丰富的信息进行特征提取, 进而提升了预测性能和模型的泛化能力。

此外, 使用三维矩阵表示数据使得CNN模型能够更好地处理复杂的数据模式, 从而显著提高了模型的效果和精度。图 5给出了小清河入海总氮通量的模拟值与实测值对比。从图中可以看出, 模型预测结果与实测数据整体趋势高度一致, 尤其在高值和突变点处仍能保持较好的拟合度, 进一步验证了CNN模型在入海总氮通量预测中的有效性。这些结果表明, 基于马尔科夫链转移概率矩阵的三维输入结构充分发挥了CNN模型处理多维数据的优势[34]

图 5 小清河入海总氮通量模拟值和实测值对比 Fig. 5 Comparison of simulated and measured total nitrogen fluxes of the Xiaoqing River
2.2 驱动因素重要性及影响分析

在本研究中, 采用SHAP的DeepExplainer方法来计算每个变量和每个空间位置的SHAP值, 量化不同变量及空间位置对模型预测结果的影响。SHAP值的绝对值越大, 表示该变量对模型输出的贡献越大。

图 6展示了SHAP值不为0的输入变量的重要性。从图中可以看出, 降水(P)是影响入海总氮通量的最主要因素, 其次是风速(W)和最低温度(Tmin), 其中降水的特征重要性显著高于其他变量。在非点源污染中, 畜禽养殖氮排放(LW)是最具代表性的影响因子, 其次是农业施肥量(AF)。而地形、土地利用类型、土壤性质等静态变量由于不随时间变化, 其SHAP值均为0。这是因为CNN模型主要依赖输入变量的时序特征进行学习, 而这些静态变量仅在空间维度存在差异, 缺乏动态变化信息, 难以为模型提供有效的时变特征, 从而对预测结果影响有限。气象因素在模型中表现出更高的重要性, 主要得益于其强时效性和高时间分辨率。气象数据具有日尺度的连续变化, 能够更好地捕捉入海总氮通量的短期动态。而非点源污染数据多以年为单位记录, 序列波动较小, 短期变化不明显, 这限制了其在模型中对预测的即时响应能力。

图 6 不同驱动因素的SHAP值及相关系数 Fig. 6 SHAP values and correlation coefficients of different drivers

为了进一步验证SHAP分析的结果, 本文计算了各输入变量与入海总氮通量之间的Pearson相关系数(图 7), 以刻画变量之间的线性关系。结果显示, 降水(P)与总氮通量的线性相关性最高, 其次为相对湿度(R)、最低温度(Tmin)和风速(W)。在非点源排放中, 农业施肥量(AF)与入海总氮通量的相关性高于畜禽养殖(LW), 而农村生活污水(DW)的相关性最低。图 7还补充了变量之间的相关性结构。我们发现, 最高温度(Tmax)和最低温度(Tmin)之间存在较强相关性, 可能会导致模型中出现多重共线性问题, 从而影响特征权重的分配。

图 7 总氮通量影响因素的皮尔逊相关性热图 Fig. 7 Pearson correlation heat map of factors influencing total nitrogen fluxes

图 8展示了SHAP值随降水和最高温度变化的交互变化图。横坐标和色带分别代表经过归一化后的降水值和最高温度, 纵坐标表示SHAP值。其中图 8(a)显示, 降水量越大, 其SHAP值越高, 表明其对总氮通量的贡献持续增强, 尤其在极端降水事件下影响更为显著, 这也解释了为何图 6中的降水具有最高的平均SHAP值。图 8(b)则表明, 最高温度对SHAP值的影响没有明显的单调变化趋势, 说明其作用可能更为复杂, 受其他变量调控。

图 8 降水(P)与最高温度(Tmax)的交互变化图 Fig. 8 Interaction diagram of rainfall and maximum temperature

结合SHAP和Pearson相关系数的分析结果, 降水被一致认为是最关键的驱动因素, 这也与大量已有研究结果一致[35-38]。降水会直接增加地表径流, 促进氮素从农业面源、污染源区域向水体迁移[39-40]。在强降水条件下, 溶解态氮和颗粒态氮更易被冲刷进河道, 从而提高了入海总氮通量。温度同样是重要影响因子。SHAP分析显示, 最低温度对模型的影响更为显著, 可能是由于生物化学反应速率对最低温度更敏感[38, 41], 在低温条件下, 氮素的矿化、硝化和反硝化过程可能发生显著变化, 进而影响氮的迁移与转化路径。而Pearson结果中, 最高温度和最低温度的相关性较高(图 7), 这可能导致CNN模型在评估特征重要性时偏向选择具有更非线性特征的最低温度, 从而避免多重共线性带来的不确定性[42]。在非点源污染中, 农村生活污水的入海总氮通量SHAP权重和Pearson相关性都是最低的, 这主要由于其总排放量相对较小, 对总氮通量的实际贡献有限[43]

综上所述, CNN模型在预测入海总氮通量时, 对时间动态性强的变量表现出更高敏感度, 尤其是降水、温度等气象因子和非点源排放的动态数据。而模型在处理静态变量方面能力有限, 这提示我们在未来的建模中, 可以考虑引入动态地表信息(如遥感数据或时序土地利用变化)以提升模型的综合表达能力和预测准确性。

2.3 空间特征影响的SHAP分析

基于采用三维输入方式的CNN模型, 进一步计算了小清河各子流域的空间平均SHAP值, 结果如图 9所示。分析结果表明, 各影响因素在空间尺度上对入海总氮通量的贡献存在显著差异。对入海总氮通量影响程度较大的区域主要集中在中部和西部, 包括淄博市张店区附近的55号与57号子流域, 以及济南市历城区附近的53号与54号子流域。张店区和历城区均为区域内人口集中、城市化程度较高的城区, 城市生活污水和工业废水排放量大, 为氮素输入提供了持续来源; 并且这些区域周边农业种植密集, 农田施肥量较高, 降雨后农业面源污染更易进入水体。

图 9 小清河空间SHAP分布 Fig. 9 Spatial SHAP distribution of the Xiaoqing River

每个子流域对入海总氮通量的影响是多因素共同控制的, 受到多方面的影响。图 10展示了小清河入海总氮通量影响最大的2个气象因素的空间SHAP分布。其中降水的贡献主要体现在流域中部和西部, 风速的贡献主要体现在西部。

图 10 小清河降水与风速空间SHAP分布 Fig. 10 Spatial SHAP distribution of rainfall and wind speed over the Xiaoqing River

图 11展示了小清河3类非点源污染(生活污水、畜禽养殖和农业施肥)的平均日负荷空间分布图, 以及相应的空间SHAP值。从对比结果可以看出, 实际排放负荷的空间分布与其对入海总氮通量影响的SHAP值之间存在显著异质性, 说明非点源排放对总氮通量的影响不仅仅取决于排放强度, 还受到多种环境和过程因素的共同作用。

图 11 小清河不同污染源的平均日负荷空间分布与其SHAP值对比 Fig. 11 Comparison between the average daily load spatial distribution and the SHAP value of different pollution sources in the Xiaoqing River 注: 上述所有排放单位为t/d

首先, 非点源污染本身具有分布广泛、排放随机和受环境制约强等特征, 其空间分布往往受到土地利用类型、气候条件、地形地貌等因素的综合影响[44-45]。其次, 气候变化也是影响氮素迁移与转化的重要驱动因素, 温度升高和降水模式的改变可能通过调节土壤微生物活性而影响氮循环过程[37]。例如, 极端降雨事件可导致地表径流迅速增强, 进而引发氮素在短时间内大量流失, 显著抬升入海总氮通量[46]。这种现象也在图 8中得到佐证: 图 8(a)展示了极端降雨下SHAP值显著升高的趋势, 图 8(b)则揭示了降水与温度之间的交互作用。

对比排放负荷与SHAP分布可以发现, 在部分区域, 排放强度较高的子流域也对应了较高的SHAP值, 这说明该区域排放对总氮通量具有显著贡献。例如, 35号子流域位于淄博市中心城区下游, 流经周村区和张店区等人口密集区域, 生活污水排放量大, 氮输入负荷显著; 13号子流域覆盖淄博市高青县, 该县为典型的畜禽养殖大县, 畜禽养殖活动频繁, 氮排放强度高; 49号子流域地处临淄区东部与寿光市西部交界区域, 该地以蔬菜大棚农业为主, 农业施肥强度大, 是典型的农业面源污染高发区。这些子流域因其排放源强大, 导致对应的SHAP值明显升高, 说明其对入海总氮通量的影响不仅在排放量层面上显著, 也在模型中体现出较强的驱动效应。这一结论与李运东[47]的研究结果相一致, 进一步验证了本研究模型对关键影响因子的准确识别能力。

然而, 并非所有排放量大的区域都对入海总氮通量有显著贡献。如历城区西南部的73、74、75号等上游子流域虽然具有较高的污染源强, 但由于其距离入海口较远, 氮素在向下游输运过程中受到沉降、吸附、植物吸收、反硝化等多种物理和生物过程的影响, 浓度逐步衰减, 从而削弱了其最终对入海总氮通量的影响[48]

相反, 部分距离入海较远的区域如济南市中心的54、59和61号子流域, 其空间SHAP值却较高。这种现象主要与当地气象条件密切相关。如图 7图 8所示, 强降水事件在这些子流域频发, 加剧了地表径流强度, 从而加速了氮素从源区向河道的迁移过程, 即便源强一般, 其输送效率却显著增强[49]。这表明, 水动力过程与气象条件的空间异质性会改变氮素排放与其实际入海影响之间的传统认知关系。

综上所述, CNN模型借助SHAP方法所揭示的空间影响结构, 不仅反映了排放源强的直接贡献, 还捕捉到了污染物输运路径、气象条件、空间位置等多重因素对入海总氮通量的复合作用机制。这也体现出深度学习模型在非线性特征提取和复杂过程识别方面的独特优势, 能够更全面地揭示非点源污染在流域尺度下的真实影响过程[50], 为流域污染治理和区域优化配置提供了有力支持。

3 结论

(1) 基于马尔科夫链中生成转移概率矩阵方法创建的三维输入结构, 更适合CNN模型处理复杂的数据模式, 有效提高了CNN模型利用多种入海总氮影响因素对入海总氮通量预测的效果和精度。

(2) 在众多入海总氮通量影响因素中, 降水是影响入海总氮通量变化的最重要的特征。

(3) 对小清河入海总氮通量影响程度较大的区域主要集中在中部淄博市区和西部济南市区。每个子流域对入海总氮通量的影响是多因素共同控制的, 受到污染物排放、气象因素等多方面的影响, 并且多因素的叠加影响会显著改变原有区域间的排放特征。

参考文献
[1]
陈弘, 周庆琛, 佟光远, 等. 水体富营养化响应规律与水华预警方法研究进展[J]. 中国农村水利水电, 2024(7): 117-125, 134.
CHEN Hong, ZHOU Qingchen, TONG Guangyuan, et al. Progress of research on eutrophication response law and early warning method of water bloom in water bodies[J]. China Rural Water and Hydropower, 2024(7): 117-125, 134.
[2]
禹姝含, 张熙堂, 张宇轩, 等. 莱州湾入海河流总氮来源及季节性变化成因解析: 以弥河为例[J]. 环境科学研究, 2024, 37(7): 1423-1434.
YU Shuhan, ZHANG Xitang, ZHANG Yuxuan, et al. Analysis of the sources and seasonal variations of total nitrogen in the river entering the Laizhou Bay[J]. Research of Environmental Sciences, 2024, 37(7): 1423-1434.
[3]
张燕, 雷强, 孙燕, 等. 抚河流域氮磷浓度时空分布特征及污染状况评价[J]. 人民长江, 2024, 55(11): 96-101, 118.
ZHANG Yan, LEI Qiang, SUN Yan, et al. The spatiotemporal distribution characteristics of ammonia nitrogen and total phosphorus concentrations and pollution assessment in Fuhe River Basin[J]. Yangtze River, 2024, 55(11): 96-101, 118.
[4]
谌霞, 李德鸿, 蔡焕杰, 等. 中国河流及湾区河口中微塑料的赋存输运特性[J]. 中国环境科学, 2024, 44(11): 6341-6353.
SHEN Xia, LI Dehong, CAI Huanjie, et al. Distribution characteristics and transport patterns of microplastics in rivers and estuaries of China: a review.[J]. China Environmental Science, 2024, 44(11): 6341-6353.
[5]
BAI Y C, XU Z F, LAN W L, et al. Predicting coastal water quality with machine learning, a case study of Beibu Gulf, China[J]. Water, 2024, 16(16): 2253. DOI:10.3390/w16162253
[6]
ALIZADEH M J, KAVIANPOUR M R, DANESH M, et al. Effect of river flow on the quality of estuarine and coastal waters using machine learning models[J]. Engineering Applications of Computational Fluid Mechanics, 2018, 12(1): 810-823. DOI:10.1080/19942060.2018.1528480
[7]
生态环境部. 2023年中国生态环境状况公报(摘录)[J]. 环境保护, 2024, 52(11): 53-65.
Ministry of Ecology and Environment. China Ecological Environment Status Bulletin 2023(Excerpt)[J]. Environmental Protection, 2024, 52(11): 53-65.
[8]
CHEN Y, SUN Y, SHI H Y, et al. Environmental capacity and fluxes of land-sourced pollutants around the Leizhou Peninsula in the summer[J]. Frontiers in Marine Science, 2023, 10: 1280753. DOI:10.3389/fmars.2023.1280753
[9]
LIN F, REN H L, QIN J S, et al. Analysis of pollutant dispersion patterns in rivers under different rainfall based on an integrated water-land model[J]. Journal of Environmental Management, 2024, 354: 120314. DOI:10.1016/j.jenvman.2024.120314
[10]
PENG K, LI J K, ZHOU X, et al. Simulation and control of non-point source pollution based on MIKE model: A case study of Danjiang river basin, China[J]. Ecohydrology & Hydrobiology, 2023, 23(4): 554-568.
[11]
ABDOLABADI H, LATIF S D. Trophic predictability analysis: Employing constancy and contingency―A case study of Ilam reservoir[J]. Journal of Cleaner Production, 2024, 471: 143325. DOI:10.1016/j.jclepro.2024.143325
[12]
LI L, RONG S M, WANG R, et al. Recent advances in artificial intelligence and machine learning for nonlinear relationship analysis and process control in drinking water treatment: A review[J]. Chemical Engineering Journal, 2021, 405: 126673. DOI:10.1016/j.cej.2020.126673
[13]
POURMORAD S, KABOLIZADE M, DIMUCCIO L A. Artificial intelligence advancements for accurate groundwater level modelling: An updated synthesis and review[J]. Applied Sciences-Basel, 2024, 14(16): 7358. DOI:10.3390/app14167358
[14]
PANDYA H, JAISWAL K, SHAH M. A Comprehensive review of machine learning algorithms and its application in groundwater quality prediction[J]. Archives of Computational Methods in Engineering, 2024, 31(8): 4633-4654. DOI:10.1007/s11831-024-10126-2
[15]
YANG N, WANG C, LI X F. Evaluation of precipitation forecasting methods and an advanced lightweight model[J]. Environmental Research Letters, 2024, 19(9): 094006. DOI:10.1088/1748-9326/ad661f
[16]
MA J, HE Y T, LI F F, et al. Segment anything in medical images[J]. Nature Communications, 2024, 15(1): 654. DOI:10.1038/s41467-024-44824-z
[17]
MERCHANT A, BATZNER S, SCHOENHOLZ S S, et al. Scaling deep learning for materials discovery[J]. Nature, 2023, 624(7990): 80. DOI:10.1038/s41586-023-06735-9
[18]
HONG D F, ZHANG B, LI H, et al. Cross-city matters: A multimodal remote sensing benchmark dataset for cross-city semantic segmentation using high-resolution domain adaptation networks[J]. Remote Sensing of Environment, 2023, 299: 113856. DOI:10.1016/j.rse.2023.113856
[19]
REN H J, XIA M, WENG L G, et al. Dual-attention- guided multiscale feature aggregation network for remote sensing image change detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17: 4899-4916. DOI:10.1109/JSTARS.2024.3362370
[20]
SHEN C P. A Transdisciplinary review of deep learning research and its relevance for water resources scientists[J]. Water Resources Research, 2018, 54(11): 8558-8593. DOI:10.1029/2018WR022643
[21]
VARADHARAJAN C, APPLING A P, ARORA B, et al. Can machine learning accelerate process understanding and decision-relevant predictions of river water quality?[J]. Hydrological Processes, 2022, 36(4): e14565. DOI:10.1002/hyp.14565
[22]
CAO H Y, HAN L, LI L Z. A deep learning method for cyanobacterial harmful algae blooms prediction in Taihu Lake, China[J]. Harmful Algae, 2022, 113: 102189. DOI:10.1016/j.hal.2022.102189
[23]
PYO J, PARK L J, PACHEPSKY Y, et al. Using convolutional neural network for predicting cyanobacteria concentrations in river water[J]. Water Research, 2020, 186: 116349. DOI:10.1016/j.watres.2020.116349
[24]
QUANG V L, XUAN C N, LE N C, et al. Application of machine learning for eutrophication analysis and algal bloom prediction in an urban river: A 10-year study of the Han River, South Korea[J]. Science of the Total Environment, 2021, 797: 149040. DOI:10.1016/j.scitotenv.2021.149040
[25]
ZHI W, APPLING A P, GOLDEN H E, et al. Deep learning for water quality[J]. Nature Water, 2024, 2(3): 228-241. DOI:10.1038/s44221-024-00202-z
[26]
HONG S M, CHO K H, PARK S, et al. Estimation of cyanobacteria pigments in the main rivers of South Korea using spatial attention convolutional neural network with hyperspectral imagery[J]. GIScience & Remote Sensing, 2022, 59(1): 547-567.
[27]
WANG S, PENG H, HU Q, et al. Analysis of runoff generation driving factors based on hydrological model and interpretable machine learning method[J]. Journal of Hydrology: Regional Studies, 2022, 42: 101139. DOI:10.1016/j.ejrh.2022.101139
[28]
YANG S W, LIANG R F, CHEN J G, et al. Estimating the water quality index based on interpretable machine learning models[J]. Water Science and Technology, 2024, 89(5): 1340-1356. DOI:10.2166/wst.2024.068
[29]
RAHMANI P, GHOLAMI H, GOLZARI S. An interpretable deep learning model to map land subsidence hazard[J]. Environmental Science and Pollution Research, 2024, 31(11): 17372-17386. DOI:10.1007/s11356-024-32339-5
[30]
王一诺, 关纬城, 邹立, 等. 环莱州湾主要河口氮磷组成特征及其输送贡献[J]. 海洋环境科学, 2023, 42(5): 684-692.
WANG Yinuo, GUAN Weicheng, ZOU Li, et al. Composition and transport of nitrogen and phosphorus in the main estuaries around Laizhou Bay[J]. Marine Environmental Science, 2023, 42(5): 684-692.
[31]
胡勤. 基于CMAQ-SWAT模型的大气氮沉降对河流水质影响研究[D]. 青岛: 中国海洋大学, 2022.
HU Qin. Study on the impact of atmospheric nitrogen deposition on river water quality based on CMAQ- SWAT model[D]. Qingdao: Ocean University of China, 2022.
[32]
徐洁, 耿伯彰, 娄英斌, 等. 基于LSTM模型的地表水总氮预测模型[J]. 中国环境监测, 2025, 41(2): 63-68.
XU Jie, GENG Bozhang, LOU Yingbin, et al. A surface water total nitrogen prediction model based on the LSTM Network[J]. Environmental Monitoring in China, 2025, 41(2): 63-68.
[33]
武暕, 赵奎, 刘佳奇, 等. 辽宁省入海河流总氮浓度时空变化特征及风险预测[J]. 环境保护与循环经济, 2023, 43(10): 84-87.
WU Jian, ZHAO Kui, LIU Jiaqi, et al. Temporal and spatial variation characteristics and risk prediction of total nitrogen concentration in seaward rivers in Liaoning Province[J]. Environmental Protection and Circular Economy, 2023, 43(10): 84-87.
[34]
PYO J, PARK L J, PACHEPSKY Y, et al. Using convolutional neural network for predicting cyanobacteria concentrations in river water[J]. Water Research, 2020, 186: 116349. DOI:10.1016/j.watres.2020.116349
[35]
WHITEHEAD P G, WILBY R L, BATTARBEE R W, et al. A review of the potential impacts of climate change on surface water quality[J]. Hydrological Sciences Journal, 2009, 54(1): 101-123. DOI:10.1623/hysj.54.1.101
[36]
WANG Y Y, XU H, ZHAO X C, et al. Rainfall impacts on nonpoint nitrogen and phosphorus dynamics in an agricultural river in subtropical montane reservoir region of southeast China[J]. Journal of Environmental Sciences (China), 2025, 149: 551-563. DOI:10.1016/j.jes.2024.02.012
[37]
郑佳琦. 长江黄河流域氮磷通量时空变化规律及关键驱动因素研究[D]. 北京: 中国环境科学研究院, 2023.
ZHENG Jiaqi. Temporal and spatial variations of nitrogen and phosphorus fluxes and key driving factors in the Yangtze and Yellow River Basins[D]. Beijing: Chinese Research Academy of Environmental Sciences, 2023.
[38]
周波, 李晓光, 童思陈, 等. 辽河流域氮素时空分布及其对土地利用和降水的响应[J]. 环境科学, 2024, 45(4): 2373-2384.
ZHOU Bo, LI Xiaoguang, TONG Sichen, et al. Spatial and temporal distribution of nitrogen in the Liaohe river basin and its responses to land use and rainfall[J]. Environmental Science, 2024, 45(4): 2373-2384.
[39]
冯冰聪, 马杰, 刘勇, 等. 氮素在农田土壤中迁移转化的研究进展[J]. 农业资源与环境学报, 2025, 42(2): 277-287.
FENG Bingcong, MA Jie, LIU Yong, et al. Research progress of nitrogen transport and transformation in farmland soils[J]. Journal of Agricultural Resources and Environment, 2025, 42(2): 277-287.
[40]
JUNG J W, LIM S S, KWAK J H, et al. Further understanding of the impacts of rainfall and agricultural management practices on nutrient loss from rice paddies in a Monsoon area[J]. Water Air and Soil Pollution, 2015, 226(9): 283. DOI:10.1007/s11270-015-2551-y
[41]
阳立平, 曾凡棠, 黄海明, 等. 氮在环境介质中的迁移转化研究进展[J]. 水资源保护, 2014, 30(5): 1-8.
YANG Liping, ZENG Fantang, HUANG Haiming, et al. Advances in research of migration and transformation of nitrogen in environmental media[J]. Water Resources Protection, 2014, 30(5): 1-8.
[42]
赵鑫. 基于多重共线性消除-反向传播神经网络模型的大数据旅游需求预测研究[D]. 南宁: 广西大学, 2024.
ZHAO Xin. Research on big data tourism demand prediction based on multicollinearity elimination-backpropagation neural network model[D]. Nanning: Guangxi University, 2024.
[43]
张璐瑶, 岳甫均, 李军, 等. 莱州湾入海河流河口氮来源及转化过程的同位素解析[J]. 中国环境科学, 2025, 54(2): 981-990.
ZHANG Luyao, YUE Fujun, LI Jun. Isotopic analysis of nitrogen sources and transformation processes in estuaries of coastal rivers entering in the Laizhou Bay[J]. China Environmental Science, 2025, 54(2): 981-990.
[44]
王琼, 姜德娟, 于靖, 等. 小清河流域氮磷时空特征及影响因素的空间与多元统计分析[J]. 生态与农村环境学报, 2015, 31(2): 137-145.
WANG Qiong, JIANG Dejuan, YU Jing, et al. Spatio- temporal distribution of nitrogen and phosphorus and spatial and multi-variable statistical analysis of its impacting factors in Xiaoqinghe watershed[J]. Journal of Ecology and Rural Environment, 2015, 31(2): 137-145.
[45]
杨三红, 张芸香, 郭晋平. 三种典型山地河岸林土壤氮含量时空格局对高地氮输入的响应[J]. 山地学报, 2022, 40(5): 648-660.
YANG Sanhong, ZHANG Yunxiang, GUO Jinping. Spatial-temporal responses of soil nitrogen in three typical mountain riparian forests to upland nitrogen input[J]. Mountain Research, 2022, 40(5): 648-660.
[46]
王晟. 极端降水条件下水稻田氮、磷径流流失特征与影响因素探究[D]. 昆明: 云南大学, 2019.
WANG Sheng. Study on characteristics and influencing factors of nitrogen and phosphorus runoff loss in rice field under extreme rainfall conditions[D]. Kunming: Yunnan University, 2019.
[47]
李运东. 基于深度学习+耦合模型的城市河流水质模拟与减排方案研究[D]. 哈尔滨: 哈尔滨工业大学, 2024.
LI Yundong. Deep learning + integrated model based urban river water quality simulation and emission reduction research[D]. Harbin: Harbin Institute of Technology, 2024.
[48]
闫雅妮, 廖曼, 王智真, 等. 河岸带介质中硝态氮衰减机制的实验研究[J]. 桂林理工大学学报, 2020, 40(1): 218-223.
YAN Yani, LIAO Man, WANG Zhizhen, et al. Experimental study on the attenuation mechanism of nitrate in riparian zone medium[J]. Journal of Guilin University of Technology, 2020, 40(1): 218-223.
[49]
刘新茹, 杜新忠, 刘晓荣, 等. 典型降雨事件下流域氮素输出特征与影响因素研究[J]. 中国环境科学, 2025, 45(2): 1027-1035.
LIU Xinru, DU Xinzhong, LIU Xiaorong, et al. Study on the characteristics and influencing factors of nitrogen output in watershed under typical rainfall events[J]. China Environmental Science, 2025, 45(2): 1027-1035.
[50]
KWON D H, HONG S M, ABBAS A, et al. Deep learning-based super-resolution for harmful algal bloom monitoring of inland water[J]. GIScience & Remote Sensing, 2023, 60(1): 2249753.