流域特征和气候变量(例如地形、土壤、气候数据)也会影响河流水质。例如,陡坡可能会通过将污染物转移到溪流中来影响溪流水质,从而导致水质恶化。同样,土壤特性也会影响水质。例如,以母岩为主的流域显示出较低的溶解离子值;另一方面,软沉积岩显示出较高的溶解离子值。此外,在沉积物沉积量高的流域,河流中的磷含量很高。不同的流域特征可能会影响水质,因为它们会影响动员过程和指标向河流的传递
有两种常用的建模策略可用于预测未计量流域中的河流水质:
(1) 基于物理的确定性模型(例如,分布式水文和水质模型)
(2) 统计和机器学习方法(例如,决策树模型) )。
流域特征对水质指标的影响往往是复杂和非线性的。最近的机器学习算法可以处理与复杂流域过程相关的非线性关系
此外,RF 和 BRT 算法
(1) 的用户定义参数较少;
(2) 灵活处理非线性关系、缺失值和异常值;
(3) 可以限制模型过拟合;
(4) 能够结合定性和定量变量;
(5) 已在不同领域成功应用
本研究旨在解决以下研究问题:
(1)比较和确定基于分类和决策树方法的最佳机器学习算法,用于河流中的水质(TN、TP 和 TUR)预测;
(2) 基于解释性机器学习技术(即部分依赖分析)研究影响河流水质的主要变量之间的函数关系和相互作用。
研究区
研究包括位于北卡罗来纳州、南卡罗来纳州和乔治亚州的 97 个流域
数据选择
仅根据以下标准选择了 97 个流域: (1) 不包括嵌套流域,以避免污染物从其他流域转移;(2) 水库覆盖流域面积超过 25% 的流域被剔除; (3) 位于水库出口下游 50 公里以内的水质站被剔除。
变量的选择
使用逐步线性回归 (SR) 来选择提供最佳线性组合的最少相关变量然而,SR 可能存在统计缺陷,例如偏差估计、标准误差和 p 值大小;因此,最小绝对收缩和选择算子 (LASSO) 也用于变量选择。LASSO 使用交叉验证技术来找到一组具有最佳性能的重要变量;如果与另一个变量有很强的相关性,LASSO 会将回归系数缩小到零。此外,还包括了一种非线性方法(遗传算法,GA)来选择最重要的气候/流域特征。GA 是一种自适应优化搜索方法,它模仿达尔文的自然选择理论来寻找函数的最优值。根据 (Welikala et al., 2015 )的建议,为 GA 定义了三个标准参数设置,种群大小为 50,交叉率为 0.80,突变率为 0.1 。基于四个不同数据集的相关变量用于开发基于 RF 和 BRT 算法的预测模型。
部分依赖
部分依赖的概念旨在量化主要预测因子与河流中水质指标之间的函数关系。通过整合除感兴趣的协变量之外的所有预测变量的影响来评估部分依赖性
模型验证
每个水质指标的最终模型使用三个统计量度进行评估:Nash-Sutcliffe 效率 (NSE)、平均绝对误差 (MAE) 和均方根误差 (RMSE)