使用增强回归树和随机森林模型进行溪流水质预测--文献阅读

 

流域特征和气候变量(例如地形、土壤、气候数据)也会影响河流水质。例如,陡坡可能会通过将污染物转移到溪流中来影响溪流水质,从而导致水质恶化。同样,土壤特性也会影响水质。例如,以母岩为主的流域显示出较低的溶解离子值;另一方面,软沉积岩显示出较高的溶解离子值。此外,在沉积物沉积量高的流域,河流中的磷含量很高。不同的流域特征可能会影响水质,因为它们会影响动员过程和指标向河流的传递

有两种常用的建模策略可用于预测未计量流域中的河流水质:

(1) 基于物理的确定性模型(例如,分布式水文和水质模型)

(2) 统计和机器学习方法(例如,决策树模型) )。

流域特征对水质指标的影响往往是复杂和非线性的。最近的机器学习算法可以处理与复杂流域过程相关的非线性关系

此外,RF 和 BRT 算法

(1) 的用户定义参数较少;

(2) 灵活处理非线性关系、缺失值和异常值;

(3) 可以限制模型过拟合;

(4) 能够结合定性和定量变量;

(5) 已在不同领域成功应用

本研究旨在解决以下研究问题:

(1)比较和确定基于分类和决策树方法的最佳机器学习算法,用于河流中的水质(TN、TP 和 TUR)预测;

(2) 基于解释性机器学习技术(即部分依赖分析)研究影响河流水质的主要变量之间的函数关系和相互作用。

研究区

研究包括位于北卡罗来纳州、南卡罗来纳州和乔治亚州的 97 个流域

数据选择

仅根据以下标准选择了 97 个流域: (1) 不包括嵌套流域,以避免污染物从其他流域转移;(2) 水库覆盖流域面积超过 25% 的流域被剔除; (3) 位于水库出口下游 50 公里以内的水质站被剔除。

变量的选择

使用逐步线性回归 (SR) 来选择提供最佳线性组合的最少相关变量然而,SR 可能存在统计缺陷,例如偏差估计、标准误差和 p 值大小;因此,最小绝对收缩和选择算子 (LASSO) 也用于变量选择。LASSO 使用交叉验证技术来找到一组具有最佳性能的重要变量;如果与另一个变量有很强的相关性,LASSO 会将回归系数缩小到零。此外,还包括了一种非线性方法(遗传算法,GA)来选择最重要的气候/流域特征。GA 是一种自适应优化搜索方法,它模仿达尔文的自然选择理论来寻找函数的最优值。根据 (Welikala et al., 2015 )的建议,为 GA 定义了三个标准参数设置,种群大小为 50,交叉率为 0.80,突变率为 0.1 。基于四个不同数据集的相关变量用于开发基于 RF 和 BRT 算法的预测模型。 

部分依赖

部分依赖的概念旨在量化主要预测因子与河流中水质指标之间的函数关系。通过整合除感兴趣的协变量之外的所有预测变量的影响来评估部分依赖性

模型验证

每个水质指标的最终模型使用三个统计量度进行评估:Nash-Sutcliffe 效率 (NSE)、平均绝对误差 (MAE) 和均方根误差 (RMSE)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/434893.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习在地质灾害的文章--文献阅读

第一篇 Improved landslide assessment using support vector machine with bagging, boosting, and stacking ensemble machine learning framework in a mountainous watershed, Japan | SpringerLinkHeavy rainfall in mountainous terrain can trigger numerous landslide…

NYOJ88(数论)

题意明确,让计算出起始有m个金片的汉诺塔金片全部移动到另外一个针上时需要移动的最少步数是多少?(由于结果太大,现在只要求算出结果的十进制位最后六位) 解题思路:大家都很熟悉汉诺塔求移动次数公式为f(n1…

机器学习在水文地质方面的文章--文献阅读

第一篇 Ensemble machine learning paradigms in hydrology: A review - ScienceDirecthttps://www.sciencedirect.com/science/article/pii/S0022169421003139?via%3Dihub第二篇 Stream water quality prediction using boosted regression tree and random forest models …

基于集成学习的不平衡数据集分类问题研究--文献阅读

参考文献 基于集成学习的不平衡数据集分类问题研究 - 中国知网https://kns.cnki.net/kcms/detail/detail.aspx?dbcodeCMFD&dbnameCMFD202201&filename1021697818.nh&uniplatformNZKPT&vK9J_5NETTyZXPhDr5D6KwISCv2zm0skRm7rEZ0KmYS0Yv_zs562Re8oiwR5h_ylK 文…

[读书笔记]TCP/IP详解V1读书笔记-1

TCP数据单元:tcp segment UDP数据单元:udp datagram IP数据单元:IP datagram 链路层单元:frame --------------------------------------- 应用层: SMTP:简单邮件传输协议 FTP:文件传输协议 DNS…

pandas划分数据

1.根据列位置划分 execldata pd.read_excel(filepath) # 获取列数 bandscount execldata.shape[1] #去除最后一列数据类别 bandscount bandscount - 1 classifypointdata execldata[:, 0:bandscount] classifypointlabel execldata[:, -1] 2.根据字段名称进行划分 exec…

python 程序停止打印日志_停止 Spring Boot 服务的几种优雅姿势

在使用 Spring Boot 的时候,都要涉及到服务的停止和启动,当我们停止服务的时候,很多时候大家都是 kill -9 直接把程序进程杀掉,这样程序不会执行优雅的关闭。而且一些没有执行完的程序就会直接退出。我们很多时候都需要安全的将服…

批量导出部分依赖图(PDP)

部分依赖图 (PDP) 和个体条件期望 (ICE) 图可用于可视化和分析目标响应1与一组感兴趣的输入特征之间的交互。 部分依赖图 (PDP) 显示了目标响应与一组感兴趣的输入特征之间的依赖关系,边缘化了所有其他输入特征(“补充”特征)的值。直观地说…

arcgis已知两点投影坐标求距离

问题: 已知中心点坐标,求个点与中心点坐标的距离 解决方法如下: 新建字段 在新建字段上右键字段计算器 利用字段计算器进行两点间距离计算 不懂问题请进群交流询问相关知识点

【原创】StreamInsight查询系列(十九)——查询模式之检测异常

上篇文章介绍了查询模式中如何发现趋势,这篇博文将介绍StreamInsight中如何检测异常。 测试数据准备 为了方便测试查询,我们首先准备一个静态的测试数据源:var now DateTime.Parse("09/12/2011 8:57:00 PM"); var input new[] {n…

SIP协议详解

SIP协议概念** 会话启动协议SIP(Session Initiation Protocol)是一个在IP网络上进行多媒体通信的应用层控制协议,它被用来创 建、修改、和终结一个或多个参加者参加的会话进程。 **SIP协议可用于发起会话,也可以用于邀请成员加入…

arcgis判断两个字段是否相等

def a(b,c):if(bc):return 1else:return 0 不懂问题请进群交流

一元三次方程重根判别式_许兴华——关于复数集中解一元二次方程的问题

在学习复数时,最近有个别比较好学的同学提出一个问题:“对于复数系数一元二次方程,是否可以用求根公式求解呢?”——回答是肯定的!关于复数集中解一元二次方程的问题。其实,在复数集内解关于x的一元二次方程…

arcgis批量将栅格里的nodata转为0

新建模型 修改名称 在arcgis的工具箱中新建一个模型,具体模型如下 模型里的具体参数如下 1.栅格计算器 2.输出路径,%—%这样的的输出可以保留之前的文件的名称 不懂问题请进群交流

arcgis中制作复杂符号

简介 在arcgis制图中常会遇到复杂的制图符号,如下 通过平常的代码显示并不会显示原图这样的效果,接下来我们开始解决改问题 主要思想: 通过字体文件将其显示 所以的软件: arcgis和FontCreator FontCreator软件下载链接

根据rtk参数在arcgis中进行可视化

RTK原始文件 通过原始文件发现,arcgis中并没有中央经线是113的CGS2000投影坐标,所以此处需要进行自定义投影转换 不懂问题请进群交流

解决mapgis转位置范围偏差过大的问题(比例尺)

问题描述: 在mapgis投影坐标转地理坐标,结果发现地理坐标错误 这样的地理坐标很明显是错误的,发现经度位置些许有些偏差,纬度有大幅度偏差 问题主要出现在在调整投影参数的比例尺分母不正确 解决: 找一个相似研究范围的mapgis文件或者shp文件 方法1(mapgis文件): …

有意思的小学数学竞赛题-2

刚刚在matrix67上看到一篇很有意思的帖子,原文http://www.matrix67.com/blog/archives/4485 我老早就写过一个经典的小学几何题。如果你还没看过这个问题,你一定要去看看。一个小学奥数老师曾 经告诉我,当年带领学生参加这次竞赛时&#xff0…

利用python处理中国地面气候资料日值数据集(V3.0)

原始文件 数据链接 00年到18年气象数据,但是未进行处理-数据集文档类资源-CSDN下载00年到18年气象数据,但是未进行处理,如果需要处理好的数据(execl和shp),请查看本博主其他更多下载资源、学习资料请访问C…

mapgis转shp左右位置偏差

问题描述 问题原因 一般情况下,投影中心经度不会出现这么复杂的数字,一般都是1110000,1170000,前3个数字为整数后四个数字为0 问题解决 主要思想:通常相差的经纬度,调整投影中心点经度 解决步骤 1.试图…