R语言数据分析案例27-使用随机森林模型对家庭资产的回归预测分析

一、研究背景及其意义

家庭资产分析在现代经济学中的重要性不仅限于单个家庭的财务健康状况,它还与整个经济体的发展紧密相关。家庭资产的增长通常反映了国家经济的整体增长,而资产分布的不均则暴露了经济不平等的问题。因此,全球视角下的家庭资产分析可以揭示国际经济动态,有助于在全球范围内制定更有效的财富管理和经济政策。

研究的意义在于:政策制定的依据:通过对家庭资产的研究,可以为政府和政策制定者提供关于经济福利和社会公平的深入洞察。这有助于制定更加有效的经济政策,以促进财富的公平分配。经济结构分析。。。。。

二、文献综述研究

近年来,利用人工智能技术进行预测研究掀起了新浪潮。监督机器学习方法可以自动分析和挖掘已知矿床与勘探数据之间的复杂关系,已被广泛的应用于矿产预测建模。然而,在矿产潜力评价实践中,矿床数量的有限使得监督机器学习模型面临着巨大挑战,限制了模型的表现与泛化性。在本研究中,李全可、陈国雄等人聚焦于各种半监督机器学习模型(例如半监督随机森林和半监督支持向量机),利用半监督学习机制解决矿床稀缺带来的挑战,并提出一种基于半监督生成对抗网络的半监督深度学习矿产预测建模方法,以实现更准确的矿产潜力评价。。。。。

下面,我们将详细介绍数据预处理步骤以及随机森林模型的构建和评估方法。随机森林模型的应用不仅能够提高预测准确性,还能提供对特征重要性的深入洞察,帮助我们更好地理解各影响因素如何共同作用于家庭资产的变化。。。

三、基础理论和研究

随机森林就是通过集成学习的Bagging思想将多棵树集成的一种算法:它的基本单元就是决策树。随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。“森林”很好理解,一棵叫做树,那么成百上千棵就可以叫做森林了,其实这也是随机森林的主要思想--集成思想的体现。。。。。

随机森林的训练过程可以分为以下几个步骤:

(1)随机选择一部分数据样本,构建决策树。

(2)随机选择一部分特征,构建决策树。

(3)重复上述步骤,构建多个决策树。

(4)通过投票的方式,将多个决策树的预测结果合并为最终结果。。。。

四、实证分析

本文数据选取为美国财富网站家庭资产的数据集,其中特征为familynum、consump_total、income_total、debt,响应变量为asset。

首先读取数据集并且展示数据前五行:

数据和代码

数据代码完整报告

df<- read.csv("data_clean.csv")
df# 显示数据框的前几行
head(df)
str(df)

接下来查看数据字符类型:

其中familynum:这是一个整数(int)类型的变量,代表家庭成员的数量。consump_total:是一个数值类型的变量,代表家庭的总消费。 

接下来进行数据缺失值查看:

# 绘制热图
ggplot(missing_df, aes(x = row_id, y = variable, fill = value)) +geom_tile() +scale_fill_manual(values = c("Missing" = "red", "Not Missing" = "gray")) +theme_minimal() +labs(x = "Row Number", y = "Variable", fill = "Status", title = "Heatmap of Missing Values")

热图中的深色部分表明数据值“不缺失”(Not Missing),而如果存在缺失值,我们通常会看到标记为其他颜色。。。

接下来进行部分数据可视化:

家庭资产(asset):大多数数据集中在较低的资产值,说明在样本中低资产家庭的数量较多。分布的长尾部分表示有少数家庭拥有很高的资产。总消费消费数据似乎也是右偏的 。。。

box_plots <- df %>%pivot_longer(cols = everything(), names_to = "variables", values_to = "values") %>%ggplot(aes(x = as.factor(variables), y = values)) +geom_boxplot() +facet_wrap(~variables, scales = 'free') +theme_minimal()
print(box_plots)

家庭成员数的分布相对均匀,中位数在2左右,异常值分布在较高的家庭成员数,但这些异常值并不极端。总收入的中位数较低,分布范围相对较广,存在一些高收入的异常值。

 从热力图可知,家庭成员数与其他变量似乎没有显示出很强的相关性。总消费与总收入之间显示出一定的正相关性,这是合理的,因为通常收入水平较高的家庭可能会有更多的消费。。。。

接下来正式进入随机森林建模和预测,这里的训练集和测试集的划分比例为3:7。

# 建立随机森林模型
rf_model <- randomForest(asset ~ ., data = train_data, ntree = 100)
rf_model

从上图可以看得,模型设置了100棵树,并且在每次分裂时尝试了1个变量。 模型中建立了100棵决策树。随机森林是通过结合多棵决策树的预测来提高整体预测准确性和鲁棒性的。平均平方残差约为2.517×10¹²。 

在预测之后对模型进行评价:

表1 随机森林模型预测评价结果

RMSE

 Rsquared

 MAE

1525606.6201528

 0.3679425

792606.7109922

最后可视化一下特征重要性图,在特征中对比一下:

从该图可知,特征按重要性降序排列,具有以下特点:

income_total(总收入): 这个特征在模型中的重要性最高,表现为最长的黄色条形。这意味着总收入在预测家庭资产方面起着最关键的作用。。。。

五、总结与展望

本次实验通过随机森林回归模型分析了影响家庭资产的几个关键变量得到了一些初步的结论

总收入对家庭资产的预测作出了最大的贡献,这表明收入水平是影响家庭资产积累的一个重要因素。总消费也是家庭资产预测的一个重要变量,但其影响力度低于总收入。债务与家庭资产之间存在一定的相关性,尽管其影响不如收入和消费那么显著。。。。

创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27650.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实时交通 | 城市交通态势采集及可视化操作(定时运行)

一、前言 交通态势数据是关于交通状况的一种量化描述&#xff0c;它提供了关于道路网络运行状态的详细信息。交通态势数据指的是根据车流入量和车流出量的定义&#xff0c;衡量整个全局交通区域交通态势的数据。这些数据通常从车辆GPS轨迹数据中提取&#xff0c;包括车辆行驶速…

Folx软件下载及安装教程

简介&#xff1a; Folx Pro是一款适合Mac的专业下载工具也是一款BT下载器&#xff0c;Folx中文版有一个支持Retina显示的现代界面&#xff0c;提供独特的系统排序、存储下载内容与预览下载文件。Folx中文官网提供Folx教程、激活码、下载。 安 装 包 获 取 地 址&#xff1a; …

tcp协议机制的总结(可靠性,提高性能),基于tcp的应用层协议,用udp如何实现可靠传输

目录 总结 引入 可靠性 ​编辑 分析 三次握手 提高性能 其他 常见的基于tcp应用层协议 用udp实现可靠传输 总结 引入 为什么tcp要比udp复杂的多? 因为它既要保证可靠性,又要兼顾性能 可靠性 分析 其中,序列号不止用来排序,还可以用在重传时去重 确认应答是机制中的…

34 Debian如何配置ELK群集

作者:网络傅老师 特别提示:未经作者允许,不得转载任何内容。违者必究! Debian如何配置ELK群集 《傅老师Debian知识库系列之34》——原创 ==前言== 傅老师Debian知识库特点: 1、拆解Debian实用技能; 2、所有操作在VMware虚拟机实测完成; 3、致力于最终形成Debian知识手…

开放式耳机值得入手买吗?可以对比这几款开放式耳机看看

居家办公时&#xff0c;选择一款合适的耳机能够有效地提高工作效率。入耳式耳机虽然能够有效地隔绝外界噪音&#xff0c;但长时间佩戴会对耳朵造成负担&#xff0c;甚至引发耳道感染。而头戴式耳机虽然能够提供更好的音质&#xff0c;但体积较大&#xff0c;佩戴起来不够灵活。…

仿FC数学金刚游戏介绍

简介 Math Monkey是Simple2l工作室开发的第二款小游戏&#xff0c;灵感来源于FC游戏平台的数学金刚游戏。小学时玩FC游戏是业余时间最期待的事情&#xff0c;还记得有一次和玩伴玩游戏时已经晚上了&#xff0c;于是约定再玩一把就各回各家&#xff0c;没想到又连玩了N把每一把…

大模型日报|今日必读的 8 篇大模型论文

大家好&#xff0c;今日必读的大模型论文来啦&#xff01; 1.Google DeepMind 新研究&#xff1a;当 Transformer 遇见神经算法推理器 Transformer 以其简单而有效的架构彻底改变了机器学习。在互联网的海量文本数据集上预先训练 Transformer&#xff0c;为自然语言理解&…

Java--多维数组

1.多维数组可以看成是数组的数组&#xff0c;比如二维数组就是一个特殊的一维数组&#xff0c;其每一个元素都是一个一维数组 2.二维数组 下列数组啊可看成一个两行五列的数组 int a[][] new int[2][5]; 3.输出二维数组的第一个数组中具体元素&#xff0c;通过调用打…

园区无线网新架构:无CAPWAP的集中式转发

1、从经典的APAC组网说起 谈及园区无线网&#xff0c;大家脑子里不免会蹦出同一个关键词。 没错&#xff0c;市面上常见的中大型企业/园区的无线网络组网方案&#xff0c;大多都是基于集中式网关转发的”APAC”模式。 顾名思义&#xff0c;该架构包括 AP 和AC两个关键角色。 …

shell脚本简单命令

shell脚本 脚本就是可运行代码的集合&#xff0c;脚本语言&#xff08;计算机语言&#xff09;脚本的特点&#xff1a;从上到下&#xff0c;按行执行。 python 脚本语言 格式更严谨 严格的执行锁进。也是从上到下按行执行。 shell脚本就是在shell环境&#xff08;/bin/bash&…

在Kubernetes中部署Elasticsearch高可用集群详细教程

Hi~&#xff01;这里是奋斗的小羊&#xff0c;很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~~ &#x1f4a5;&#x1f4a5;个人主页&#xff1a;奋斗的小羊 &#x1f4a5;&#x1f4a5;所属专栏&#xff1a;C语言 &#x1f680;本系列文章为个人学习…

2024下半年教师资格证报名全流程来啦!!

2024下半年教师资格证报名全流程来啦&#xff01;&#xff01; 一、重要时间节点 ✅2024下半年教师资格证考试 ⏰笔试报名&#xff1a;7月5日-8日 ⏰笔试时间&#xff1a;9月15日 ⏰笔试成绩查询&#xff1a;11月8日 ⏰面试报名&#xff1a;11月8日起 ⏰面试时间&#xff1a;12…

开源医疗大模型Llama3-Aloe-8B-Alpha,性能超越 MedAlpaca 和 PMC-LLaMA

前言 近年来&#xff0c;大型语言模型 (LLM) 在医疗领域展现出巨大潜力&#xff0c;能够帮助医生和研究人员更快地获取信息、分析数据&#xff0c;并提高医疗服务效率。然而&#xff0c;目前市场上大多数医疗 LLM 都是闭源模型&#xff0c;限制了其在学术研究和应用领域的推广…

移动端消息中心,你未必会设计,发一些示例出来看看。

APP消息中心是一个用于管理和展示用户收到的各种消息和通知的功能模块。它在APP中的作用是提供一个集中管理和查看消息的界面&#xff0c;让用户能够方便地查看和处理各种消息。 以下是设计APP消息中心的一些建议&#xff1a; 1. 消息分类&#xff1a; 将消息按照不同的类型进…

【Numpy】一文向您详细介绍 np.floor()

【Numpy】一文向您详细介绍 np.floor() 下滑即可查看博客内容 &#x1f308; 欢迎莅临我的个人主页 &#x1f448;这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地&#xff01;&#x1f387; &#x1f393; 博主简介&#xff1a;985高校的普通本硕&#xff0c;…

基于Python+Django+MySQL+HTML的创新创业平台

DjangoMySQLHTML 基于PythonDjangoMySQLHTML的创新创业平台 用户管理 系统监控 角色管理 资源管理 参数设置 角色管理 简介 学生创新创业平台是一个功能丰富的在线教育或协作系统&#xff0c;支持中文语言环境。它提供用户管理、系统监控、多角色权限控制、资源管理、参…

mac下Xcode在iphone真机上测试运行iOS软件

最近一个需求需要在iPhone真机上测试一个视频直播的项目。 需要解决如何将项目 app 安装到真机上 在进行真机调试。 安装Xcode 直接在App Store上搜索Xcode安装即可。 关键是要安装Simulator。项目需要安装iOS17.5但是由于安装包太大&#xff0c;并且网络不稳定的原因。在Xco…

Databricks超10亿美元收购Tabular;Zilliz 推出 Milvus Lite ; 腾讯云支持Redis 7.0

重要更新 1. Databricks超10亿美元收购Tabular&#xff0c;Databricks将增强 Delta Lake 和 Iceberg 社区合作&#xff0c;以实现 Lakehouse 底层格式的开放与兼容([1] [2])。 2. Zilliz 推出 Milvus Lite 轻量级向量数据库&#xff0c;支持本地运行&#xff1b;Milvus Lite 复…

C++入门 vector介绍及使用

目录 vector的介绍及使用 vector常用接口的介绍及使用 vector的定义 vector iterator 的使用 vector 空间增长问题 vector 增删查改 push_back/pop_back insert & erase & find operator[ ]的遍历 vector的介绍及使用 vector的文档介绍 vector是表示可变大…