Python数据分析-欧洲经济聚类和主成分分析

一、研究背景

欧洲经济长期以来是全球经济体系中的重要组成部分。无论是在全球金融危机后的复苏过程中,还是在新冠疫情期间,欧洲经济的表现都对世界经济产生了深远的影响。欧洲各国经济体之间既存在相似性,也存在显著的差异。这些差异不仅体现在宏观经济指标上,如GDP增长率、通货膨胀率、失业率等,还体现在政府预算、债务与GDP比例、经常账户余额等财务指标上。因此,通过聚类分析和主成分分析(PCA)来研究欧洲各国经济指标的相似性和差异性,对于深入理解欧洲经济体系内部的动态和结构具有重要意义。

近年来,全球化进程加速以及欧盟内部一体化的推进,使得欧洲各国经济之间的联系日益紧密。然而,各国在经济政策、产业结构、资源分配等方面仍然存在显著差异。通过聚类分析,可以将具有相似经济特征的国家归为一类,揭示出这些国家在经济发展中的共同模式。而主成分分析则能够简化数据结构,提取出影响欧洲经济的主要因素,帮助我们更好地理解复杂的经济现象。

二、研究意义

  • 揭示经济模式:通过聚类分析可以识别出欧洲国家在经济发展中的不同模式,帮助政策制定者了解不同经济体的特征,从而制定更有针对性的经济政策。

  • 简化数据分析:主成分分析能够降低数据的维度,将多个经济指标简化为少数几个主要成分,这有助于更直观地理解影响欧洲经济的关键因素,便于进行进一步的经济分析和预测。

  • 支持决策制定:本研究的结果可以为政府和企业提供参考依据,帮助他们在经济规划、投资决策和风险管理方面做出更明智的选择。例如,通过了解哪些国家具有相似的经济特征,可以在区域合作、市场开发等方面做出更有战略性的布局。

  • 学术贡献:本研究将丰富聚类分析和主成分分析在经济研究领域的应用案例,提供一种新的视角来审视欧洲经济,有助于推动相关学术研究的发展。

三、实证分析

代码和数据

读取数据

import numpy as np 
import pandas as pd import os
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as snsimport datetimeimport warnings
warnings.filterwarnings('ignore')
df=pd.read_csv('Economy_Indicators.csv')
df.head()

 查看数据类型

数据预处理

df=df.replace('           NA',np.nan,regex=True)
df['GDP Quarter-over-Quarterr'] = df['GDP Quarter-over-Quarterr'].astype(float)
df['Interest Rate'] = df['Interest Rate'].astype(float)
df.info()

 

接下来对数据特征可视化

fig = plt.figure(figsize=(15,15))for i in range(len(col)):plt.subplot(4,3,i+1)plt.title(col[i])sns.boxplot(data=df,y=df[col[i]])plt.tight_layout()
plt.show()

fig = plt.figure(figsize=(15,15))for i in range(len(col)):plt.subplot(4,3,i+1)plt.title(col[i])sns.histplot(data=df,x=df[col[i]])plt.tight_layout()
plt.show()

 

每个特征的最小值和最大值之间的差距都很大。这说明欧洲国家之间的经济差距很大。

相关系数热力图

corr_matrix = numeric_df.corr()plt.figure(figsize=(10, 8))
sns.heatmap(corr_matrix, annot=True, cbar=False, cmap='Blues', fmt='.1f')
plt.show()

其中,高度正相关 (>=0.5)

国内生产总值与人口:0.8 经常账户与政府预算:0.6 利率与通货膨胀率:0.5 强负相关(<=-0.5)

国内生产总值年度同比与利率:-0.6 国内生产总值季度同比与利率:-0.6 政府预算与债务/GDP : -0.5

 接下来进行聚类分析

添加人均 GDP 

df['GDP_per_Population']=df['GDP']/df['Population']

标准化

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
df_sc = sc.fit_transform(df1)
df_sc = pd.DataFrame(df_sc, columns=df1.columns)

 首先按 4 个群组进行 KMeans 建模

model = KMeans(n_clusters=4, random_state=1)
model.fit(df_sc)

用肘法确定聚类的数量。 

for i  in range(1,11):km = KMeans(n_clusters=i,init='k-means++',n_init=10,max_iter=300,random_state=0)km.fit(df_sc)distortions.append(km.inertia_)plt.plot(range(1,11),distortions,marker='o')
plt.xlabel('Number of clusters')
plt.ylabel('Distortion')
plt.show()

#我们可以将数据分为四个聚类

df['Cluster']=cluster
df.head()

可以看到每个样本后面都有了聚类数

numeric_df = df.select_dtypes(include=[float, int])
# 将非数值列与 Cluster 列连接起来,以便进行分组
numeric_df['Cluster'] = df['Cluster']
# 按 Cluster 分组并计算均值
grouped_mean = numeric_df.groupby('Cluster').mean()

fig = plt.figure(figsize=(15,15))for i in range(len(col2)):plt.subplot(4,3,i+1)plt.title(col2[i])sns.boxplot(data=df,y=df[col2[i]],x=df['Cluster'])plt.tight_layout()
plt.show()

各组之间有一些不同的特点。

查看第0组的国家

第 0 组包括国内生产总值和人口规模不大,但人均国内生产总值较高的国家。

组群 2 包括较大的国内生产总值和较多的人口。

第 3 组只有一个国家,即乌克兰。乌克兰的核试验率最高、通货膨胀率最高、失业率最高。它的 GDP 年同比和季度同比都是最低的。这显示了巨大的损失。

接下来进行主成分分析

from sklearn.decomposition import PCA
pca = PCA(n_components=3, random_state=1)
pca.fit(df_sc)
feature = pca.transform(df_sc)
grouped_mean = df.groupby('Cluster')[['PCA1', 'PCA2', 'PCA3']].mean().T
# 应用样式并显示条形图
styled_grouped_mean = grouped_mean.style.bar(axis=1)
styled_grouped_mean

PCA1 在第 1 组中最高,其次是第 2 组。

PCA2 在第 1 组中最高,其次是第 0 组。

PCA3 在第 2 组中最高,其次是第 1 组。

PCA1 在利率方面最高,其次是通货膨胀率。

PCA2 的最高值是人口,其次是人均国内生产总值(GDP_per_Population)。

PCA3 在 GDP 中最高,其次是人口。

 接下来用3D图来可视化一下

fig=plt.figure(figsize=(10, 10))
ax = fig.add_subplot(projection='3d')scatter=ax.scatter(df['PCA1'], df['PCA2'],df['PCA3'],alpha=0.8, c=cluster)
ax.set_xlabel('principal component 1')
ax.set_ylabel('principal component 2')
ax.set_zlabel('principal component 3')
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster0','Cluster1','Cluster2','Cluster3'],title="Cluster",loc='upper left', bbox_to_anchor=(1, 1))
plt.show()

 接下来再查看一下各个主成分的解释率

pd.DataFrame(pca.explained_variance_ratio_)

PCA1、PCA2 和 PCA3 的解释率约为 66%。 

四、结论

通过聚类分析和主成分分析,我们对欧洲各国的经济特征进行了深入研究。聚类分析结果表明,欧洲国家可以根据其经济指标分为几个具有相似特征的集群,每个集群内部的国家在GDP增长率、通货膨胀率、失业率等方面表现出较高的相似性。这表明尽管欧洲整体经济一体化进程不断推进,但各国之间仍存在显著的经济差异。

主成分分析结果显示,影响欧洲经济的主要因素可以归纳为少数几个主成分,如宏观经济增长、通货膨胀和就业状况、财政健康状况等。这些主成分在很大程度上解释了原始数据的变化,证明了主成分分析在简化数据和提取关键信息方面的有效性。

总体而言,本研究不仅揭示了欧洲各国经济的内在联系和差异,还为进一步的经济分析和政策制定提供了重要的理论和实证依据。未来的研究可以在此基础上,结合更多的动态数据和更复杂的经济模型,进一步探索欧洲经济的发展趋势和内在机制。 ​

 创作不易,希望大家多点赞关注评论!!!(类似代码或报告定制可以私信)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/41787.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux下QT程序启动失败问题排查方法

文章目录 0.问题背景1.程序启动失败常见原因2.排查依赖库问题2.1 依赖库缺失2.2 依赖库加载路径错误2.3 依赖库版本不匹配2.4 QT插件库缺失2.4.1 QT插件库缺失2.4.2 插件库自身的依赖库缺失 2.5 系统基础C库不匹配 3.资源问题3.1 缺少翻译文件3.2 缺少依赖的资源文件3.3 缺少依…

水果商城系统 SpringBoot+Vue

1、技术栈 技术栈&#xff1a;SpringBootVueMybatis等使用环境&#xff1a;Windows10 谷歌浏览器开发环境&#xff1a;jdk1.8 Maven mysql Idea 数据库仅供学习参考 【已经答辩过的毕业设计】 项目源码地址 2、功能划分 3、效果演示

化工厂定位的意义?如何有效解决管理难题

化工厂定位是运用于工厂人员定位管理的新技术&#xff0c;这一技术的应用具有特殊的意义&#xff0c;和传统管理模式相比具有很大的区别&#xff0c;那么&#xff0c;你是否清楚化工厂定位的意义&#xff0c;它是如何有效的去解决工厂现存的管理难题呢? 传统化工厂管理到底有哪…

PySide6开发桌面程序,PySide6入门实战(上)

文章目录 系列文章索引一、前期准备1、简介及安装2、PyCharm PySide6环境搭建&#xff08;1&#xff09;基础环境&#xff08;2&#xff09;配置QT Designer、PyUIC、PyRCC&#xff08;3&#xff09;使用pyside6项目&#xff08;4&#xff09;资源文件编写与编译 二、QT常用控件…

排序矩阵查找

题目链接 排序矩阵查找 题目描述 注意点 每一行、每一列都按升序排列 解答思路 可以从右上角开始遍历&#xff0c;如果当前元素就等于target&#xff0c;直接返回true&#xff1b;如果当前元素小于target&#xff0c;则target肯定在当前位置下方&#xff1b;如果当前元素大…

挑战杯 LSTM的预测算法 - 股票预测 天气预测 房价预测

0 简介 今天学长向大家介绍LSTM基础 基于LSTM的预测算法 - 股票预测 天气预测 房价预测 这是一个较为新颖的竞赛课题方向&#xff0c;学长非常推荐&#xff01; &#x1f9ff; 更多资料, 项目分享&#xff1a; https://gitee.com/dancheng-senior/postgraduate 1 基于 Ke…

手机飞行模式是什么意思?3个方法教你如何开启

在现代生活中&#xff0c;手机已经成为我们日常生活中不可或缺的一部分。然而&#xff0c;有时我们需要暂时切断手机的通信功能&#xff0c;比如在飞机上、开会时或需要安静休息的时候。这时候&#xff0c;苹果手机上的“飞行模式”功能就派上了用场。 那么&#xff0c;手机飞…

人脸表情识别Facial Expression Recognition基于Python3和Keras2(TensorFlow后端)

人脸表情识别项目是一个结合了计算机视觉和深度学习技术的高级应用&#xff0c;主要用于分析和理解人类面部表情所传达的情感状态。这样的系统可以用于多种场景&#xff0c;比如情绪分析、用户交互、市场调研、医疗诊断以及人机接口等领域。 一个典型的人脸表情识别项目可以分…

端到端自动驾驶新突破:Nvidia提出全并行PARA-Drive,斩获CVPR挑战赛冠军

论文标题&#xff1a; PARA-Drive: Parallelized Architecture for Real-time Autonomous Driving 论文作者&#xff1a; Xinshuo Weng, Boris Ivanovic, Yan Wang, Yue Wang, Marco Pavone 导读&#xff1a; 本文系统分析了自动驾驶高级架构的设计空间&#xff0c;提出了关…

提升内容分享类营销效果的秘籍大公开

今天有丰富实战经验的“蚓链数字化营销平台”来给大家分享一些能有效提高内容分享类数字化营销方案中用户的参与度和转化率的方法。 创造有价值且引人入胜的内容 一定要让分享的内容实用、有趣或者独特&#xff0c;满足大家的需求和兴趣。多运用生动的故事、案例和数据来支持观…

深入分析 Android BroadcastReceiver (十)(完)

文章目录 深入分析 Android BroadcastReceiver (十)1. 深入理解 Android 广播机制的高级应用与实践1.1 高级应用1.1.1 示例&#xff1a;广播启动服务1.1.2 示例&#xff1a;数据变化通知1.1.3 示例&#xff1a;下载完成通知 1.2 实践建议1.2.1 设置权限1.2.2 动态注册和注销广播…

探索企业信用巅峰:3A企业认证的魅力与价值

在现代商业环境中&#xff0c;企业的信用和信誉是其发展的核心要素之一。3A企业认证作为信用评级的最高等级&#xff0c;正在吸引越来越多企业的关注。究竟什么是3A企业认证&#xff1f;它为什么对企业如此重要&#xff1f;本文将深入探讨3A企业认证的独特魅力和巨大价值。 3A企…

0Day漏洞防御篇:GeoServer CVE-2024-36401远程代码执行漏洞

GeoServer是一个用Java编写的开源软件服务器&#xff0c;允许用户共享和编辑地理空间数据。它为提供交互操作性而设计&#xff0c;使用开放标准发布来自任何主要空间数据源的数据。GeoServer存在远程代码执行漏洞&#xff08;CVE-2024-36401&#xff09;&#xff0c;未经身份认…

Aigtek高压放大器指标有哪些要求和标准

高压放大器是一类关键的电子设备&#xff0c;用于放大电信号并提供强大的输出。在不同的应用领域&#xff0c;高压放大器可能有不同的要求和标准。以下是一些常见的高压放大器指标要求和标准&#xff0c;以确保其性能和可靠性&#xff1a; 1.幅度增益和频率响应 高压放大器的主…

人大金仓携手中国一汽引领国产数据库行业新浪潮

在国产化政策的推动下,人大金仓携手中国一汽联合开发更贴近汽车产业特定需求的数据库功能和组件。从2023年2月至今,人大金仓已累计部署690套数据库,适配应用系统170个,支撑中国一汽20多个核心系统和重要系统。目前,中国一汽在国内企业数据库国产化替换率遥遥领先。此次合作为国…

猫咪健康新选择!福派斯鲜肉猫粮里的果蔬纤维大揭秘

你们是不是对福派斯鲜肉猫粮中那些丰富的果蔬粗纤维特别好奇呢&#xff1f;&#x1f914; 其实&#xff0c;这些看似简单的粗纤维&#xff0c;对猫咪的健康可是大有裨益的&#xff01; 粗纤维在猫粮中起到多种重要作用&#xff0c;并且对猫咪的健康和消化系统有着显著的影响。以…

乡村振兴指数与其30个原始变量数据(Shp/Dta/Excel格式,2000-2022年)

数据简介&#xff1a;这份数据是我国各地级市乡村振兴指数与其30各原始变量数据并对其进行地图可视化表达。城镇化是当今中国社会经济发展的必由之路。当前我国城镇化处于发展的关键时期&#xff0c;但城镇化发展的加快却是一把双刃剑&#xff0c;为何要如此形容呢?因为当前城…

职升网:一级注册计量师就业方向如何?

首先我们要知道&#xff0c;一级注册计量师可以聘为工程师&#xff0c;可以负责计量基准和标准的量值传递工作。它可以从事一下7个方面的工作&#xff1a; 1.负责制定计量管理制度、工作计划、并组织实施&#xff1b; 2.建设期参与设计工程等计量方面的工作&#xff0c;编制计…

红黑树模拟实现

目录 概念 性质 节点定义 红黑树的插入 完整代码 概念 红黑树&#xff0c;是一种二叉搜索树&#xff0c;但在每个结点上增加一个存储位表示结点的颜色&#xff0c;可以是Red或Black。通过对任何一条从根到叶子的路径上各个结点着色方式的限制&#xff0c;红黑树确保没有一条…

充电桩开源平台,开发流程有图有工具

慧哥充电桩开源平台产品研发流程是确保产品从概念阶段到市场推广阶段的有序进行的关键。以下是对您给出的步骤的详细解释和建议&#xff1a; 设计业务流程: 在这一步&#xff0c;团队需要确定产品的核心功能、目标用户以及如何满足用户需求。进行市场调研&#xff0c;了解竞争…