引言
足球,作为全球最受欢迎的运动之一,拥有庞大的粉丝群体和深远的文化影响。自1930年首届FIFA世界杯举办以来,这项赛事已经成为全球体育盛事,吸引了数十亿观众的目光。世界杯不仅是各国足球技艺的较量,更是国家荣誉和民族自豪感的体现。随着大数据时代的到来,我们有机会从新的视角审视这项赛事,利用数据分析揭示比赛背后的趋势和模式。
背景
在数据科学领域,探索性数据分析(Exploratory Data Analysis,简称EDA)是一种用于理解数据集特征的重要方法。分析师可以识别数据中的模式、关联和异常,为进一步的统计建模和决策提供依据。FIFA世界杯作为一项历史悠久的国际足球赛事,其数据集包含了丰富的信息,如球队表现、球员统计、比赛结果等,为进行EDA提供了理想的素材。
数据集信息
本次研究的数据来源于Kaggle(点击本文标题下方可免费下载),数据集共有3个表格。
开始探索……
读入数据:
# 导入pandas库,这是一个强大的数据处理和分析工具,提供了易于使用的数据结构和数据分析工具。
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
# 导入matplotlib.pyplot模块,这是Python的一个绘图库,提供了类似于MATLAB的绘图系统。
import matplotlib.pyplot as plt
# 导入seaborn库,这是基于matplotlib的一个高级绘图库,提供了更多的绘图功能和美化选项。
import seaborn as sns
# 启用Jupyter Notebook中的matplotlib内联显示模式,这样绘制的图形会直接嵌入到Notebook中。
%matplotlib inline
# 导入plotly库,这是一个基于Web的交互式图表库,允许创建丰富的、交互式的数据可视化图表。
import plotly as py
# 导入cufflinks库,这是一个用于Pandas DataFrame的Plotly绘图接口,可以让Pandas DataFrame直接通过cufflinks的API绘制Plotly图表。
import plotly.express as px
# 导入Python的os模块,它提供了许多与操作系统交互的功能,比如文件路径操作、环境变量访问等。
import os
# 使用os模块中的walk函数遍历'/kaggle/input'目录及其所有子目录。
# os.walk()生成一个三元组(dirpath, dirnames, filenames)。
# dirpath是一个字符串,表示当前正在遍历的这个目录的路径。
# dirnames是一个列表,内容是该目录下的所有子目录的名字(不包括路径,只是名字)。
# filenames是一个列表,内容是该目录下的所有非目录文件的名字(同样只是名字,不包括路径)。
# 注意:在您的代码中,dirnames参数被忽略(用_表示),因为这里只关心文件名和目录名。
for dirname, _, filenames in os.walk('/Users/c/Downloads/archive/'): # 对于os.walk()遍历到的每一个目录(包括'/kaggle/input'本身及其所有子目录), # 执行以下循环,遍历该目录下的所有文件(不包括子目录)。 for filename in filenames: # 使用os.path.join()函数将目录名(dirname)和文件名(filename)组合成完整的文件路径。 # 然后,打印这个完整的文件路径。 print(os.path.join(dirname, filename))
获取3个数据集文件路径:
players = pd.read_csv("/Users/c/Downloads/archive/WorldCupPlayers.csv")
matches = pd.read_csv("/Users/c/Downloads/archive/WorldCupMatches.csv")
world_cup = pd.read_csv("/Users/c/Downloads/archive/WorldCups.csv")
display(players.head(1), matches.head(1), world_cup.head(1))
分别展示数据集第一行数据信息:
分展别示数据的整体信息:
查看数据缺失情况:
matches数据集有3720个缺失值,我们将它删除并显示后5行:
这里要对数据进行一下说明,自 1930 年首届世界杯以来,每四年进行一次,但 1942 年和 1946 年世界杯因第二次世界大战而没有举行,所以数据有缺失值,本文旨在给大家展示方法,得出的结论只是针对现有的数据进行的分析,并不代表真实结果。
三个数据集都需要清洗和处理,细节很多,我就不一一介绍,只介绍主要的地方,感兴趣的可以看代码上方#后面的注释:
# 定义一个列表,包含了一些旧的(可能是错误的或需要更新的)名称
old_name = ['Germany FR', 'Maracan� - Est�dio Jornalista M�rio Filho', 'Estadio do Maracana']
# 注释:这里的列表包含了三个字符串,其中第二个和第三个字符串可能包含了编码问题(如特殊字符的显示错误),这可能是由于文件编码或数据传输时的问题导致的。
# 定义一个列表,包含了与old_name中每个元素相对应的新的(正确的)名称
new_name = ['Germany', 'Maracan Stadium', 'Maracan Stadium']
# 注释:这个列表与old_name列表一一对应,每个元素都是对应旧名称的更正或标准化版本。
# 将old_name列表中的所有元素添加到变量wrong中
wrong = wrong + old_name
# 注释:这行代码的目的是将old_name列表中的所有元素追加到wrong列表中,以收集所有需要被更正或更新的旧名称。
# 将new_name列表中的所有元素添加到变量correct中
correct = correct + new_name
wrong,correct
# 遍历wrong列表,对每个旧名称进行替换
for index, wr in enumerate(wrong): # 使用replace方法将world_cup中的旧名称wr替换为correct列表中对应位置的正确名称 # 注意:这里假设world_cup是一个字符串或支持.replace()方法的数据类型 # enumerate(wrong)会生成一个包含索引和值的元组,index是索引,wr是当前迭代的旧名称 world_cup = world_cup.replace(wrong[index], correct[index]) # 注释:这行代码会更新world_cup变量的值,使其包含所有已替换的名称。 # 再次遍历wrong列表,这次是对matches变量进行替换
for index, wr in enumerate(wrong): # 使用replace方法将matches中的旧名称wr替换为correct列表中对应位置的正确名称 # 注意:这里假设matches也是一个字符串或支持.replace()方法的数据类型 matches = matches.replace(wrong[index], correct[index]) # 注释:这行代码会更新matches变量的值,使其包含所有已替换的名称。 # 第三次遍历wrong列表,这次是对players变量进行替换
for index, wr in enumerate(wrong): # 使用replace方法将players中的旧名称wr替换为correct列表中对应位置的正确名称 # 注意:这里假设players也是一个字符串或支持.replace()方法的数据类型 players = players.replace(wrong[index], correct[index]) # 注释:这行代码会更新players变量的值,使其包含所有已替换的名称。 names = matches[matches['Home Team Name'].str.contains('rn">')]['Home Team Name'].value_counts()
names
# 合并冠军、亚军、季军的得奖频数,缺失值填充0,转为整数。
teams = pd.concat([winner, runnerup, third], axis=1)
teams.fillna(0, inplace=True)
teams = teams.astype(int)
teams.columns = ['winner', 'runnerup', 'third']
teams
以上代码,分别计算每个国家得冠军、亚军、季军的次数,合并成一张表格,缺失的部分填充0,详见下表:
老爱看足球的朋友们应该认识上面的英文代表哪个国家,我能看懂1/3!
探索性分析(EDA):
import plotly.graph_objects as go # 假设teams DataFrame已经正确构建,并且包含'winner'、'runnerup'、'third'三列 # 设置柱状图的x轴(即球队名称,这里假设每行代表一个球队)
x = teams.index # 如果teams的索引就是球队名称 # 设置柱状图的y轴数据,这里有三组数据,每组对应一个奖项
y_winner = teams['winner']
y_runnerup = teams['runnerup']
y_third = teams['third'] # 创建柱状图
fig = go.Figure(data=[ go.Bar(name='Winner', x=x, y=y_winner), go.Bar(name='Runner-up', x=x, y=y_runnerup), go.Bar(name='Third Place', x=x, y=y_third)
]) # 设置图表标题和x、y轴标签
fig.update_layout( title='FIFA 世界杯胜率统计', xaxis_title='国家队名称', yaxis_title='获奖数量', barmode='group' # 将柱状图设置为分组模式,以便在同一x轴位置上堆叠显示不同的奖项
) # 显示图表
fig.show()
根据表格数据绘制柱状图,今天数据可视化都是可以交互的,巴西最多,拿了5个冠军,还分别拿了2个亚军和2个季军。
# 从matches DataFrame中选择主队相关信息并移除缺失值
home = matches[['Home Team Name', 'Home Team Goals']].dropna()
# 从matches DataFrame中选择客队相关信息并移除缺失值
away = matches[['Away Team Name', 'Away Team Goals']].dropna()
# 重命名列名
home.columns = ['Countries', 'Goals']
# 注意:这里直接使用home的列名来设置away的列名,而不是再次调用home.columns(虽然这样也可以,但直接赋值更清晰)
away.columns = ['Countries', 'Goals']
# 使用concat来合并home和away DataFrame,ignore_index=True用于重置索引
goals = pd.concat([home, away], ignore_index=True)
# 按国家进行分组计算进球总数,并降序排列。
goals = goals.groupby('Countries').sum().sort_values(by = 'Goals', ascending=False).reset_index()
goals
计算每个国家的进球总数,见下表:
提取进球最多的前20个国家数据可视化:
最多的哪个英文应该是德国战车吧,没具体查过全凭印象。
# 绘制 Attendance Per Year
fig1 = go.Figure(data=go.Bar( x=world_cup['Year'], y=world_cup['Attendance'], text=world_cup['Attendance'], # 显示在条形图上的文本 textposition='auto' # 自动调整文本位置
))
fig1.update_layout( title='每年观赛人数', xaxis_title='年度', yaxis_title='观赛人数', barmode='group', # 对于这个单一条形图,barmode 设置为 'group' 是默认且不需要的,但保持一致性 xaxis=dict( tickangle=80 # 旋转 x 轴标签 )
)
fig1.show() # 绘制 Qualified Teams Per Year
fig2 = go.Figure(data=go.Bar( x=world_cup['Year'], y=world_cup['QualifiedTeams'], text=world_cup['QualifiedTeams'], textposition='auto'
))
fig2.update_layout( title='每年获奖球队', xaxis_title='年度', yaxis_title='获奖球队', xaxis=dict( tickangle=80 )
)
fig2.show() # 绘制 Goals Scored by Teams Per Year
fig3 = go.Figure(data=go.Bar( x=world_cup['Year'], y=world_cup['GoalsScored'], text=world_cup['GoalsScored'], textposition='auto'
))
fig3.update_layout( title='每年球队进球数', xaxis_title='年度', yaxis_title='进球数', xaxis=dict( tickangle=80 )
)
fig3.show() # 注意:最后一个图表的标题可能有误,应该是 'Matches Played Per Year'
# 绘制 Matches Played Per Year
fig4 = go.Figure(data=go.Bar( x=world_cup['Year'], y=world_cup['MatchesPlayed'], text=world_cup['MatchesPlayed'], textposition='auto'
))
fig4.update_layout( title='每年比赛场次', xaxis_title='年度', yaxis_title='比赛场次', xaxis=dict( tickangle=80 )
)
fig4.show()
从上面几个图可以看到,1940至1950年有缺口,是因为二战有2届世界杯没有举行,数据缺失。
# 使用pandas的concat函数将两个DataFrame(home和away)沿着列(axis=1)方向合并。
goals = pd.concat([home, away], axis=1)
# 使用fillna函数将合并后的DataFrame中的NaN值替换为0。
# 这通常用于处理缺失数据,确保后续计算不会因为NaN值而出错。
goals.fillna(0, inplace=True)
# 创建一个新列'Goals',其值为'Home Team Goals'列和'Away Team Goals'列的和。
# 这将计算出每场比赛的总进球数。
goals['Goals'] = goals['Home Team Goals'] + goals['Away Team Goals']
# 使用drop函数删除'Home Team Goals'和'Away Team Goals'这两列。
# 这样做是为了减少DataFrame的冗余列,只保留我们需要的'Goals'列。
# axis=1表示操作是在列上进行的。
goals = goals.drop(labels = ['Home Team Goals', 'Away Team Goals'], axis = 1).reset_index()
goals.columns = ['Year', 'Country', 'Goals']
goals = goals.sort_values(by = ['Year', 'Goals'], ascending = [True, False])
goals
上面代码分别计算了每支球队主队和客队进球总数,并合并至一张表格,详见下表:
top5 = goals.groupby('Year').head()
top5.head(10)
按年份进行分组计算,每组只显示前5行数据,显示表格前10行数据,详见下图:
# 从goals DataFrame中提取年份和进球数的值,分别赋值给x和y变量。
x, y = goals['Year'].values, goals['Goals'].values # 初始化一个空列表data,用于存储每个国家进球数的Bar对象。
data = [] # 遍历top5 DataFrame中不重复的国家名(或队伍名)。
for team in top5['Country'].drop_duplicates().values: # 对于每个国家,从top5 DataFrame中筛选出该国家的数据,并分别获取年份和进球数。 year = top5[top5['Country'] == team]['Year'] goal = top5[top5['Country'] == team]['Goals'] # 使用Plotly的go.Bar对象创建一个新的条形图,其中x轴为年份,y轴为进球数,name为国家的名字。 # 注意:这里实际上并没有直接使用之前从goals DataFrame中提取的x和y值,而是为每个国家重新提取了数据。 data.append(go.Bar(x = year, y = goal, name = team)) # 设置图形的布局。barmode设置为'stack',表示条形图将堆叠显示。
# 标题设置为'Top 5 Teams with most Goals',并且不显示图例(因为每个国家的颜色已经足够区分)。
layout = go.Layout(barmode = 'stack', title = '进球最多的前5支球队—堆叠柱状图', showlegend = False) # 使用Plotly的go.Figure对象创建一个图形,其中data为之前构建的包含所有国家条形图的列表,layout为设置的布局。
fig = go.Figure(data = data, layout = layout) # 显示图形。这将打开一个浏览器窗口(或标签页)来展示堆叠条形图。
fig.show()
下图每个柱子的5种颜色分别代表进球最多的前5支球队,我鼠标指向的橙色位置显示的是法国队在1958年进了23个球。
matches['Year'] = matches['Year'].astype(int)
# 使用 'groupby' 方法对 'matches' DataFrame 进行分组,根据 'Stadium'(体育场)和 'City'(城市)列的值来分组。
# 然后,对于每个分组,计算 'Attendance'(观众人数)列的平均值。
# reset_index() 方法用于将分组后的结果转换回 DataFrame,其中原来的分组键('Stadium' 和 'City')成为新的列。
# 最后,使用 sort_values 方法按 'Attendance' 列的值降序排序结果,以便最高的平均观众人数排在最前面。
std = matches.groupby(['Stadium', 'City'])['Attendance'].mean().reset_index().sort_values(by='Attendance', ascending=False)
top10 = std[:10]# 使用 Plotly 创建条形图
fig = go.Figure(data=[go.Bar( y=top10['Stadium'], x=top10['Attendance'], orientation='h', # 水平条形图 text=top10['City'], # 显示在条形图上的文本(城市名) textposition='outside', # 文本位置在条形图外部 marker_color='blue' # 条形图颜色
)]) # 设置图表布局
fig.update_layout( title='平均上座率最高的体育场', xaxis_title='平均上座人数', yaxis_title='体育馆名称', height=600, width=800, barmode='stack' # 如果你想要堆叠条形图(这里其实不需要,因为只有一个系列),否则可以去掉
) # 自定义文本显示(这里我们已经在 go.Bar 中设置了 text 和 textposition)
# 如果你需要更复杂的文本格式化,可以在这里添加额外的 text 或 annotation # 显示图表
fig.show()
下图展示了平均观看比赛的人数最多的球场:
# 计算 City 列中前 20 个最常见城市的出现次数
city_counts = matches['City'].value_counts()[:20]
city_counts_df = city_counts.reset_index()
city_counts_df.columns = ['City', 'Frequency'] # 重命名列以更清晰地表示它们的内容
# 自定义颜色列表
custom_colors = ['#FF6384', '#36A2EB', '#FFCE56', '#FF7F50', '#90EE90']
fig = px.bar(city_counts_df, x='City',y='Frequency',title='比赛最多的城市 Top 20',orientation='v',color_discrete_sequence=custom_colors)
fig.update_layout(xaxis_title='城市名称', yaxis_title='赛事次数')
fig.update_layout( xaxis_showgrid=True, yaxis_showgrid=True, xaxis_gridcolor='lightgrey', # 设置x轴网格线的颜色 xaxis_gridwidth=0.2, # 设置x轴网格线的宽度 xaxis_griddash='dash', # 设置x轴网格线的样式为虚线 yaxis_gridcolor='lightgrey', yaxis_gridwidth=0.2, yaxis_griddash='dash'
)# 显示图表
fig.show()
下图提取了比赛最多城市 Top 20:
gold = world_cup["Winner"]
silver = world_cup["Runners-Up"]
bronze = world_cup["Third"] # 计算奖牌数
gold_count = gold.value_counts().reset_index()
gold_count.columns = ['Country', 'WINNER'] silver_count = silver.value_counts().reset_index()
silver_count.columns = ['Country', 'SECOND'] bronze_count = bronze.value_counts().reset_index()
bronze_count.columns = ['Country', 'THIRD'] # 合并数据
podium_count = gold_count.merge(silver_count, on='Country', how='outer').merge(bronze_count, on='Country', how='outer').fillna(0) # 确保所有国家都有数据(如果需要的话)
# 注意:这里可能不需要再次重新索引,因为合并操作已经处理了这个问题
# 但如果你想要确保包含特定的国家列表,你可以再次使用reindex # 绘制堆叠柱状图
fig = go.Figure(data=[ go.Bar(name='Gold', x=podium_count['Country'], y=podium_count['WINNER'], marker_color='gold'), go.Bar(name='Silver', x=podium_count['Country'], y=podium_count['SECOND'], marker_color='silver', base=podium_count['WINNER']), go.Bar(name='Bronze', x=podium_count['Country'], y=podium_count['THIRD'], marker_color='brown', base=podium_count['WINNER'] + podium_count['SECOND'])
]) # 更新布局
fig.update_layout(barmode='stack', xaxis_title='国家', yaxis_title='奖牌数量', title='各国奖牌数量—堆叠柱状图', xaxis=dict(tickangle=45, tickfont=dict(size=14)), yaxis=dict(titlefont=dict(size=14)), legend=dict(font=dict(size=14)), width=800, height=600) # 显示图表
fig.show()
下图3分颜色分别代表金牌、银牌、铜牌的数量:
# 提取主客场队伍和进球数,并删除缺失值
home = matches[['Home Team Name', 'Home Team Goals']].dropna()
away = matches[['Away Team Name', 'Away Team Goals']].dropna() # 将主客场数据合并,并调整列名
home_goals = home.rename(columns={'Home Team Name': 'countries', 'Home Team Goals': 'goals'})
away_goals = away.rename(columns={'Away Team Name': 'countries', 'Away Team Goals': 'goals'})
goal_per_country = pd.concat([home_goals, away_goals], ignore_index=True) # 确保 'goals' 列是整数类型
goal_per_country['goals'] = goal_per_country['goals'].astype('int64') # 按国家分组并计算总进球数
goal_per_country_grouped = goal_per_country.groupby('countries')['goals'].sum().sort_values(ascending=False) # 绘制条形图
fig = go.Figure(data=[go.Bar( x=goal_per_country_grouped.index, # 国家名作为 x 轴 y=goal_per_country_grouped.values, # 进球数作为 y 轴 marker_color='blue' # 条形颜色
)]) # 设置图形布局
fig.update_layout( title='国家历史进球总数—柱状图', xaxis_title='国家名', yaxis_title='历史进球总数', xaxis=dict(tickangle=45, tickfont=dict(size=14)), # 旋转 x 轴标签并设置字体大小 yaxis=dict(titlefont=dict(size=14)), # 设置 y 轴标题字体大小 font=dict(size=14), # 设置全局字体大小 width=800, height=600
) # 只显示前10名
fig.update_xaxes(range=[goal_per_country_grouped.index[0], goal_per_country_grouped.index[9]]) # 显示图形
fig.show()
还是德国队排第一:
# 定义一个函数get_labels,它接受一个包含比赛数据的字典(或DataFrame的行)作为参数
def get_labels(matches): # 如果主队的进球数大于客队的进球数,则返回'主场胜' if matches['Home Team Goals'] > matches['Away Team Goals']: return '主场胜' # 如果主队的进球数小于客队的进球数,则返回'客场胜' if matches['Home Team Goals'] < matches['Away Team Goals']: return '客场胜' # 如果主队和客队的进球数相等,则返回'平局' return '平局' # 使用apply函数和lambda表达式,将get_labels函数应用于matches DataFrame的每一行
# axis=1指定函数应用于DataFrame的横向(即每一行),因为get_labels函数是按行处理数据的
# 这会创建一个新的Series,其中包含了每场比赛的结果
matches['outcome'] = matches.apply(lambda x: get_labels(x), axis=1) # 使用head(2)函数显示修改后的DataFrame的前两行
# 这有助于验证'outcome'列是否已正确添加到DataFrame中,并包含预期的比赛结果
matches.head(2)
封装一个函数,新增一列用于存放计算主场胜、客场胜、平局的次数:
# 转换为适合 plotly 的格式
labels = list(mt.index)
values = list(mt.values) # 生成颜色列表,确保颜色数量与标签数量相匹配
# 如果调色板中的颜色不够,可以循环使用
n_colors = len(labels)
color_palette = sns.color_palette('winter_r', n_colors=n_colors) # 移除 as_cmap=True
marker_colors = color_palette # 直接使用生成的颜色列表 # 如果需要循环使用颜色(虽然在这个例子中可能不需要)
# marker_colors = color_palette * (n_colors // len(color_palette) + 1)[:n_colors] # 创建饼图
fig = go.Figure(data=[go.Pie(labels=labels, values=values, hole=.3, marker=dict(colors=marker_colors), # 使用 marker 字典来设置颜色 textinfo='label+percent', insidetextorientation='radial' )]) # 设置饼图的标题
fig.update_layout(title_text='主客场球队胜负占比图—饼图', font_size=14, # 全局字体大小 title_font_size=16) # 标题字体大小 # 显示图形
fig.show()
小结
欧洲杯目前正如火如荼进行中,决定来一篇足球题材的博文,本文探索性分析了1930年至2014年的世界杯部分数据。
创作不易,关注、点赞、评论!