python足球大数据分析_使用Python抓取欧洲足球联赛数据进行大数据分析

背景

Web Scraping

在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤

数据的采集和获取

数据的清洗,抽取,变形和装载

数据的分析,探索和预测

数据的展现

其中首先要做的就是获取数据,并提炼出有效地数据,为下一步的分析做好准备。

数据的来源多种多样,以为我本身是足球爱好者,而世界杯就要来了,所以我就想提取欧洲联赛的数据来做一个分析。许多的网站都提供了详细的足球数据,例如:

这些网站都提供了详细的足球数据,然而为了进一步的分析,我们希望数据以格式化的形式存储,那么如何把这些网站提供的网页数据转换成格式化的数据呢?这就要用到Web scraping的技术了。简单地说,Web Scraping就是从网站抽取信息, 通常利用程序来模拟人浏览网页的过程,发送http请求,从http响应中获得结果。

Web Scraping 注意事项

在抓取数据之前,要注意以下几点:

阅读网站有关数据的条款和约束条件,搞清楚数据的拥有权和使用限制

友好而礼貌,使用计算机发送请求的速度飞人类阅读可比,不要发送非常密集的大量请求以免造成服务器压力过大

因为网站经常会调整网页的结构,所以你之前写的Scraping代码,并不总是能够工作,可能需要经常调整

因为从网站抓取的数据可能存在不一致的情况,所以很有可能需要手工调整

Python Web Scraping 相关的库

Python提供了很便利的Web Scraping基础,有很多支持的库。这里列出一小部分

当然也不一定要用Python或者不一定要自己写代码,推荐关注import.io

Web Scraping 代码

下面,我们就一步步地用Python,从腾讯体育来抓取欧洲联赛13/14赛季的数据。

首先要安装Beautifulsoup

pip install beautifulsoup4

我们先从球员的数据开始抓取。

该web服务有两个参数,lega表示是哪一个联赛,pn表示的是分页的页数。

首先我们先做一些初始化的准备工作

from urllib2 import urlopen

import urlparse

import bs4

BASE_URL = "http://soccerdata.sports.qq.com"

PLAYER_LIST_QUERY = "/playerSearch.aspx?lega=%s&pn=%d"

league = ['epl','seri','bund','liga','fran','scot','holl','belg']

page_number_limit = 100

player_fields = ['league_cn','img','name_cn','name','team','age','position_cn','nation','birth','query','id','teamid','league']

urlopen,urlparse,bs4是我们将要使用的Python库。

BASE_URL,PLAYER_LIST_QUERY,league,page_number_limit和player_fields是我们会用到的一些常量。

下面是抓取球员数据的具体代码:

def get_players(baseurl):

html = urlopen(baseurl).read()

soup = bs4.BeautifulSoup(html, "lxml")

players = [ dd for dd in soup.select('.searchResult tr') if dd.contents[1].name != 'th']

result = []

for player in players:

record = []

link = ''

query = []

for item in player.contents:

if type(item) is bs4.element.Tag:

if not item.string and item.img:

record.append(item.img['src'])

else :

record.append(item.string and item.string.strip() or 'na')

try:

o = urlparse.urlparse(item.a['href']).query

if len(link) == 0:

link = o

query = dict([(k,v[0]) for k,v in urlparse.parse_qs(o).items()])

except:

pass

if len(record) != 10:

for i in range(0, 10 - len(record)):

record.append('na')

record.append(unicode(link,'utf-8'))

record.append(unicode(query["id"],'utf-8'))

record.append(unicode(query["teamid"],'utf-8'))

record.append(unicode(query["lega"],'utf-8'))

result.append(record)

return result

result = []

for url in [ BASE_URL + PLAYER_LIST_QUERY % (l,n) for l in league for n in range(page_number_limit) ]:

result = result + get_players(url)

我们来看看抓取球员数据的详细过程:

首先我们定义了一个get_players方法,该方法会返回某一请求页面上所有球员的数据。为了得到所有的数据,我们通过一个for循环,因为要循环各个联赛,每个联赛又有多个分页,一般情况下是需要一个双重循环的:

for i in league:

for j in range(0, 100):

url = BASE_URL + PLAYER_LIST_QUERY % (l,n)

## send request to url and do scraping

Python的list comprehension可以很方便的通过构造一个列表的方式来减少循环的层次。

另外Python还有一个很方便的语法来合并连个列表: list = list1 + list2

好我们再看看如何使用BeautifulSoup来抓取网页中我们需要的内容。

首先调用urlopen读取对应url的内容,通常是一个html,用该html构造一个beautifulsoup对象。

beautifulsoup对象支持很多查找功能,也支持类似css的selector。通常如果有一个DOM对象是,我们使用以下方式来查找:

obj = soup.find("xx","cc")

另外一种常见的方式就是通过CSS的selector方式,在上述代码中,我们选择class=searchResult元素里面,所有的tr元素,过滤掉th也就是表头元素。

for dd in soup.select('.searchResult tr') if dd.contents[1].name != 'th'

对于每一行记录tr,生成一条球员记录,并存放在一个列表中。所以我们就循环tr的内容tr.contents,获得对应的field内容。

对于每一个tr的content,我们先检查其类型是不是一个Tag,对于Tag类型有几种情况,一种是包含img的情况,我们需要取出球员的头像图片的网址。

另一种是包含了一个链接,指向其他数据内容

所以在代码中要分别处理这些不同的情况。

对于一个Tag对象,Tag.x可以获得他的子对象,Tag['x']可以获得Tag的attribute的值。

所以用item.img['src']可以获得item的子元素img的src属性。

对已包含链接的情况,我们通过urlparse来获取查询url中的参数。这里我们利用了dict comprehension的把查询参数放入一个dict中,最有添加到列表中。

dict([(k,v[0]) for k,v in urlparse.parse_qs(o).items()])

对于其它情况,我们使用Python 的and or表达式以确保当Tag的内容为空时,我们写入‘na’,该表达式类似C/C++或Java中的三元操作符 X ? A : B

然后有一段代码判断当前记录的长度是否大于10,不大于10则用空值填充,目的是避免一些不一致的地方。

if len(record) != 10:

for i in range(0, 10 - len(record)):

record.append('na')

最后,我们把query中的一些相关的参数如球员的id,球队的id,所在的联赛代码等加入到列表。

record.append(unicode(link,'utf-8'))

record.append(unicode(query["id"],'utf-8'))

record.append(unicode(query["teamid"],'utf-8'))

record.append(unicode(query["lega"],'utf-8'))

最后我们把本页面所有球员的列表放入一个列表返回。

好了,现在我们拥有了一个包含所有球员的信息的列表,我们需要把它存下来,以进一步的处理,分析。通常,csv格式是一个常见的选择。

import csv

def write_csv(filename, content, header = None):

file = open(filename, "wb")

file.write('\xEF\xBB\xBF')

writer = csv.writer(file, delimiter=',')

if header:

writer.writerow(header)

for row in content:

encoderow = [dd.encode('utf8') for dd in row]

writer.writerow(encoderow)

write_csv('players.csv',result,player_fields)

这里需要注意的就是关于encode的问题。因为我们使用的时utf-8的编码方式,在csv的文件头,需要写入\xEF\xBB\xBF,详见这篇文章

好了现在大功告成,抓取的csv如下图:

因为之前我们还抓取了球员本赛季的比赛详情,所以我们可以进一步的抓取所有球员每一场比赛的记录

抓取的代码如下

def get_player_match(url):

html = urlopen(url).read()

soup = bs4.BeautifulSoup(html, "lxml")

matches = [ dd for dd in soup.select('.shtdm tr') if dd.contents[1].name != 'th']

records = []

for item in [ dd for dd in matches if len(dd.contents) > 11]: ## filter out the personal part

record = []

for match in [ dd for dd in item.contents if type(dd) is bs4.element.Tag]:

if match.string:

record.append(match.string)

else:

for d in [ dd for dd in match.contents if type(dd) is bs4.element.Tag]:

query = dict([(k,v[0]) for k,v in urlparse.parse_qs(d['href']).items()])

record.append('teamid' in query and query['teamid'] or query['id'])

record.append(d.string and d.string or 'na')

records.append(record)

return records[1:] ##remove the first record as the header

def get_players_match(playerlist, baseurl = BASE_URL + '/player.aspx?'):

result = []

for item in playerlist:

url = baseurl + item[10]

print url

result = result + get_player_match(url)

return result

match_fields = ['date_cn','homeid','homename_cn','matchid','score','awayid','awayname_cn','league_cn','firstteam','playtime','goal','assist','shoot','run','corner','offside','foul','violation','yellowcard','redcard','save']

write_csv('m.csv',get_players_match(result),match_fields)

抓取的过程和之前类似。

下一步做什么

现在我们拥有了详细的欧洲联赛的数据,那么下一步要怎么做呢,我推荐大家把数据导入BI工具来做进一步的分析。有两个比较好的选择:

Tableau在数据可视化领域可谓无出其右,Tableau Public完全免费,用数据可视化来驱动数据的探索和分析,拥有非常好的用户体验

Splunk提供一个大数据的平台,主要面向机器数据。支持每天免费导入500M的数据,如果是个人学习,应该足够了。

当然你也可以用Excel。 另外大家如果有什么好的免费的数据分析的平台,欢迎交流。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/565589.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【youcans 的 OpenCV 例程200篇】153. 边缘检测之 DoG 算子

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列,持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列,持续更新中 【youcans 的 OpenCV 例程200篇】153. 边缘检测之 DoG 算子 2.6 DoG 边缘检测算子 LoG 算子的计算量较大,可以通过数学…

目标检测_目标检测: AnchorFree 时代

本文转载自Smarter。自从2018年8月CornerNet开始,Anchor-Free的目标检测模型层出不穷,最近达到了井喷的状态,宣告着目标检测迈入了Anchor-Free时代。其实Anchor-Free并不是一个新概念了,大火的YOLO算是目标检测领域最早的Anchor-F…

热点地图

使用H5制作一个中国的热点地图&#xff0c;地图上标识出的地方会有波纹向四周散发的动态效果。 效果演示 代码演示 <!DOCTYPE html> <html xmlns"http://www.w3.org/1999/xhtml"><head><meta http-equiv"Content-Type" content&qu…

【youcans 的 OpenCV 例程200篇】154. 边缘检测之 Canny 算子

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列&#xff0c;持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列&#xff0c;持续更新中 【youcans 的 OpenCV 例程200篇】154. 边缘检测之 Canny 算子 2.7 Canny 边缘检测算法 Canny 算法希望在提高边缘的敏感性的同时抑…

段码液晶屏笔段电压范围_LCD段码(笔段)液晶显示屏和点阵液晶显示屏

液晶显示屏简称LCD屏&#xff0c;主要材料为液晶。液晶是一种有机材料&#xff0c;在特定温度范围内&#xff0c;既有液体流动性又有某些光学特性&#xff0c;其透明度和颜色随电场、磁场、光及温度等外界条件的变化而变化。液晶屏是一种被动式显示器件&#xff0c;液晶本身不会…

按规律插入一个数字到数组中

根据控制台的文本提示输入一个数&#xff0c;程序会把这个数按照规律插入到原来已经存在的数组中&#xff0c;并且会输出此数组。 结果演示 代码展示 package com.five;import java.util.Scanner;public class Crpx {public static Scanner input new Scanner(System.in);p…

【youcans 的 OpenCV 例程200篇】155. 边缘连接的局部处理方法

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列&#xff0c;持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列&#xff0c;持续更新中 【youcans 的 OpenCV 例程200篇】155. 边缘连接的局部处理方法 2.8 局部处理连接边缘 在实际应用中&#xff0c;由于噪声、光照等原…

hadoop yarn 获取日志_Hadoop YARN配置参数剖析(2)—权限与日志聚集相关参数

注意&#xff0c;配置这些参数前&#xff0c;应充分理解这几个参数的含义&#xff0c;以防止误配给集群带来的隐患。另外&#xff0c;这些参数均需要在yarn-site.xml中配置。1. 权限相关配置参数这里的权限由三部分组成&#xff0c;分别是&#xff1a;(1)管理员和普通用户如…

【youcans 的 OpenCV 例程200篇】156. 边缘连接局部处理的简化算法

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列&#xff0c;持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列&#xff0c;持续更新中 【youcans 的 OpenCV 例程200篇】156. 边缘连接局部处理的简化算法 2.8 局部处理连接边缘 在实际应用中&#xff0c;由于噪声、光照…

时间索引 mysql_mysql时间类型和表定义及索引定义

3.表定义基本形式&#xff1a;create table 【if not exists】 表名 ( 字段列表 【&#xff0c;索引或约束列表】) 【表选项列表】&#xff1b;或&#xff1a;create table 【if not exists】 表名 (字段1&#xff0c;字段2&#xff0c;....【&#xff0c;索引或约束1&…

矩阵对角线元素之和

根据控制台文本内容的提示输入9个数字&#xff0c;这九个数字将会组成一个3*3的矩阵&#xff0c;程序会计算出你输入的矩阵的对角线之和。 结果演示 代码演示 package com.five;import java.util.Scanner;public class Juzhen {public static Scanner input new Scanner(Sy…

计算机设计大赛国奖作品_5. 模拟退火求解旅行商问题

计算机设计大赛国奖作品_5. 模拟退火求解旅行商问题 本系列是2021年中国大学生计算机设计大赛作品“环境监测无人机航线优化”的相关文档&#xff0c;获得2021年西北赛区一等奖&#xff0c;国赛三等奖。学生习作&#xff0c;只供大家参考。 计算机设计大赛国奖作品_1. 项目概要…

mysql master-user_【MySQL】MySQL5.6数据库基于binlog主从(Master/Slave)同步安装与配置详解...

主从数据库同步原理image.png主从数据库同步工作原理(流程)&#xff1a;当主库的数据发生修改时&#xff0c;数据更改的记录将写入到主库的二进制文件中&#xff0c;从库此时将会调用一个IO线程读取主库的二进制文件&#xff0c;并与中继日志作对比&#xff0c;并将存在差异的事…

计算数字的位数并逆序输出

根据控制台文本提示输入一个数&#xff0c;这个数不能大于5位&#xff0c;并且要求是一个整数&#xff0c;程序会输出你输入数字的位数并且会输出每个数字在第几位&#xff0c;然后进行逆序输出显示。 结果演示 代码演示 package com.five;import java.util.Scanner;public …

【youcans 的 OpenCV 例程200篇】157. 霍夫变换直线检测

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列&#xff0c;持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列&#xff0c;持续更新中 【youcans 的 OpenCV 例程200篇】157. 霍夫变换直线检测 2.9 霍夫变换 霍夫变换&#xff08;Hough Transform&#xff09;是图像处…

数字排序

对数字进行排序输出&#xff0c;根据提示输入你要输入数字的个数&#xff0c;然后输入相关的数字&#xff0c;程序会进行排序输出。 结果演示 代码演示 package com.five;import java.util.Scanner;public class Paixu {public static Scanner input new Scanner(System.in…

linux 清除mysql密码_linux重置mysql密码

一般这个错误是由密码错误引起&#xff0c;解决的办法自然就是重置密码。假设我们使用的是root账户。1.重置密码的第一步就是跳过MySQL的密码认证过程&#xff0c;方法如下&#xff1a;#vim /etc/my.cnf(注&#xff1a;windows下修改的是my.ini)在文档内搜索mysqld定位到[mysql…

【youcans 的 OpenCV 例程200篇】158. 阈值处理之固定阈值法

欢迎关注 『youcans 的 OpenCV 例程 200 篇』 系列&#xff0c;持续更新中 欢迎关注 『youcans 的 OpenCV学习课』 系列&#xff0c;持续更新中 【youcans 的 OpenCV 例程200篇】158. 阈值处理之固定阈值法 3.1 阈值处理基础 阈值就是临界值。图像阈值处理简单、直观&#xff…

【youcans 的 OpenCV 例程200篇】159. 图像分割之全局阈值处理

【OpenCV 例程200篇】 系列&#xff0c;持续更新中… 【OpenCV 例程200篇 总目录-202205更新】 【youcans 的 OpenCV 例程200篇】159. 图像分割之全局阈值处理 3.2 全局阈值处理基本方法 当图像中的目标和背景的灰度分布较为明显时&#xff0c;可以对整个图像使用固定阈值进行…

求最大值

在一个整数数组里面求最大的一个数并输出显示。 结果演示 代码演示 package com.six; public class Max {public static void main(String[] args) {int[] arr{4,8,3,30,7,5};int maxgetMax(arr);System.out.println("max"max);}static int getMax(int[] arr){int…