五、保存数据到Excel、sqlite（爬虫及数据可视化）

1，保存数据到excel
- 1.1 保存九九乘法表到excel
- - （1）代码testXwlt.py
  - （2）excel保存结果
- 1.2 爬取电影详情并保存到excel
- - （1）代码spider.py
  - （3）excel保存结果
2，保存数据到sqlite
- 2.1 sqlite数据库
- 2.2 创建表
- 2.3 插入数据
- 2.4 查询数据
- 2.5 保存数据到数据库db文件
- 2.6 完整代码spider.py

1，保存数据到excel

在这里插入图片描述

1.1 保存九九乘法表到excel

（1）代码testXwlt.py

#-*- codeing = utf-8 -*- 
#@Time : 2020/11/23 15:35
#@Author : 招财进宝
#@File : testXwlt.py
#@Software: PyCharmimport xlwt'''
workbook = xlwt.Workbook(encoding="utf-8")      #创建workbook对象（可以理解为一个文件）
worksheet = workbook.add_sheet('sheet1')        #创建工作表，可理解为文件中的表单
worksheet.write(0,0,"hello")                    #写入数据（写到的是内存中），第一个参数“行”，第二个“列”，第三个参数“内容”
workbook.save('student.xls')                    #保存数据表到硬盘
'''workbook = xlwt.Workbook(encoding="utf-8")      #创建workbook对象（可以理解为一个文件）
worksheet = workbook.add_sheet('sheet1')        #创建工作表，可理解为文件中的表单for i in range(0,9):for j in range(0,i+1):worksheet.write(i, j, "%d*%d=%d"%(i+1,j+1,(i+1)*(j+1)))workbook.save('student.xls')                    #保存数据表到硬盘

（2）excel保存结果

在这里插入图片描述

1.2 爬取电影详情并保存到excel

（1）代码spider.py

以下为完整代码

#-*- codeing = utf-8 -*- 
#@Time : 2020/11/20 11:08
#@Author : 招财进宝
#@File : spider.py
#@Software: PyCharmfrom bs4  import  BeautifulSoup       #网页解析，获取数据
import re           #正则表达式，进行文字匹配
import urllib.request,urllib.error          #指定url，获取网页数据
import xlwt         #进行Excel操作
import sqlite3       #进行SQLite操作def main():baseurl = "https://movie.douban.com/top250?start="#1.爬取网页datalist = getData(baseurl)savapath = "豆瓣电影TOP250.xls"#3.保存数据savaData(datalist,savapath)#askURL("https://movie.douban.com/top250?start=0")#影片详情链接的规则
findLink = re.compile(r'a href="(.*?)">')         #生成正则表达式对象，表示规则（字符串的模式）,用来匹配所有的链接
#影片 图片的链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)  #re.S忽略里面的换行符，让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge =  re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findIng = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)   #re.S忽略里面的换行符，让换行符包含在字符中#爬取网页
def getData(baseurl):datalist=[]for i in range(0,10):               #此处是爬取10页是数据，每页有25个电影数据（（0,10）左闭，右开）url = baseurl + str(i*25)       #每一页的url后的起始位置=页数*25html = askURL(url)              #保存获取到的网页源码# 2.逐一解析数据（每个网页解析一下）soup = BeautifulSoup(html,"html.parser")     #使用html解析器html.parser解析html# find_all()查找符合要求的字符串，形成列表for item in soup.find_all('div',class_="item"):      #class是个类别需要加下划线，将及时div又是class_="item"的标签找到#print(item)    #测试：查看电影item全部信息#print(type(item))data=[]         #保存一部电影的所有信息item = str(item)    #str将item变成字符串#print(item)#print(type(item))#break              #用来测试第一条item#接下来可以使用正则表达式对字符串进行解析了#影片详情的链接link = re.findall(findLink,item)[0]         #re库用来通过正则表达式查找指定的字符串,获取两个相同的链接中的第一个#print(link)data.append(link)                           #添加链接imgSrc = re.findall(findImgSrc,item)[0]data.append(imgSrc)                         #添加图片titles = re.findall(findTitle,item)     #片名可能只有一个中文名，没有外文名if(len(titles)==2) :ctitle =titles[0]                   #中文名的标题data.append(ctitle)otitle = titles[1].replace("/","")  #去掉无关的符号data.append(otitle)                 #添加外国名else:data.append(titles[0])              #将第一个中文名填入data.append(' ')                    #留空，用于占据外国名的位置，防止位置不对称rating = re.findall(findRating,item)[0]data.append(rating)                     #添加评分judgeNum = re.findall(findJudge,item)[0]data.append(judgeNum)                   #添加评价人数inq = re.findall(findIng,item)#（不一定每个电影都有概述）if len(inq) !=0:inq=inq[0].replace("。","")      #去掉句号data.append(inq)                        #添加概述else:data.append(" ")                  #留空bd = re.findall(findBd,item)[0]bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)      #去掉<br/>bd = re.sub('/'," ",bd)                 #替换/data.append(bd.strip())                 #去掉前后的空格datalist.append(data)                   #把处理好的一部电影信息放入datalist#print(datalist)return datalist      #返回数据列表#得到指定一个url的网页内容
def askURL(url):#head作用是为了让对方自己是浏览器，模拟浏览器头部信息，向豆瓣服务器发送消息#head信息一定不要写错，否则会返回否码为418，对方不认为我们是浏览器head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}               #如果信息不多的话，可以使用键值对的方式，若很多的话可以使用列表的方式head=[]#用户代理。表示告诉豆瓣服务器。我们是什么类型的机器。浏览器（本质上是告诉浏览器。我们可以接收什么水平的文件内容）#发送消息使用下方方式request = urllib.request.Request(url=url, headers=head)  # 构建的是请求对象,使用Request()封装了请求对象,此对象包含url和head头部信息#可以携带头部信息访问url,try:response = urllib.request.urlopen(request)          #发送请求对象，返回一个response对象，此对象包含我们的网页信息html = response.read().decode("utf-8")              #将读取的html界面读取出来#print(html)                                        #打印获取的网页except urllib.error.URLError as e:                      #访问时可能会遇到404遇到一些浏览器内部错误，如500等if hasattr(e,"code"):                   #将里面的如404等code打印出来print(e.code)if hasattr(e, "reason"):                #将产生的错误的原因打印出来print(e.reason)return html#保存数据
def savaData(datalist,savapath):book = xlwt.Workbook(encoding="utf-8",style_compression=0)  # 创建workbook对象（可以理解为一个文件）,style_compression样式压缩效果sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表，可理解为文件中的表单,cell_overwrite_ok是否覆盖掉以前的内容col = ('电影详情链接',"图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")for i in range(0,8):sheet.write(0,i,col[i])     #列名for i in range(0,250):print("第%d条"%(i+1))data = datalist[i]for j in range(0,8):sheet.write(i+1,j,data[j])      #数据book.save(savapath)  # 保存数据表到硬盘if __name__ == "__main__":          #当程序执行时#调用函数main()print("爬取完毕！")

（3）excel保存结果

以下为爬虫的Excel保存版本的结果
在这里插入图片描述

2，保存数据到sqlite

2.1 sqlite数据库

在这里插入图片描述

一定注意下方的可能标红，要选择下载驱动文件
在这里插入图片描述

确定后如下
在这里插入图片描述

右侧的数据库管理窗口图形平台，不弱于任何一个图形化的数据库管理工具

2.2 创建表

Sqlite数据库的存储类型非常少

#-*- codeing = utf-8 -*- 
#@Time : 2020/11/23 18:27
#@Author : 招财进宝
#@File : testSqlite.py
#@Software: PyCharmimport sqlite3      #在python3后默认支持的库# conn = sqlite3.connect("test.db")       #连接数据库文件，若当前路径下无就建立（）
# print("opened database successfully")conn = sqlite3.connect("test.db")       #连接数据库文件，若当前路径下无就建立（）
print("成功打开数据库")c = conn.cursor()       #获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句#单个’是字符，两个“”是字符串，三个'''是段落（多行字符串）
sql ='''create table company(id int primary key not null,name text not null,age int noy null,address char(50),salary real);
'''c.execute(sql)          #执行SQL语句
conn.commit()           #提交数据库操作（让sql语句真正生效）
conn.close()            #关闭数据库连接print("成功建表")

上面程序运行成功后

在这里插入图片描述

2.3 插入数据

可以直接在上面添加数据

在这里插入图片描述

#3.插入数据
conn = sqlite3.connect("test.db")       #连接数据库文件，若当前路径下无就建立（）
print("成功打开数据库")c = conn.cursor()       #获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句#单个’是字符，两个“”是字符串，三个'''是段落（多行字符串）
sql1 ='''insert into company (id, name, age, address, salary)values (1,'张三',32,"成都",8000)
'''sql2 ='''insert into company (id, name, age, address, salary)values (2,'李四',30,"重庆",15000)
'''c.execute(sql1)          #执行SQL语句
c.execute(sql2)          #执行SQL语句
conn.commit()           #提交数据库操作（让sql语句真正生效）
conn.close()            #关闭数据库连接print("数据插入完毕")

在这里插入图片描述

2.4 查询数据

#4.查询数据
conn = sqlite3.connect("test.db")       #连接数据库文件，若当前路径下无就建立（）
print("成功打开数据库")c = conn.cursor()       #获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句#单个’是字符，两个“”是字符串，三个'''是段落（多行字符串）
sql ="select id,name,address,salary from company"           #将里面的所有字段的数据查找出来cursor = c.execute(sql)          #执行SQL语句,会有返回值，使用cursor接收for row in cursor:print("id=",row[0])print("name=", row[1])print("address=", row[2])print("salary=", row[3],"\n")conn.close()            #关闭数据库连接（因为是查询不需要提交，直接关闭数据库）print("数据查询完毕")

G:\AILearning\AID2002\venv\Scripts\python.exe "G:/Python Project/shixun/test/testSqlite.py"
成功打开数据库
id= 1
name= 张三
address= 成都
salary= 8000.0 id= 2
name= 李四
address= 重庆
salary= 15000.0 数据查询完毕Process finished with exit code 0

2.5 保存数据到数据库db文件

#保存数据到数据库db文件
def savaData2DB(datalist, dbpath):#datalist是一条一条的电影信息，每个电影信息是一个列表，要将每条信息生成一个SQL语句init_db(dbpath)conn = sqlite3.connect(dbpath)  # dbpath连接存在就是连接，不存在就是创建cur = conn.cursor()  # 获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句#一条电影信息[['https://movie.douban.com/subject/1292052/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg', '肖申克的救赎', '\xa0\xa0The Shawshank Redemption', '9.7', '2192734', '希', '导演: 弗兰克·德拉邦特 Frank Darabont\xa0\xa0\xa0主演: 蒂姆·罗宾斯 Tim Robbins  ... 1994\xa0 \xa0美国\xa0 \xa0犯罪 剧情']# sql1 ='''#     insert into company (id, name, age, address, salary)#     values (1,'张三',32,"成都",8000)# '''for data in datalist:for index in range(len(data)):#注意要加入双引号进行sql语句的拼写data[index] = '"'+data[index]+'"'sql = '''insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)values(%s)'''%",".join(data)    #将data每个中间用逗号连接，%是占位符，将后面的语句舔不到前面的%sprint(sql)              #测试SQL语句是否正确#         cur.execute(sql)#         conn.commit()# cur.close()# conn.close()

（1）测试SQL语句是否拼接正确，看打印如下

insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)values("https://movie.douban.com/subject/1292052/","https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg","肖申克的救赎","  The Shawshank Redemption","9.7","2193990","希望让人自由","导演: 弗兰克·德拉邦特 Frank Darabont   主演: 蒂姆·罗宾斯 Tim Robbins  ... 1994   美国   犯罪 剧情")insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)values("https://movie.douban.com/subject/1291546/","https://img3.doubanio.com/view/photo/s_ratio_poster/public/p2561716440.jpg","霸王别姬"," ","9.6","1627621","风华绝代","导演: 陈凯歌 Kaige Chen   主演: 张国荣 Leslie Cheung   张丰毅 Fengyi Zha... 1993   中国大陆 中国香港   剧情 爱情 同性")

（2）将打印出的SQL语句直接放在database执行判断是否成功，注意在最后的)后面不要有空格
在这里插入图片描述

（3）删除db文件

在这里插入图片描述

（4）注意要在此处进行SQL语句的调试，调试后的语句如下，不能全是字符串，应该有的变成数值类型

insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)  values("https://movie.douban.com/subject/1307106/","https://img3.doubanio.com/view/photo/s_ratio_poster/public/p958008320.jpg","无间道2","  無間道II",8.6,303304," ","导演: 刘伟强   麦兆辉   主演: 陈冠希   余文乐   曾志伟 2003   中国香港   动作 犯罪 剧情 惊悚")

在这里插入图片描述

（5）此时爬取成功，保存到数据库如下
在这里插入图片描述

2.6 完整代码spider.py

#-*- codeing = utf-8 -*- 
#@Time : 2020/11/20 11:08
#@Author : 招财进宝
#@File : spider.py
#@Software: PyCharmfrom bs4  import  BeautifulSoup       #网页解析，获取数据
import re           #正则表达式，进行文字匹配
import urllib.request,urllib.error          #指定url，获取网页数据
import xlwt         #进行Excel操作
import sqlite3       #进行SQLite操作def main():baseurl = "https://movie.douban.com/top250?start="#1.爬取网页datalist = getData(baseurl)#3.保存数据#保存到Excel#savapath = "豆瓣电影TOP250.xls"#savaData(datalist,savapath)#3.保存到数据库db中去dbpath = "movie.db"savaData2DB(datalist, dbpath)#askURL("https://movie.douban.com/top250?start=0")#影片详情链接的规则
findLink = re.compile(r'a href="(.*?)">')         #生成正则表达式对象，表示规则（字符串的模式）,用来匹配所有的链接
#影片 图片的链接
findImgSrc = re.compile(r'<img.*src="(.*?)"',re.S)  #re.S忽略里面的换行符，让换行符包含在字符中
#影片片名
findTitle = re.compile(r'<span class="title">(.*)</span>')
#影片的评分
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
#找到评价人数
findJudge =  re.compile(r'<span>(\d*)人评价</span>')
#找到概况
findIng = re.compile(r'<span class="inq">(.*)</span>')
#找到影片的相关内容
findBd = re.compile(r'<p class="">(.*?)</p>',re.S)   #re.S忽略里面的换行符，让换行符包含在字符中#爬取网页
def getData(baseurl):datalist=[]for i in range(0,10):               #此处是爬取10页是数据，每页有25个电影数据（（0,10）左闭，右开）url = baseurl + str(i*25)       #每一页的url后的起始位置=页数*25html = askURL(url)              #保存获取到的网页源码# 2.逐一解析数据（每个网页解析一下）soup = BeautifulSoup(html,"html.parser")     #使用html解析器html.parser解析html# find_all()查找符合要求的字符串，形成列表for item in soup.find_all('div',class_="item"):      #class是个类别需要加下划线，将及时div又是class_="item"的标签找到#print(item)    #测试：查看电影item全部信息#print(type(item))data=[]         #保存一部电影的所有信息item = str(item)    #str将item变成字符串#print(item)#print(type(item))#break              #用来测试第一条item#接下来可以使用正则表达式对字符串进行解析了#影片详情的链接link = re.findall(findLink,item)[0]         #re库用来通过正则表达式查找指定的字符串,获取两个相同的链接中的第一个#print(link)data.append(link)                           #添加链接imgSrc = re.findall(findImgSrc,item)[0]data.append(imgSrc)                         #添加图片titles = re.findall(findTitle,item)     #片名可能只有一个中文名，没有外文名if(len(titles)==2) :ctitle =titles[0]                   #中文名的标题data.append(ctitle)otitle = titles[1].replace("/","")  #去掉无关的符号data.append(otitle)                 #添加外国名else:data.append(titles[0])              #将第一个中文名填入data.append(' ')                    #留空，用于占据外国名的位置，防止位置不对称rating = re.findall(findRating,item)[0]data.append(rating)                     #添加评分judgeNum = re.findall(findJudge,item)[0]data.append(judgeNum)                   #添加评价人数inq = re.findall(findIng,item)#（不一定每个电影都有概述）if len(inq) !=0:inq=inq[0].replace("。","")      #去掉句号data.append(inq)                        #添加概述else:data.append(" ")                  #留空bd = re.findall(findBd,item)[0]bd = re.sub('<br(\s+)?/>(\s+)?'," ",bd)      #去掉<br/>bd = re.sub('/'," ",bd)                 #替换/data.append(bd.strip())                 #去掉前后的空格datalist.append(data)                   #把处理好的一部电影信息放入datalist#print(datalist)return datalist      #返回数据列表#得到指定一个url的网页内容
def askURL(url):#head作用是为了让对方自己是浏览器，模拟浏览器头部信息，向豆瓣服务器发送消息#head信息一定不要写错，否则会返回否码为418，对方不认为我们是浏览器head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"}               #如果信息不多的话，可以使用键值对的方式，若很多的话可以使用列表的方式head=[]#用户代理。表示告诉豆瓣服务器。我们是什么类型的机器。浏览器（本质上是告诉浏览器。我们可以接收什么水平的文件内容）#发送消息使用下方方式request = urllib.request.Request(url=url, headers=head)  # 构建的是请求对象,使用Request()封装了请求对象,此对象包含url和head头部信息#可以携带头部信息访问url,try:response = urllib.request.urlopen(request)          #发送请求对象，返回一个response对象，此对象包含我们的网页信息html = response.read().decode("utf-8")              #将读取的html界面读取出来#print(html)                                        #打印获取的网页except urllib.error.URLError as e:                      #访问时可能会遇到404遇到一些浏览器内部错误，如500等if hasattr(e,"code"):                   #将里面的如404等code打印出来print(e.code)if hasattr(e, "reason"):                #将产生的错误的原因打印出来print(e.reason)return html#保存数据到Excel
def savaData(datalist,savapath):book = xlwt.Workbook(encoding="utf-8",style_compression=0)  # 创建workbook对象（可以理解为一个文件）,style_compression样式压缩效果sheet = book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)  # 创建工作表，可理解为文件中的表单,cell_overwrite_ok是否覆盖掉以前的内容col = ('电影详情链接',"图片链接","影片中文名","影片外国名","评分","评价数","概况","相关信息")for i in range(0,8):sheet.write(0,i,col[i])     #列名for i in range(0,250):print("第%d条"%(i+1))data = datalist[i]for j in range(0,8):sheet.write(i+1,j,data[j])      #数据book.save(savapath)  # 保存数据表到硬盘#保存数据到数据库db文件
def savaData2DB(datalist, dbpath):#datalist是一条一条的电影信息，每个电影信息是一个列表，要将每条信息生成一个SQL语句init_db(dbpath)conn = sqlite3.connect(dbpath)  # dbpath连接存在就是连接，不存在就是创建cur = conn.cursor()  # 获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句#一条电影信息[['https://movie.douban.com/subject/1292052/', 'https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.jpg', '肖申克的救赎', '\xa0\xa0The Shawshank Redemption', '9.7', '2192734', '希', '导演: 弗兰克·德拉邦特 Frank Darabont\xa0\xa0\xa0主演: 蒂姆·罗宾斯 Tim Robbins  ... 1994\xa0 \xa0美国\xa0 \xa0犯罪 剧情']# insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)# values("https://movie.douban.com/subject/1307106/",#        "https://img3.doubanio.com/view/photo/s_ratio_poster/public/p958008320.jpg",#        "无间道2",#        "  無間道II",#        8.6,#        303304,#        " ",#        "导演: 刘伟强   麦兆辉   主演: 陈冠希   余文乐   曾志伟 2003   中国香港   动作 犯罪 剧情 惊悚")for data in datalist:for index in range(len(data)):#注意要加入双引号进行sql语句的拼写#当下标为4,5（score,rated）时，插入的类型应该是数值类型的(当遇到数值类型的不需要加双引号，跳过保持原来的即可)if index==4 or index==5:continuedata[index] = '"'+data[index]+'"'sql = '''insert into movie250(info_link,pic_link,cname,ename,score,rated,instroduction,info)values(%s)'''%",".join(data)    #将列表data每个中间用逗号连接，%是占位符，将后面的语句舔不到前面的%sprint(sql)              #测试SQL语句是否正确cur.execute(sql)conn.commit()cur.close()conn.close()#创建初始化数据库
def init_db(dbpath):sql  = '''create table movie250           (id integer primary key autoincrement,info_link text,pic_link text,cname varchar,ename varchar,score numeric,rated numeric,instroduction text,info text);'''       #创建数据表conn = sqlite3.connect(dbpath)          #dbpath连接存在就是连接，不存在就是创建cursor = conn.cursor()       #获取游标，操作数据库的对象，里面有个方法execute可以执行SQL语句cursor.execute(sql)conn.commit()               #提交数据库操作conn.close()                #关闭数据库连接if __name__ == "__main__":          #当程序执行时#调用函数main()#init_db("movietest.db")        #测试初始化是否正确print("爬取完毕！")