【风变】Python爬虫精进复习-20240430

参考笔记

下面给出一个巨佬学习风变pyhton基础语法和爬虫精进的笔记（链接）
风变编程笔记(一)-Python基础语法
风变编程笔记(二)-Python爬虫精进

技术总结

request + BeautifulSoup
selenium + BeautifulSoup

练习0-1：文章下载

import requests
res=requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/exercise/HTTP%E5%93%8D%E5%BA%94%E7%8A%B6%E6%80%81%E7%A0%81.md')
files=res.text
print(files)
myfiles=open('myfiles.txt','w+')
myfiles.write(files)
myfiles.close()

练习0-2：图像下载

import requests
res=requests.get('https://res.pandateacher.com/2019-01-12-15-29-33.png')
pic = res.content
photo = open('ppt1.jpg','wb')
#新建了一个文件ppt.jpg，这里的文件没加路径，它会被保存在程序运行的当前目录下。
#图片内容需要以二进制wb读写。你在学习open()函数时接触过它。
photo.write(pic) 
#获取pic的二进制内容
photo.close()

练习0-3：音频下载

import requests
rec=requests.get('https://static.pandateacher.com/Over%20The%20Rainbow.mp3')
req=rec.content
mymusic=open('mymusic1.mp3','wb')
mymusic.write(req)
mymusic.close()

练习1-1：我的书苑我做主

必做：
修改网页标题
增加至少一本书的描述
修改网页底部

选做：
修改已有书籍的描述
增加多本书的描述
自由地在HTML文档上修改任意内容

<html><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><title>这个书苑不太冷5.0</title><style>a {text-decoration: none;}body {margin: 0;width:100%;height: 100%;}#header {background-color:#0c1f27;color:#20b2aa;text-align:center;padding:15px;}#nav {line-height:60px;background-color:#e0f2f0;width:80px;padding:30px;position: absolute;left: 0;top:0;bottom: 0;}#footer {background-color:#0c1f27;color:#20b2aa;clear:both;text-align:center;padding:35px;}#main {margin-left: 140px;padding-left: 150px;padding-right: 220px;overflow: scroll;}#article {display: flex;position: relative;}.catlog{font-size:20px;color:black;font-family: sans-serif;}.title {color:#20b2aa;font-size:20px;}.img {width: 185px;height: 266px;}</style></head><body><div id="header"><h1 style="font-size:50px;">这个书苑不太冷</h1></div><div id="article"><div id="nav"><a href="#type1" class="catlog">科幻小说</a><br><a href="#type2" class="catlog">人文读物</a><br><a href="#type3" class="catlog">技术参考</a><br></div><div id="main"><div class="books"><h2><a name="type1">科幻小说</a></h2><a href="https://book.douban.com/subject/27077140/" class="title">《奇点遗民》</a><p class="info">本书精选收录了刘宇昆的科幻佳作共22篇。《奇点遗民》融入了科幻艺术吸引人的几大元素：数字化生命、影像化记忆、人工智能、外星访客……刘宇昆的独特之处在于，他写的不是科幻探险或英雄奇幻，而是数据时代里每个人的生活和情感变化。透过这本书，我们看到的不仅是未来还有当下。</p> <img class="img" src="https://img3.doubanio.com/view/subject/l/public/s29492583.jpg"><br/><br/><hr size="1"></div><div class="books"><h2><a name="type2">人文读物</a></h2><a href="https://book.douban.com/subject/26943161/" class="title">《未来简史》</a><p class="info">未来，人类将面临着三大问题：生物本身就是算法，生命是不断处理数据的过程；意识与智能的分离；拥有大数据积累的外部环境将比我们自己更了解自己。如何看待这三大问题，以及如何采取应对措施，将直接影响着人类未来的发展。</p> <img class="img" src="https://img3.doubanio.com/view/subject/l/public/s29287103.jpg"><br/><br/><hr size="1"></div><div class="books"><h2><a name="type3">技术参考</a></h2><a href="https://book.douban.com/subject/25779298/" class="title">《利用Python进行数据分析》</a><p class="info">本书含有大量的实践案例，你将学会如何利用各种Python库（包括NumPy、pandas、matplotlib以及IPython等）高效地解决各式各样的数据分析问题。由于作者Wes McKinney是pandas库的主要作者，所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。</p> <img class="img" src="ttps://img3.doubanio.com/view/subject/l/public/s27275372.jpg"><br/><br/><hr size="1"></div></div></div><div id="footer">Copyright © ForChange 风变科技</div></body>
</html>

第2关：这个书苑不太冷（静态网页）

目标网址：https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html
即爬取这个书苑不太冷网站中每本书的类型、名字、链接和简介的文字

# 调用requests库
import requests 
# 调用BeautifulSoup库
from bs4 import BeautifulSoup 
# 返回一个response对象，赋值给res
res =requests.get('https://localprod.pandateacher.com/python-manuscript/crawler-html/spider-men5.0.html')
# 把res解析为字符串
html=res.text
# 把网页解析为BeautifulSoup对象
soup = BeautifulSoup( html,'html.parser')
# 通过匹配属性class='books'提取出我们想要的元素
items = soup.find_all(class_='books')  
# 遍历列表items
for item in items:       # 在列表中的每个元素里，匹配标签<h2>提取出数据               kind = item.find('h2')     #  在列表中的每个元素里，匹配属性class_='title'提取出数据          title = item.find(class_='title')  # 在列表中的每个元素里，匹配属性class_='info'提取出数据   brief = item.find(class_='info')      # 打印书籍的类型、名字、链接和简介的文字print(kind.text,'\n',title.text,'\n',title['href'],'\n',brief.text)

练习2-1：博客爬虫

目标网址：https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/
在这里插入图片描述

在这里插入图片描述

import requests
from bs4 import BeautifulSoupres=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/all-about-the-future_04/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(class_='comment-list')#用find找出大的地址
items=Aitems.find_all('article')#在大的地址中用find_all来找出小地址的列表for item in items:user1=item.find('b') #    user1=item.find(class_='fn')comment1=item.find(class_='comment-content')print('评论者',user1.text,'\n','评论',comment1.text)

练习2-2：书店寻宝

目标网址：http://books.toscrape.com/
在这里插入图片描述

在这里插入图片描述

import requests
from bs4 import BeautifulSoupres=requests.get('http://books.toscrape.com/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
items=soup.find('ul',class_='nav nav-list').find('li').find('ul').find_all('li')'''
for item in items:fenlei=item.find('a')print((fenlei.text).strip())with open('doc3.doc','a+') as doc3:doc3.write((fenlei.text).strip())doc3.write('\n')
'''item_book=soup.find('ol',class_='row').find_all('li')
#print(item_book)for item in item_book:item_name=item.find('article',class_='product_pod').find('h3').find('a')item_price=item.find('article',class_='product_pod').find('div',class_='product_price').find('p',class_='price_color')item_rate=item.find('article',class_='product_pod').find('p')
#    print(item_rate['class'][1])
#    print(item_name['title'],'\t')
#    print(item_price.text)
#    print(item_name['title'],'\t',item_price.text)print(item_name['title'],'\t',item_price.text,'\t',item_rate['class'][1])

练习2-3：博客文章

目标网址：https://wordpress-edu-3autumn.localprod.oc.forchange.cn/
在这里插入图片描述

import requests
from bs4 import BeautifulSoupres=requests.get('https://wordpress-edu-3autumn.localprod.oc.forchange.cn/')
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(id='main')#用find找出大的地址
items=Aitems.find_all('article')#在大的地址中用find_all来找出小地址的列表for item in items:item1=item.find(class_="entry-title") item2=item.find(class_='entry-date published')item3=item.find('h2').find('a')['href']print('标题',item1.text,'\n','时间',item2.text,'\n','链接',item3)

第3关：下厨房

目标网址：https://www.xiachufang.com/explore/
在这里插入图片描述

写一个循环，提取当前页面的所有菜名、URL、食材，并将它存入列表。其中每一组菜名、URL、食材是一个小列表，小列表组成一个大列表。

# 引用requests库
import requests
# 引用BeautifulSoup库
from bs4 import BeautifulSoup# 获取数据
res_foods = requests.get('http://www.xiachufang.com/explore/')
# 解析数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser')
# 查找最小父级标签
list_foods = bs_foods.find_all('div',class_='info pure-u')# 创建一个空列表，用于存储信息
list_all = []for food in list_foods:# 提取第0个父级标签中的<a>标签tag_a = food.find('a')# 菜名，使用[17:-13]切掉了多余的信息name = tag_a.text[17:-13]# 获取URLURL = 'http://www.xiachufang.com'+tag_a['href']# 提取第0个父级标签中的<p>标签tag_p = food.find('p',class_='ing ellipsis')# 食材，使用[1:-1]切掉了多余的信息ingredients = tag_p.text[1:-1]# 将菜名、URL、食材，封装为列表，添加进list_alllist_all.append([name,URL,ingredients])# 打印
print(list_all)

我的做法：顺便下载图片（大同小异）

import requests
from bs4 import BeautifulSoupheaders = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36',# 标记了请求从什么设备，什么浏览器上发出}res=requests.get('https://www.xiachufang.com/explore/',headers=headers)
html=res.text
soup=BeautifulSoup(html,'html.parser')
Aitems=soup.find(class_='normal-recipe-list')#用find找出大的地址
items=Aitems.find_all('li')#在大的地址中用find_all来找出小地址的列表item_list = []for item in items:item1=item.find(class_="name") .text.replace('\n\n                ','').replace('\n            \n\n','').replace('\n','').replace('\n','')item2=item.find(class_='ing ellipsis').text.replace('\n','').replace('\n','').replace('\n','')item3=item.find('a')['href']item4=item.find('img')['data-src']item_list.append([item1,item2,'https://www.xiachufang.com/'+item3])print('菜名',item1,'\n','材料',item2,'\n','链接',item3,'图片链接',item4)res=requests.get(item4)pic = res.contentphoto = open(item1+'.jpg','wb')photo.write(pic) photo.close()
#print(item_list)

在这里插入图片描述

练习3-1：豆瓣电影爬虫

目标网址：https://movie.douban.com/top250?start=25&filter=
在这里插入图片描述

在这里插入图片描述

import requests, bs4# 为躲避反爬机制，伪装成浏览器的请求头
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}for x in range(10):url = 'https://movie.douban.com/top250?start=' + str(x*25) + '&filter='res = requests.get(url, headers=headers)bs = bs4.BeautifulSoup(res.text, 'html.parser')bs = bs.find('ol', class_="grid_view")for titles in bs.find_all('li'):num = titles.find('em',class_="").text#查找序号title = titles.find('span', class_="title").text#查找电影名tes = titles.find('span',class_="inq").text#查找推荐语comment = titles.find('span',class_="rating_num").text#查找评分url_movie = titles.find('a')['href']print(num + '.' + title + '——' + comment + '\n' + '推荐语：' + tes +'\n' + url_movie)

我的答案（差不多）

import requests
from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for i in range(0,10):url = 'https://movie.douban.com/top250?start='+ str(i*25) +'&filter='res=requests.get(url=url,headers=headers)html=res.textsoup=BeautifulSoup(html,'html.parser')Aitems=soup.find(class_='grid_view')#用find找出大的地址items=Aitems.find_all('li')#在大的地址中用find_all来找出小地址的列表item_list = []for item in items:item0=item.find('em').textitem1=item.find('span', class_="title").textitem2=item.find('a')['href']if item.find(class_='inq'): item3=item.find(class_='inq').textelse:item3=''item4=item.find(class_='rating_num').text#item_list.append([item1,item2,item3])print('序号',item0,'\n','电影名',item1,'\n','链接',item2,'\n','推荐语',item3,'\n','评分',item4)

在这里插入图片描述

练习3-1B：豆瓣电影爬虫（非风变）

目标网址：https://movie.douban.com/cinema/nowplaying/foshan/
在这里插入图片描述

import requests
from bs4 import BeautifulSoupheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
for i in range(0,1):url = 'https://movie.douban.com/cinema/nowplaying/foshan/'res=requests.get(url=url,headers=headers)html=res.textsoup=BeautifulSoup(html,'html.parser')Aitems=soup.find('ul',class_='lists')#用find找出大的地址items=Aitems.find_all('li',class_="list-item")#在大的地址中用find_all来找出小地址的列表item_list = []for item in items:item0=item['data-title']item1=item['data-region']item2=item['data-actors']item3=item.find('li',class_="srating").text.replace('\n','')item4=item.find('a',class_="ticket-btn")['href']print('\n','电影名',item0,'\n','地区',item1,'\n','演员',item2,'\n','评分',item3,'\n','详细链接',item4)

在这里插入图片描述

练习3-2：一键下电影（风变网址已变更）

在这里插入图片描述
1.步骤一
“输名字”，学过基础课的同学一定可以想到，用input()就可以啦。

2.步骤二
”搜索结果页面“ 这里面涉及到一个坑，我们要一起填上。输入不同的电影名，观察搜索结果页面的URL：

《无名之辈》的搜索结果URL：http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%CE%DE%C3%FB%D6%AE%B1%B2
《神奇动物》的搜索结果URL：http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%C9%F1%C6%E6%B6%AF%CE%EF
《狗十三》 的搜索结果URL：http://s.ygdy8.com/plus/s0.php?typeid=1&keyword=%B9%B7%CA%AE%C8%FD

观察URL，不难发现：http://s.ygdy8.com/plus/s0.php?typeid=1&keyword= 这些都是一样的，只不过不同的电影名对应URL后面加了一些我们看不懂的字符，请阅读以下代码，注意注释哦：

a= '无名之辈'
b= a.encode('gbk')
# 将汉字，用gbk格式编码，赋值给b
print(quote(b))
# quote()函数，可以帮我们把内容转为标准的url格式，作为网址的一部分打开#%CE%DE%C3%FB%D6%AE%B1%B2

中文 - gbk - url - 拼接

3.步骤三 + 步骤四
”进入下载页面“ 与 “找到下载链接” 就是解析网页定位啦，利用find() 和 find_all()，都是你会的内容，加油呀～

练习3-2B：一键下电影（新网址–利用Selenium+BS解决）

目标网址：https://www.dygod.net/
在这里插入图片描述

import requests
from bs4 import BeautifulSoup
from urllib.parse import quote,unquote
from selenium import webdriver
import os
import time#movie_name = input('请输入电影名')
movie_name = '怦然心动'# Selenium模拟人工进入
chromedriver = r"C:/Program Files (x86)/Google/Chrome/Application/chromedriver.exe" #这里写本地的chromedriver 的所在路径
os.environ['webdriver.Chrome.driver'] = chromedriver #调用chrome浏览器
driver = webdriver.Chrome(chromedriver)
driver.maximize_window()
driver.get('https://www.dygod.net/')
time.sleep(1)item1 = driver.find_element_by_name('keyboard')
item1.send_keys(movie_name)
time.sleep(1)item2 = driver.find_element_by_name('Submit')
item2.click()
time.sleep(1)
print('Submit')# 解析新网页
page_sourse = driver.page_source
#print('page_sourse',page_sourse)
soup=BeautifulSoup(page_sourse,'html.parser')
#print('soup',soup)
Aitems=soup.find('div',class_='co_content8').find_all('table')
#print('Aitems',Aitems)for item in Aitems:item1 = item.find('a',class_="ulink").textitem2 = item.find('a',class_="ulink")['href']print('\n','电影名',item1,'\n','链接',item2)

在这里插入图片描述

第4关：寻找周杰伦（QQ音乐网页已变更，原代码失效）

目标网站：https://y.qq.com/

在这里插入图片描述

# 引用requests库   
import requests
# 调用get方法，下载这个字典
res_music = requests.get('https://c.y.qq.com/soso/fcgi-bin/client_search_cp?ct=24&qqmusic_ver=1298&new_json=1&remoteplace=txt.yqq.song&searchid=60997426243444153&t=0&aggr=1&cr=1&catZhida=1&lossless=0&flag_qc=0&p=1&n=20&w=%E5%91%A8%E6%9D%B0%E4%BC%A6&g_tk=5381&loginUin=0&hostUin=0&format=json&inCharset=utf8&outCharset=utf-8&notice=0&platform=yqq.json&needNewCode=0')
# 使用json()方法，将response对象，转为列表/字典
json_music = res_music.json()
# 一层一层地取字典，获取歌单列表
list_music = json_music['data']['song']['list']
# list_music是一个列表，music是它里面的元素
for music in list_music:# 以name为键，查找歌曲名print(music['name'])# 查找专辑名print('所属专辑：'+music['album']['name'])# 查找播放时长print('播放时长：'+str(music['interval'])+'秒')# 查找播放链接print('播放链接：https://y.qq.com/n/yqq/song/'+music['mid']+'.html\n\n')