零基础爬虫requests初阶教程，手把手教你爬数据

一、环境与工具

二、学爬虫必备知识

三、简单体验 requests

四、get 请求

3.1 基础讲解一

3.3 基础讲解二

3.2 基础讲解三

3.4 获取cookie

3.5 获取请求头

3.6 添加请求头

3.5 知乎爬取+反扒技术

3.6 抓取二进制数据

3.7 美女私房照爬取（准备发车）

四、 POST 请求

4.1 数据表单提交

4.2 添加请求头

4.3 提交json

4.4 普通文件上传

一、环境与工具

环境：jupyter
如果你没有安装该工具和不会使用，请看这一篇文章：pycharm安装配置与使用详细教程
你可能还会需要这两篇文章：
1-亲测jupyter打不开浏览器
2-设置默认打开文件夹
模块安装：

!pip install requests

演示安装：

安装完毕：

二、学爬虫必备知识

如果你python基础都不会，建议你先大佬写的python基础专栏：python全栈基础教程
他的基础专栏包括最基本的基础，re正则表达式,画图，文件处理，django，mysql操作处理等，如果你基础都不会，建议你先收藏本篇内容，去学完基础，再来看本篇文章。

三、简单体验 requests

以百度为例子：

网址：https://www.baidu.com/

import requests  r = requests.get('https://www.baidu.com/')  
print(type(r))  
print(r.status_code)  
print(type(r.text))  
print(r.text)  
print(r.cookies)

运行结果：

输出结果得到了一个 Response 对象，然后分别输出了 Response 的类型、状态码、响应体的类型、内容以及 Cookies。或许在这里你还看不懂，那么请看下去，你会懂的！

四、get 请求

3.1 基础讲解一

还是以百度为例子：

网址：https://www.baidu.com/

为什么我这里只演示了百度？因为这个不会被反扒，如果被反扒，则会返回为空。大家可以试试别的网址，比如我的博客地址，基本返回为空。但不必担心，后续会学习并分享给大家有关反扒的。

我们用get请求网址，打印txt则获取到百度页面源码：

import requests 
r = requests.get('https://www.baidu.com/') 
print(r.text)

输出结果：

3.3 基础讲解二

我们以CSDN为例：

这里就直接使用requests模块的get函数直接来获取（get和urlopen是相同的），主要是这个更方便些：

import requestsr=requests.get('https://mp.csdn.net/mp_blog/manage/article')print(r.status_code)#打印状态码
print(r.text)#打印文本
print(r.cookies)#打印cookie

运行结果：

再举例子：

import requestsr=requests.post('https://www.csdn.net/?spm=1011.2124.3001.5359')
s=requests.put('https://www.csdn.net/?spm=1011.2124.3001.5359')print(r.status_code)
print(r.text)
print(s.status_code)
print(s.text)

运行结果：

虽然请求失败但不影响，主要是介绍下用requests模块的话，可以很简单的方式请求，比如说put,post,delete这些之间换一下就换了一个请求方法。这里之所以请求失败是因为我们被反扒了。

3.2 基础讲解三

首先，构建一个最简单的 GET 请求，请求的链接为 http://httpbin.org/get，该网站会判断如果客户端发起的是 GET 请求的话，它返回相应的请求信息.
代码：

import requests  
r = requests.get('http://httpbin.org/get')
print(r.text)

运行结果：

此时我们可以发现，我们成功发起了 GET 请求，返回结果中包含请求头、URL、IP 等信息。
那么，对于 GET 请求，如果要附加额外的信息，一般怎样添加呢？比如现在想添加两个参数，其中 name 是 germey，age 是 22。

要构造这个请求链接，是不是要直接写成：

r = requests.get('http://httpbin.org/get?name=germey&age=22')

这同样很简单，利用 params 这个参数就好了，示例如下：

import requests  data = {  'name': 'germey',  'age': 22  
}  
r = requests.get("http://httpbin.org/get", params=data)  
print(r.text)

运行结果：

通过返回信息我们可以判断，请求的链接自动被构造成了：http://httpbin.org/get?age=22&name=germey
另外，网页的返回类型实际上是 str 类型，但是它很特殊，是 JSON 格式的。所以，如果想直接解析返回结果，得到一个字典格式的话，可以直接调用 json 方法。

示例如下：

import requests  r = requests.get("http://httpbin.org/get")  print(type(r.text))  
print(r.json())  
print(type(r.json()))

运行结果：

我们可以发现，调用 json 方法，就可以将返回结果是 JSON 格式的字符串转化为字典。

3.4 获取cookie

import requestsheaders={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36'
}#请求头url='https://www.csdn.net/?spm=1011.2124.3001.5359'r=requests.get(url=url,headers=headers)print(r.cookies)#直接打印

运行结果：

3.5 获取请求头

手动获取：
点击右键，选择检查，再选择network，刷新一下（ctrl+r），随机选其中一个内容，（或如图）如下将 User-Agent 后的内容复制出来就行：

3.6 添加请求头

我们也可以通过 headers 参数来传递头信息。比如，在下面我们的面 “知乎” 的例子中，如果不传递 headers，就不能正常请求,请求结果为403：

import requestsr = requests.get("https://www.zhihu.com/explore")
print(r.text)

运行结果：

但如果加上 headers 并加上 User-Agent 信息，那就没问题了：

import requestsheaders = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
print(r.text)

运行结果：

此时可以看到加请求头成功了。
为什么加请求头？ 加上后可以模拟正常浏览器，防止被反扒。

3.5 知乎爬取+反扒技术

先获取cookies:

import requests
headers={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11'
} #请求头
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.cookies)

运行结果：

或者登录知乎,找到cookie:

用这里的cookie来获取网页：

import requests
headers={'Cookie':'_zap=05c6669b-d609-4b2d-836d-c4e713ed7831; d_c0="AFAfZacmRBOPTjQC-e4owqO1ysBeTeL3Vzw=|1623771050"; _xsrf=bqDX2DchG0ZA7EC9pkRRGEaVn3QkTrZi; captcha_session_v2="2|1:0|10:1636804292|18:captcha_session_v2|88:WjRRYXljbms2MmtweWJzMU9SQ1NrRlpPa2Q0ZytFWlJ0THpud2ZJQ1YxUktQbEg3a0EyTWNnYUprdUNhUW9qbQ==|0c9ffe3bd4b71219514487843501772ea80b4d14e4009a776f9a7529f4a56613"; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1636541465,1636541647,1636771333,1636804292; l_n_c=1; r_cap_id="YmNjZjMyOGVlZTM3NDRlNjlkYTkxZTY1Yjg1ODdhMjA=|1636804293|d3a977b05d2ed03f94aa4cc909fbb3232619c402"; cap_id="M2NkNWEzZDRkYmMwNDYwZThkMmRhNDU0M2QzZWU5ZGE=|1636804293|b9ec3e1451d5cd873d86525d785868acfa08c556"; l_cap_id="MjA5MGU4YjUyOGZhNGZlYWI3NzY0NGQ1ZWY5MjcyYmM=|1636804293|9ec9d7a50eb48b4e5450a2962e8090f86bf1281c"; n_c=1; SESSIONID=iachyVQaPqsWF2xcGJGC7c7RvcJvrlusR39loCQax90; __snaker__id=dYZWp8JZry4pPHne; JOID=VFsUAknVovxY469NX9IDpZ1o-iVLucGfM578Hj6B1o0PppkwPh8GcD7iqE9cjgkePw8VMqkDcY9vrgPNPl3u4uc=; osd=UV8UB0zQpvxd5qpJX9cGoJlo_yBOvcGaNpv4HjuE04kPo5w1Oh8DdTvmqEpZiw0eOgoQNqkGdIprrgbIO1nu5-I=; gdxidpyhxdE=7GzbIgu7wGey6y7Z4EeYzrtLlNOZOi08rMg9VqGGe%5Cs2tG9dg0lGBcPR%2BWxzp0u0eY3fRqE%5C1USNlC8qYP4lkOhjflbMytQvptR4ERWDs%5Ck5WyN40f%2FkwXx0cWg60pasJBZBPHI%2FGH66x5r3m2Ogsly%2BNpDDUt6T0qN%2F1vaur8USEdZT%3A1636805203141; _9755xjdesxxd_=32; z_c0=Mi4xdzNpOEV3QUFBQUFBVUI5bHB5WkVFeGNBQUFCaEFsVk56X1I4WWdBb2VFN0ZJUzQ3RVJDRGNVT2FmdDYxT0xXNXV3|1636804303|204653c41cd7c89747145d10e635c8403ba38549; tst=r; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1636804313; NOT_UNREGISTER_WAITING=1; KLBRSID=b5ffb4aa1a842930a6f64d0a8f93e9bf|1636804319|1636804289','User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11','host':'www.zhihu.com',
}
url='http://www.zhihu.com'
r=requests.get(url=url,headers=headers)
print(r.text)

运行结果：

返回结果有知乎里的相关内容，这样就是成功登录知乎了
再提一点session,它可以实现同一个站点进去不同页面：

import requests
s=requests.Session()
s.get('http://httpbin.org/cookies/set/number/147258369')
r=s.get('http://httpbin.org/cookies')
print(r.text)

运行结果：

3.6 抓取二进制数据

如果想抓取图片、音频、视频等文件，应该怎么办呢？
图片、音频、视频这些文件本质上都是由二进制码组成的，由于有特定的保存格式和对应的解析方式，我们才可以看到这些形形色色的多媒体。所以，想要抓取它们，就要拿到它们的二进制码。

3.6.1 示例一

下面以 GitHub 的站点图标为例来看一下：

import requestsr = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

运行结果：

可以注意到，前者出现了乱码，后者结果前带有一个 b，这代表是 bytes 类型的数据。由于图片是二进制数据，所以前者在打印时转化为 str 类型，也就是图片直接转化为字符串，这理所当然会出现乱码。
接着，我们将刚才提取到的图片保存下来：

import requestsr = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:f.write(r.content)

运行后即可保存完成！！！可以自己设定保存位置哦！！

3.6.2 示例二

以爬取我自己的头像为例子：

保存代码如下，运行即可保存，位置资源！！！：

import requests
headers={'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
}
url='https://profile.csdnimg.cn/2/B/0/1_qq_25990967.jpg'
r = requests.get(url=url,headers=headers)
with open('phpto.jpg', 'wb') as f:f.write(r.content)

3.7 美女私房照爬取（准备发车）

第一部分：定义要爬取的标签和正在爬取的页数

def UserUrl(theme,pagenum):url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {'theme': urllib.parse.quote(theme), 'pagenum': pagenum}#print(url)return url

第二部分：防止反扒

def GetHtmltext(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}try:r = requests.get(url, headers=head, timeout=30)r.raise_for_status()  #如果返回的状态码不是200，就到except中return rexcept:pass

第三部分：定义获取一个pagenum页面中的所有图集的URL链接的函数

def PictureFatherUrl(user_url):try:raw_data = GetHtmltext(user_url)j_raw_data = json.loads(raw_data.text)   #将获取的网页转化为Python数据结构# print(j_raw_data)father_url = []                    #将每个图集的url定义为father_url的一个列表for i in j_raw_data['postList']:   #解析出的j_raw_data是一个多重字典，在这里先将postList字典的内容取出来father_url.append(i['url'])     #然后再取出键为“url”的值return father_urlexcept:return

第四部分：定义获取一个图集中所有图片的url链接

def PictureUrl(url):try:html = GetHtmltext(url)#利用正则表达式来匹配url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))return url_listexcept:pass

第五部分：

#定义一个图集中所有图片的下载
def Download(url):url_list = PictureUrl(url)for i in url_list:r = GetHtmltext(i)file_name = os.path.join(save_path, i.split('/')[-1])with open(file_name, 'wb') as f:f.write(r.content)f.close()time.sleep(random.uniform(0.3, 0.5))  #为防止被反爬，在这里random了0.3-0.5的数，然后在下载一张图片后，sleep一下print('下载成功保存至 %s' % file_name)

主函数部分：

if __name__ == '__main__':theme = input("你选择的标签（如果你不知道有什么标签，去https://tuchong.com/explore/去看看有什么标签吧，输入不存在的标签无法下载哦）：")pagenum_all = int(input("你要爬取的页数(不要太贪心哦，数字太大会被封IP的）："))save_path = os.path.join(theme)m = 0if not os.path.exists(save_path):os.makedirs(save_path)print("我知道你没有创建保存路径，我把文件存在和此脚本同样的路径下的叫做“ %s ”的文件夹下面了" % theme)for i in range(1, pagenum_all+1):n = 0m += 1print("正在下载第%d页，一共%d页" % (m, pagenum_all))user_url = UserUrl(theme, i)father_url = PictureFatherUrl(user_url)for j in father_url:n += 1print("正在下载第%d套图，一共%d套图" % (n, len(father_url)))Download(j)time.sleep(random.randint(6, 10))  #同样为了反爬，也random了6-10之间的数，更真实的模拟人的操作

完整源代码如下：

#coding=gbkimport os
import re
import json
import requests
import time
import urllib.parse
import random#定义要爬取的标签和正在爬取的页数
def UserUrl(theme,pagenum):url = "https://tuchong.com/rest/tags/%(theme)s/posts?page=%(pagenum)s&count=20&order=weekly" % {'theme': urllib.parse.quote(theme), 'pagenum': pagenum}#print(url)return url#利用requests使用get方法请求url，使用User-Agent是为了防止被反爬，这样使得我们的爬取行为更像人的行为
def GetHtmltext(url):head = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}try:r = requests.get(url, headers=head, timeout=30)r.raise_for_status()  #如果返回的状态码不是200，就到except中return rexcept:pass#定义获取一个pagenum页面中的所有图集的URL链接的函数
def PictureFatherUrl(user_url):try:raw_data = GetHtmltext(user_url)j_raw_data = json.loads(raw_data.text)   #将获取的网页转化为Python数据结构# print(j_raw_data)father_url = []                    #将每个图集的url定义为father_url的一个列表for i in j_raw_data['postList']:   #解析出的j_raw_data是一个多重字典，在这里先将postList字典的内容取出来father_url.append(i['url'])     #然后再取出键为“url”的值return father_urlexcept:return#定义获取一个图集中所有图片的url链接
def PictureUrl(url):try:html = GetHtmltext(url)#利用正则表达式来匹配url_list = list(re.findall('<img id="image\d+" class="multi-photo-image" src="([a-zA-z]+://[^\s]*)" alt="">', html.text))return url_listexcept:pass#定义一个图集中所有图片的下载
def Download(url):url_list = PictureUrl(url)for i in url_list:r = GetHtmltext(i)file_name = os.path.join(save_path, i.split('/')[-1])with open(file_name, 'wb') as f:f.write(r.content)f.close()time.sleep(random.uniform(0.3, 0.5))  #为防止被反爬，在这里random了0.3-0.5的数，然后在下载一张图片后，sleep一下print('下载成功保存至 %s' % file_name)#定义主函数
if __name__ == '__main__':theme = input("你选择的标签（如果你不知道有什么标签，去https://tuchong.com/explore/去看看有什么标签吧，输入不存在的标签无法下载哦）：")pagenum_all = int(input("你要爬取的页数(不要太贪心哦，数字太大会被封IP的）："))save_path = os.path.join(theme)m = 0if not os.path.exists(save_path):os.makedirs(save_path)print("我知道你没有创建保存路径，我把文件存在和此脚本同样的路径下的叫做“ %s ”的文件夹下面了" % theme)for i in range(1, pagenum_all+1):n = 0m += 1print("正在下载第%d页，一共%d页" % (m, pagenum_all))user_url = UserUrl(theme, i)father_url = PictureFatherUrl(user_url)for j in father_url:n += 1print("正在下载第%d套图，一共%d套图" % (n, len(father_url)))Download(j)time.sleep(random.randint(6, 10))  #同样为了反爬，也random了6-10之间的数，更真实的模拟人的操作

运行：按照提示输入后回车

后得到：

当然，难道我的心只有美女小姐姐？NONONO！你只要输入该网任意一个标签的都可给下载下来,比如帅哥？你可以测试一下！！！

四、 POST 请求

前面我们了解了最基本的 GET 请求，另外一种比较常见的请求方式是 POST。

4.1 数据表单提交

使用 requests 实现 POST 请求同样非常简单，示例如下：

import requestsdata = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

这里还是请求 http://httpbin.org/post，该网站可以判断如果请求是 POST 方式，就把相关请求信息返回。
运行结果如下：

可以发现，我们成功获得了返回结果，其中 form 部分就是提交的数据，这就证明 POST 请求成功发送了。

4.2 添加请求头

代码如下：

import requests
import jsonhost = "http://httpbin.org/"
endpoint = "post"url = ''.join([host,endpoint])
headers = {"User-Agent":"test request headers"}r = requests.post(url,headers=headers)
print(r.text)

运行结果：

可以看到User-Agent部分为我们添加的自定义请求头。

4.3 提交json

假设我想提交json格式的内容：

# -*- coding:utf-8 -*-
import requests
import jsonhost = "http://httpbin.org/"
endpoint = "post"url = ''.join([host,endpoint])
data = {"sites": [{ "name":"test" , "url":"https://blog.csdn.net/weixin_46211269?spm=1000.2115.3001.5343" },{ "name":"google" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120703631?spm=1001.2014.3001.5501" },{ "name":"weibo" , "url":"https://blog.csdn.net/weixin_46211269/article/details/120659923?spm=1001.2014.3001.5501" }]
}r = requests.post(url,json=data)
# r = requests.post(url,data=json.dumps(data))
response = r.json()
print(response)

运行结果：

4.4 普通文件上传

代码：

# -*- coding:utf-8 -*-
import requests
import jsonhost = "http://httpbin.org/"
endpoint = "post"url = ''.join([host,endpoint])
#普通上传
files = {'file':open(r'D:\桌面\a.txt','rb') #打开文件路径}r = requests.post(url,files=files)
print (r.text)

运行结果：