01爬虫基本原理及Requests库下载

一、爬虫基本原理

1.什么是爬虫

爬虫就是爬取数据

2.什么是互联网？

就是由一堆网络设备，把一台台的电脑互联在一起

3.互联网建立的目的

数据的传递和数据共享

4.什么是数据？

例如：

电商平台的商业信息（淘宝、京东、亚马逊）

链家、自如等租房信息

股票政券投资信息

12306票务信息

....

4.1什么是进程和线程

打比方：打开QQ是进程

QQ中的很多群是线程

5.什么是上网

普通用户：

打开浏览器

→输入网址

→往目标主机发送请求

→返回响应数据

→把数据渲染到浏览器中

爬虫程序：

模拟浏览器

→往目标主机发送请求

→返回响应数据

→提取有价值的信息

→保存数据（文件写入本地、持久化到数据库）

6.爬虫的全过程

1.发送请求

请求库：Requests/Selenium

2.获取响应数据

3.解析数据

解析库：BeautifulSoup4

4.保存数据

存储库：文件保存/MongoDB

总结

假如把互联网中的数据比作一座宝藏，爬虫其实就是在挖取宝藏

二、Requests请求库

1.安装

方法一：pip3 install requests

如果报错，则是环境变量没有配好，可以在pycharm中下载

方法二：

2.分析请求流程（模拟浏览器）

-百度

1.请求url：https://www.baidu.com/

2.请求方式

3.响应状态码

三、爬虫三部曲（测试）

1.发送请求

# 发送请求
def get_page(url):response = requests.get(url)return response

2.解析数据

#解析主页页面
import re
def pare_index(html):#findall 匹配所有# re.findall('正则匹配规则','匹配文本','匹配模式')#re.S 对全部文本进行搜索detail_urls = re.findall('<div class="items"><a class="imglink" href="(.*?)"',html,re.S)return detail_urls# 解析详情页
def pare_detail(html):detail_urls = re.findall('<sourse src="(.*?)">',html,re.S)return detail_urls

3.保存数据

#保存文件
import uuid
def save_movie(content):with open(f'{uuid.uuid4()}','wb') as f:f.write(content)print("视频下载完毕")

转载于:https://www.cnblogs.com/Crystal-Zh/p/11113823.html

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/277429.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

01爬虫基本原理及Requests库下载

一、爬虫基本原理

1.什么是爬虫

2.什么是互联网？

3.互联网建立的目的

4.什么是数据？

4.1什么是进程和线程

5.什么是上网

6.爬虫的全过程

总结

二、Requests请求库

1.安装

2.分析请求流程（模拟浏览器）

三、爬虫三部曲（测试）

相关文章

php 怎么实现收藏功能,php收藏功能如何实现

quartus FIR仿真笔记

关于时钟

LVS + Keepalived 双机热备+DR模式

php程序layer,php 提交表单关闭layer弹窗iframe的实例讲解

Django之 RESTful规范

php编译 ftp,无需重新编译php加入ftp扩展的解决方法

git常用命令及分支简介

企业私有云部署im，视频服务

php html 伪静态,php 伪静态(url重写)的写法

客服工作台

Leetcode怎么调试java代码,在Clion上调试LeetCode代码

来入门一下kotlin吧

apache2 配置php,Windows配置PHP5与Apache2

ReactNative 触摸事件处理

CISCO网络故障排错命令总结分享

java input回车,用java怎样编写加减乘除，从键盘输入，例如：1+2按回车得到

Java中数组在内存中的存放原理？

程序员如何面试才能拿到offer

php 跨区域,如何构造PHP的内容包括在非安全(http：//)和安全(https：//)区域以及跨多个目录使用？...