python爬虫从入门到精通

第一讲

什么是爬虫

网络蜘蛛(Web spider)也叫网络爬虫(Web crawler),蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。

总结:自动抓取数据

爬虫能做什么

  • 搜索引擎
  • 抢票
  • 下载资料(图片等)

爬虫的本质是什么

模仿浏览器打开网页

第二讲:HTTP协议

什么是HTTP协议

超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是互联网上应用最为广泛的一种网络协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的资源由统一资源标识符(Uniform Resource Identifiers,URI)来标识。 HTTP的发展是由蒂姆·伯纳斯-李于1989年在欧洲核子研究组织(CERN)所发起。由万维网协会(World Wide Web Consortium,W3C)和互联网工程任务组(Internet Engineering Task Force,IETF)制定标准,最终发布了一系列的RFC,其中最著名的是1999年6月公布的 RFC 2616,定义了HTTP协议中现今广泛使用的一个版本——HTTP 1.1。 2014年12月,互联网工程任务组(IETF)的Hypertext Transfer Protocol Bis(httpbis)工作小组将HTTP/2标准提议递交至IESG进行讨论[1],于2015年2月17日被批准。[2] HTTP/2标准于2015年5月以RFC 7540正式发表,替换HTTP 1.1成为HTTP的实现标准。[3]

HTTP是一个客户端终端(用户)和服务器端(网站)请求和应答的标准(TCP)。通过使用网页浏览器、网络爬虫或者其它的工具,客户端发起一个HTTP请求到服务器上指定端口(默认端口为80)。我们称这个客户端为用户代理程序(user agent)。应答的服务器上存储着一些资源,比如HTML文件和图像。我们称这个应答服务器为源服务器(origin server)。在用户代理和源服务器中间可能存在多个“中间层”,比如代理服务器、网关或者隧道(tunnel)。 尽管TCP/IP协议是互联网上最流行的应用,HTTP协议中,并没有规定必须使用它或它支持的层。事实上,HTTP可以在任何互联网协议上,或其他网络上实现。HTTP假定其下层协议提供可靠的传输。因此,任何能够提供这种保证的协议都可以被其使用。因此也就是其在TCP/IP协议族使用TCP作为其传输层。 通常,由HTTP客户端发起一个请求,创建一个到服务器指定端口(默认是80端口)的TCP连接。HTTP服务器则在那个端口监听客户端的请求。一旦收到请求,服务器会向客户端返回一个状态,比如"HTTP/1.1 200 OK",以及返回的内容,如请求的文件、错误消息、或者其它信息。

具体例子

打开知乎页面,按浏览器的F12键,点击network,点击doc,然后刷新页面,再点击headers,可以看到如下界面:

其中:

  1. HTTP协议中的统一资源定位符也就是我们打开的网址

    Request URL:https://zhuanlan.zhihu.com/p/25296437 (爬虫会用到)

  2. HTTP协议中的请求方法,我们这次用的是GET

    Request Method:GET #(爬虫会用到)

请求方法有以下这些,常用的是GET,POST

  • GET:向指定的资源发出“显示”请求。使用GET方法应该只用在读取数据,而不应当被用于产生“副作用”的操作中,例如在Web Application中。其中一个原因是GET可能会被网络蜘蛛等随意访问。参见安全方法
  • POST:向指定资源提交数据,请求服务器进行处理(例如提交表单或者上传文件)。数据被包含在请求本文中。这个请求可能会创建新的资源或修改现有资源,或二者皆有。
  • OPTIONS:这个方法可使服务器传回该资源所支持的所有HTTP请求方法。用'*'来代替资源名称,向Web服务器发送OPTIONS请求,可以测试服务器功能是否正常运作。
  • HEAD:与GET方法一样,都是向服务器发出指定资源的请求。只不过服务器将不传回资源的本文部分。它的好处在于,使用这个方法可以在不必传输全部内容的情况下,就可以获取其中“关于该资源的信息”(元信息或称元数据)。
  • PUT:向指定资源位置上传其最新内容。
  • DELETE:请求服务器删除Request-URI所标识的资源。
  • TRACE:回显服务器收到的请求,主要用于测试或诊断。
  • CONNECT:HTTP/1.1协议中预留给能够将连接改为管道方式的代理服务器。通常用于SSL加密服务器的链接(经由非加密的HTTP代理服务器)。
  1. 对应HTTP协议中的状态码,我们这次返回的是200 OK、

    Status Code:200 OK(爬虫会用到)

状态码的含义:

  • 1xx消息——请求已被服务器接收,继续处理
  • 2xx成功——请求已成功被服务器接收、理解、并接受
  • 3xx重定向——需要后续操作才能完成这一请求
  • 4xx请求错误——请求含有词法错误或者无法被执行
  • 5xx服务器错误——服务器在处理某个正确请求时发生错误

常见状态代码、状态描述、说明:

  • 200 OK //请求成功
  • 400 Bad Request //客户端请求有语法错误,不能被服务器所理解
  • 401 Unauthorized //请求未经授权,这个状态代码必须和WWW-Authenticate报头域一起使用
  • 403 Forbidden //服务器收到请求,但是拒绝提供服务
  • 404 Not Found //请求资源不存在,eg:输入了错误的URL
  • 500 Internal Server Error //服务器发生不可预期的错误
  • 503 Server Unavailable //服务器当前不能处理客户端的请求,一段时间后可能恢复正常
  1. 请求头

    Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,/;q=0.8(爬虫会用到)

其中

  • Accept代表客户端请求接受的信息类型,这里请求的是text/html类型
  • Accept-Encoding:gzip, deflate, sdch, br:请求报头域类似于Accept,但是它是用于指定可接受的内容编码。eg:Accept-Encoding:gzip.deflate.如果请求消息中没有设置这个域服务器假定客户端对各种内容编码都可以接受。
  • Accept-Language:zh-CN,zh;q=0.8:指定语言类型,如果没有报头域,那么各种语言都可以接受
  • Cache-Control:no-cache:用于控制网页缓存
  • Connection:keep-alive:HTTP持久连接,使用同一个TCP来发送和接收多个HTTP请求/应答
  • Cookie:d_c0="AACAWNtZswqPTnJ8dFXqaygiq82ekPD5_-xxxx:cookie,小型文本文件,某些网站为了辨别用户身份而存储在本地终端上的数据
  • Host:zhuanlan.zhihu.com:当前请求网页的请求域
  • Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36
    用户是通过什么工具来请求的,(因为我用的Google浏览器,所以显示的是Chrome)

  • Referer:https://www.zhihu.com/people/pa-chong-21/activities
    是通过哪个页面到当前页面的
  • If-Modified-Since:Wed, 15 Feb 2017 09:14:13 GMT
    If-None-Match:W/"58a41be5-190aa"
    Last-Modified:Wed, 15 Feb 2017 09:14:13 GMT
    ETag:"58a41be5-190aa"
    这4个一般静态页面会用到 If-Modified-Since,If-None-Match这两个是请求头,ETag,Last-Modified是返回头(服务器返回的)
    如果If-Modified-Since的值和Last-Modified相等 则表明当前请求的内容没有变动,服务器返回Status Code:304 Not Modified

转载于:https://www.cnblogs.com/drawon/p/8520466.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/398569.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows五种IO模型性能分析和Linux五种IO模型性能分析

Windows五种IO模型性能分析和Linux五种IO模型性能分析 http://blog.csdn.net/jay900323/article/details/18141217 http://blog.csdn.net/jay900323/article/details/18140847 重叠I/O模型的另外几个优点在于,微软针对重叠I/O模型提供了一些特有的扩展函数。当使用重…

C++从0到1的入门级教学(十一)——友元

文章目录11 友元11.1 全局函数做友元11.2 友元类11.3 成员函数做友元11 友元 让我们引入一个例子来讲述友元是什么。 生活中你的家有客厅,有卧室,客厅所有来的客人都可以进去,但是你的卧室是私有的。对于认识的人来说你可以允许它进去&…

KeyMob:为国内应用开发者管理的广告聚合平台

为什么80%的码农都做不了架构师?>>> 应用开发者在应用中嵌入广告SDK的来源主要包括两种:使用移动广告平台与移动广告聚合平台。国内有多少家提供移动广告管理的平台?据统计,这两个版本,已经有四五十家。虽…

模拟航班查询及预定系统 编写示例

一、建立C#窗体 所需控件: Label标签 Button 按钮 TextBox 文本框 ComboBox 组合框 DATaGridView 数据显示 DateTimePicker 日期表 NumericUpDown 数字选择 二、建立后台数据库 大概需要四张表 1,航空公司表 2,城市信息表 3,航班…

package

package转载于:https://www.cnblogs.com/wangweiabcd/p/4232646.html

数据结构杂谈(七)——串

文章目录7 串7.1 基本知识7.1.1 串的定义:rose:定义:rose:各种概念:rose:字符串和线性表的区别7.1.2 串的抽象类型数据定义7.1.3 串的比较:rose:原理7.2 串的存储结构:rose:7.2.1串的顺序存储:rose:7.2.2 串的链式存储7.3 基本操作:rose:7.3.1 返回子串操作:rose:7.3.2 比较操作…

牛刀小试Oracle之ORACLE 11GR2 RAC安装配置--检测GI软件是否正常(三)

1. 切换至grid用户[rootZracnode1 ~]# su - grid2.查看CRS状态(目前Oracle11GR2官方文档,不建议用如下命令检测了,等我有时间在整理补充)[gridZracnode1 ~]$ crs_stat -tName Type Target State Host ---------------…

PHP十六个魔术方法

PHP中把以两个下划线__开头的方法称为魔术方法(Magic methods),这些方法在PHP中充当了举足轻重的作用。 魔术方法包括: __construct(),类的构造函数__destruct(),类的析构函数__call(),在对象中调用一个不可访问方法时…

Linux实现的IEEE 802.q VLAN

本文转载自: http://blog.chinaunix.net/uid-20786208-id-4291059.html Technorati 标签: Linux VLAN--------------------------我是快乐的分割线-------------------------------------------------- 第一部分:VLAN的核心概念 说起IEEE 802.1q&#xf…

C++从0到1的入门级教学(十二)——运算符重载

文章目录12 运算符重载12.1 加法运算符重载12.2 左移运算符重载12.2.1 演示与说明12.2.2 常见的友元使用:重载>>运算符12.3 递增运算符重载12.4 赋值运算符重载12.5 关系运算符重载12.6 函数调用运算符重载12 运算符重载 在本讲中,我们会设计到一…

IntelliJ IDEA 显示行号方法

为何N多人问这问题,设置方法如下:File->Settings->Editor->General->Appearence->Show Line Number

python项目构建工具zc.buildout

转载:http://blog.csdn.net/u011630575/article/details/52940099 buildout简介 Buildout 是一个基于Python的构建工具, Buildout 主要是为了解决两个问题: 中心化的应用组装和部署重复的从Python软件发布中组装项目通过一个配置文件 buildout.cfg , 可以从多个部分…

C++从0到1的入门级教学(十三)——继承

文章目录13 继承13.1 继承的基本语法13.2 继承方式13.3 继承的对象模型13.4 继承中构造和析构顺序13.5 继承同名成员处理方式13.6 继承同名静态成员处理方式13.7 多继承语法13.8 菱形继承13 继承 继承是面向对象三大特性之一。有些类和类之间存在特殊的关系,如下图…

书评 – 程序员经典读物(1)

早几天,笼统地就经典感慨了一番,接着来个逐一点评,算是有始有终了。经典是用来阅读而非膜拜的道理,自然是明白的,虽然我是属于比较推崇经典那一类的。阅读大致就是一个和作者交流的过程,有兴致时无妨感慨点…

ubuntu安装环境软件全文档

1,安装apace2: sudo apt-get install apache2 2谷歌浏览器的安装:sudo apt-get install chromium-browser-dbg 3,国际版QQ下载:http://pan.baidu.com/s/1nt1Nu6P 根据自己的安装的32位或者是64位来下载。 安装的时候按照文件顺序安装就好了…

线性代数(二)

2 解线性方程组 1 Ax b的列图像实质是A的列向量有各种线性组合,b为其中的一种组合结果。 2 Ax b可以写为Axx1a1...xnanbAx x_1a_1...x_na_n bAxx1​a1​...xn​an​b,其中a1,a2...ana_1,a_2...a_na1​,a2​...an​为A中的列向量。 3 当Ax 0时&#…

xor方程组消元 UVA 11542 Square

题目传送门 题意:给n个数,选择一些数字乘积为平方数的选择方案数。训练指南题目。 分析:每一个数字分解质因数。比如4, 6, 10, 15,, , , , 令,表示选择第i个数字,那么&am…

从汇编去分析线程安全

首先要知道什么是线程安全? 当多个线程访问某个类时,不管运行环境采用何种调度方式或者这些线程将如何交替执行,并且在主调代码中不需要任何额外的同步或协同,这个类都能表现出正确的行为,那么就称这个类是线程安全的。…

前端面试问题汇总

面试技术问题: Null 与 undefined区别?l NULL的类型是object;undefined的类型是undefined类型,一个变量如果没有初始化的话就是undefined。 l null 表示此处数值为空,undefined表示此处应该有值,但是确…

深度学习修炼(八)——经典卷积网络

文章目录8 经典卷积网络8.1 LeNet模型8.2 Alexnet8.3 VGG8.4 ResNet8.5 感受野8 经典卷积网络 在前面一讲,我们谈论了关于卷积神经网络的诸多细节。综合来讲,卷积神经网络就是含卷积层的网络。在本讲中,我们将会根据卷积神经网络发展的历史&…