python原理与架构_Python:爬虫原理和网页构造

入门网络数据爬取,也就是Python爬虫

现实中我们使用浏览器访问网页时,网络是怎么运转的,做了什么呢?

首先,必须了解网络连接基本过程原理,然后,再进入爬虫原理了解就好理解的多了。

1、网络连接原理

如上图,简单的说,网络连接就是计算机发起请求,服务器返回相应的HTML文件,至于请求头和消息体待爬虫环节在详细解释。

2、爬虫原理

爬虫原理就是模拟计算机对服务器发起Request请求,接收服务器端的Response内容并解析,提取所需要的信息。

往往一次请求不能完全得到所有网页的信息数据,然后就需要合理设计爬取的过程,来实现多页面和跨页面的爬取。

多页面爬取过程是怎样的呢?

基本思路:由于多页面结构可能相似,可以先手动翻页观察URL

得到所有URL

根据每页URL定义函数爬取数据

循环URL爬取存储

跨页面爬取过程是怎样的呢?

基本思路:

找到所有URL

定义爬取详细页函数代码

进入详细页获取详细数据

存储,循环完成,结束

3、网页到底是怎么样的呢?

右键选择“检查”,打开网页源代码,可以看到上面是HTML文件,下面是CSS样式,其中HTML中包含的部分就是JavaScript代码。

我们浏览的网页就是浏览器渲染后的结果,就是把HTML、CSS、JavaScript代码进行翻译得到的页面界面。有一个通俗的比喻就是:加入网页是一个房子,HTML就是房子的框架和格局,CSS就是房子的软装样式,如地板和油漆,javaScript就是电器。

如打开百度搜索,将鼠标移至“百度一下”按钮位置,右键选择“检查”,就可以看到网页源码位置。

或者直接打开右键源码,通过点击网页源码页面左上角鼠标状图标,然后移动到网页的具体位置,就可以看到。

总结一下:爬取数据就是发起请求,得到网页信息,然后找到你要的信息,但是在请求的过程中,很容易被反扒,禁止爬取动作,所以,需要很多技巧绕过反扒机制,这一点后续我们逐一解答。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551681.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

flutter打包的app有多大_前端大势所趋---Flutter 这篇文章会让你行动起来

Flutter和原生APP的性能对比前言自从今年google IO大会推出flutter跨平台开发框架以来,flutter在各个技术论坛里被吵得如日中天。flutter团队直言flutter可以帮助开发者轻松实现恒定60fps的性能体验。我们知道flutter跨平台的原理是采用dart语言预编译的方式直接编译…

用java创建窗口程序,创建窗口的应用程序

创建窗口的应用程序通过前面的基础知识的学习,已经对ctypes库的基本功能学会了使用,为了加强这种知识训练,以及运用刚学习的知识的快乐,我们来创建一个稍稍复杂一点的应用程序。这个应用程序是所有后面应用程序的基础,…

python前端代码_python前端HTML

超文本标记语言(Hypertext Markup Language, HTML)是一种用于创建网页的标记语言,不是一种编程语言,没有逻辑的HTML基础文档结构#声明为HTML5文档#是文档的开始标记和结束的标记,lang设置浏览器语言#定义了网页标题,在浏览器标题栏显示,charset声明编码,否则会出现乱码网页标题…

python爬取b站排行榜_实时爬取B站排行榜并保存为表格——每周一个爬虫小教程系列...

从这周开始,每周来一个爬虫小教程,希望对你们有所帮助,这次的目标是B站排行榜至于爬取什么内容,目前感觉就把序号,名称以及评分爬取下来吧(因为我是边写教程边写代码的) 这次需要用到的知识&…

java7优化,让Eclipse在10秒内启动的7个优化提速技巧

大约一个月前,我发表了一篇博客,其中介绍了对Eclipse的爱与恨。 有些人问我如何给Eclipse提速,这篇文章就来讨论这个问题。顺带提一下,这篇文章不是比较IDE,所以不要说你讨厌某个IDE而选择另外一个。这篇文章只是关注如…

python四位的千位百位十位_输入一个四位正整数,使用字符串切片方法,计算出这个数的个位 十位 百位 千位?...

展开全部#includeint main(){ char s[5],s1[9]"千百十62616964757a686964616fe59b9ee7ad9431333433653938个";int i;printf("输入一个四位数:");scanf("%s",s);for(i3;i>-1;i--)printf("%c%c位数:%c\n",s1[ii],s1[ii1],…

css 垂直居中_html中div使用CSS实现水平/垂直居中的多种方式

CSS中的居中,在工作中,会经常遇到。它可以分为水平居中和垂直居中,以下是几种实现居中的方式。以下例子中,涉及到的CSS属性值。.parent-frame { width: 200px; height: 200px; border: 1px solid red; } .child-frame { width…

python同时输出两个数组_python中实现将多个print输出合成一个数组

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技术人对外发布原创技术内容的最大平台&…

matlab如何实现降维,matlab怎么把矩阵降维

1. matlab如何对一个矩阵 求导而且不降维gradient计算数值梯度。函数F(x,y,。)在(x0,y0,。)的梯度就是函数在该点的导数,通常在数学上记作▽F(x0,y0,。)或gradF(x0,y0,。)。梯度是一个向量, 它的方向是函数在一点变化率…

python线程等待_python3 中 Event.wait 多线程等待

原博文 2018-04-26 20:45 − event.wait(time) 等待 time 时间后,执行下一步。或者在调用 event.set() 后立即执行下一步。 event.clear() 清除信号 event.set() 设置信号 event.isSet() 判断是否设置信号 要求: 定义一个按钮,等待 3... 相关推荐 2019-1…

php表白情话,朋友圈唯美表白短句情话 适合发朋友圈的情话

1、一个人经历了所有的苦难,也不要指望能和谁在一起;我曾经真诚的尝试过,但是结果我不想说。2、只要你愿意,只要我有,整个世界都是你的,而你只能是我的。3、只要你愿意,当你失落失意的时候&…

高德地图看各省分界线_深度解读|高德宣布高精地图“百元时代”背后的商业逻辑是什么...

车展前夕,高德的一次媒体沟通会,或许将为国内自动驾驶的发展带来深远影响。4月11日,高德地图在北京举行“高精宣言”媒体沟通会,表示将对高精地图服务进行升级,并以成本价格提供标准化高精地图,与合作伙伴分…

js获取ip地址_(原创)Node.JS实战31:大名鼎鼎的Express!

Express (http://expressjs.com)是Node.JS中一个简洁、灵活、强大的Web应用框架, 它提供了一系列强大特性,可以帮助我们快速创建各种Web 应用,也可用来编写各种的Web工具。Express博大精深,本文在此只做简单…

pythonpath manager_python 路径操作工具 pathlib,比 os 模块好用太多

在 python 当中,如果你想控制路径,基本上绕不开 os.path。我希望看完这篇文章以后,熟练使用 python 的你能立刻开始使用 pathlib 模块,一刻也不要耽误。pathlib 相对于 os.path 有以下优势:pathlib 导入更加清晰&#…

mysql跳过安全_Navicat连接MySQL数据库

前言:在使用Gin架构搭建博客的时候,需要设计数据库,以及连接数据库.命令端口操控效率实在是太低且不好管理,这个时候使用Navicat就能轻松高效的使用数据库了.步骤:下载安装Navicat,Mysql配置Mysql及其账号密码 Navicat连接Mysql1.下载安装Navicat,MysqlNavicat官网下载地址:…

python深入和扩展_加速方案 — Python扩展模块

原标题:加速方案 — Python扩展模块ctypes(一)— 初识这章我们介绍Python的扩展名之ctypes,教大家认识ctypes。喜欢Python的读者们可以加Python学习交流群:579817333 让我们共同进步!很多初学Python的新手,总是嘴边挂着…

java 切面_实用|AOP切面编程手段大汇总

点击上方"欧学长的架构成长之路" 关注我前言首先说一下什么是AOP?AOP就是面向切面编程,它是一个思想,通过切面,我们可以将那些反复出现的代码抽取出来,放在一个地方统一处理,提高代码的复用性。A…

php可以控制硬件吗,控制面板的作用是设置硬件接口吗?

错误,控制面板的作用是对系统进行有关的设置。控制面板是一个系统文件夹,用来提供各种对计算机系统进行设置和管理的工具;使用控制面板可以对系统进行设置与管理,例如设置系统环境参数的默认值和属性,添加新的应用程序…

python dict保存到文件_将dict写入txt文件并将其读回?

我正试着把字典写成一个txt文件。然后用raw_input键入键来读取dict值。我觉得我只是错过了一步,但我已经找了一段时间了。我知道这个错误File "name.py", line 24, in readingprint whip[name]TypeError: string indices must be integers, not str我的代…

不知道工作组名称怎样加入_剩米饭不知道怎样做?试试泡菜炒饭,再也不用担心米饭做多了...

剩米饭不知道怎样做?试试泡菜炒饭,再也不用担心米饭做多了东北的朋友这几天连续经历了春天,初夏和冬天,甚至在一天中看到了雪、雨和冰雹。这变化莫测的天气让大家一时间慌了神,不知到底要穿些什么。由于楼上都已经停了…