为什么用python写爬虫_零基础,是怎么开始写Python爬虫的

刚开始接触爬虫的时候,简直惊为天人,十几行代码,就可以将无数网页的信息全部获取下来,自动选取网页元素,自动整理成结构化的文件。

104726ajpccj6wd8acd8or.jpg

利用这些数据,可以做很多领域的分析、市场调研,获得很多有价值的信息。这种技能不为我所用实在可惜,于是果断开始学习。

- -并非开始都是最容易的

刚开始对爬虫不是很了解,又没有任何的计算机、编程基础,确实有点懵逼。从哪里开始,哪些是最开始应该学的,哪些应该等到有一定基础之后再学,也没个清晰的概念。

因为是 Python 爬虫嘛,Python 就是必备的咯,那先从 Python 开始吧。于是看了一些教程和书籍,了解基本的数据结构,然后是列表、字典、元组,各种函数和控制语句(条件语句、循环语句)。

学了一段时间,才发现自己还没接触到真正的爬虫呢,而且纯理论学习很快就忘了,回去复习又太浪费时间,简直不要太绝望。把 Python 的基础知识过了一遍之后,我竟然还没装一个可以敲代码的IDE,想想就哭笑不得。

- -开始直接上手

转机出现在看过一篇爬虫的技术文章后,清晰的思路和通俗易懂的语言让我觉得,这才是我想学的爬虫。于是决定先配一个环境,试试看爬虫到底是怎么玩的。(当然你可以理解为这是浮躁,但确实每个小白都想去做直观、有反馈的事情)

因为怕出错,装了比较保险的 Anaconda,用自带的 Jupyter Notebook 作为IDE来写代码。看到很多人说因为配置环境出各种BUG,简直庆幸。很多时候打败你的,并不是事情本身,说的就是爬虫配置环境这事儿。

遇到的另一个问题是,Python 的爬虫可以用很多包或者框架来实现,应该选哪一种呢?我的原则就是是简单好用,写的代码少,对于一个小白来说,性能、效率什么的,统统被我 pass 了。于是开始接触 urllib、美丽汤(BeautifulSoup),因为听别人说很简单。

我上手的第一个案例是爬取豆瓣的电影,无数人都推荐把豆瓣作为新手上路的实例,因为页面简单且反爬虫不严。照着一些爬取豆瓣电影的入门级例子开始看,从这些例子里面,了解了一点点爬虫的基本原理:下载页面、解析页面、定位并抽取数据。

当然并没有去系统看 urllib 和 BeautifulSoup 了,我需要把眼前实例中的问题解决,比如下载、解析页面,基本都是固定的语句,直接用就行,我就先不去学习原理了。

104726jbgjej111y55zewg.jpg

用 urllib 下载和解析页面的固定句式

当然 BeautifulSoup 中的基本方法是不能忽略的,但也无非是 find、get_text() 之类,信息量很小。就这样,通过别人的思路和自己查找美丽汤的用法,完成了豆瓣电影的基本信息爬取。

104726tp5oyx8p2d58p95z.jpg

用 BeautifulSoup 爬取豆瓣电影详情

- -爬虫渐入佳境

有了一些套路和形式,就会有目标,可以接着往下学了。还是豆瓣,自己去摸索爬取更多的信息,爬取多部电影,多个页面。这个时候就发现基础不足了,比如爬取多个元素、翻页、处理多种情况等涉及的语句控制,又比如提取内容时涉及到的字符串、列表、字典的处理,还远远不够。

再回去补充 Python 的基础知识,就很有针对性,而且能马上能用于解决问题,也就理解得更深刻。这样直到把豆瓣的TOP250图书和电影爬下来,基本算是了解了一个爬虫的基本过程了。

BeautifulSoup 还算不错,但需要花一些时间去了解一些网页的基本知识,否则一些元素的定位和选取还是会头疼。

后来认识到 xpath 之后相见恨晚,这才是入门必备利器啊,直接Chrome复制就可以了,指哪打哪。即便是要自己写 xpath,以w3school上几页的 xpath 教程,一个小时也可以搞定了。requests 貌似也比 urllib 更好用,但摸索总归是试错的过程,试错成本就是时间。

104727swxm3rvnv3f4azjj.jpg

requests+xpath 爬取豆瓣TOP250图书信息

- -跟反爬虫杠上了

通过 requests+xpath,我可以去爬取很多网站网站了,后来自己练习了小猪的租房信息和当当的图书数据。爬拉勾的时候就发现问题了,首先是自己的请求根本不会返回信息,原来要将自己的爬虫伪装成浏览器,终于知道别人代码中那一坨 headers 信息是干啥的了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/552256.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

行列式的计算机应用论文结论,【计算机应用论文】建筑耗能计算机模拟分析(共3654字)...

本文作者:王芙蓉、文亮、王涛 单位:西安建筑科技大学建筑学院、中国建筑设计研究院1(略)利用计算机模拟,能够弥补传统设计方法对建筑能耗分析的不足,帮助建筑师直观地判断方案设计对于建筑能耗的影响,从而将建筑能耗成…

datatable怎么根据两列分组_谈谈怎么做服务隔离

来源于公众号孤独烟 ,作者孤独烟引言OK,如下图所示那显而易见,做服务隔离的目的就是避免服务之间相互影响。毕竟谁也不能说自己的微服务百分百可用,如果不做隔离,一旦一个服务出现了问题,整个系统的稳定性都…

position: absolute;_前端性能优化--transform与position

上个星期去yy语音面试&#xff0c;就有一个这样问题&#xff1a; transform与position:absolute 有什么区别? 我回家后查资料发现这道题目其实不简单啊&#xff0c;涉及到重排、重绘、硬件加速等网页优化的知识。首先看一个用top、left实现的动画效果<style>html,body {…

台式计算机总是重启,台式电脑经常自动重启怎么修复

当我们的电脑出现了电脑自动重启的时候&#xff0c;我们就要注意了&#xff0c;说明我们的电脑主机出现问题了&#xff0c;怎么解决呢。下面是学习啦小编为大家整理的关于台式电脑经常自动重启的相关资料&#xff0c;希望对您有所帮助!台式电脑经常自动重启的解决方法方法/步骤…

gan处理自己的数据集_用GAN生成差分隐私数据集

说在前面今天看了 Generating Differentially Private Datasets Using GANS&#xff0c;明天要讨论。老师不知道从哪里挖出了这篇被拒了的文&#xff0c;研究的主题和我们最近的工作非常相关&#xff0c;而且证明非常有趣&#xff0c;大致地看了一下文章的结构觉得没啥问题&…

ipython安装成功后用不了_ipython安装避坑指南

python学习笔记03 本来想着继续给大家介绍python的数据类型&#xff0c;但是IDLE编辑器&#xff08;默认的 Python shell 编辑器&#xff09;太难用了&#xff0c;导致小编没水出来&#xff0c;所以小编决定装一个别的python shell编辑器&#xff0c;这就是ipython&#xff1b;…

如果用户计算机已接入,01计算机基础知识题(50道)

7、在Windows2000中&#xff0c;切换到MS&#xff0d;DOS方式后&#xff0c;返回Windows2000的命令是。8、在“我的电脑”窗口中用鼠标双击“软盘A”图标&#xff0c;将会。习题参考答案三、填空题1&#xff0e;启动 2&#xff0e;软键盘 3&#xff0e;硬盘 4&#xff0e;弹出式…

k1658停运_最新通知!福州这些列车停运!

停运列车1.4月1日至4月7日太原开k903次&#xff0c;4月3日至4月9日厦门北开k904次停运。2.4月1日至4月8日广州东开k297次&#xff0c;4月2日至4月9日厦门北开k298次停运。3.4月4、5、7日厦门开D6214次、福州开D6229次、厦门开D6224次&#xff0c;4月5、6、8日福州开D6219次、厦…

线程执行完之后会释放吗_java多线程并发:CAS+AQS+HashMap+volatile+ThreadLocal,乐分享...

CyclicBarrier、CountDownLatch、Semaphore 的用法CountDownLatch(线程计数器 )CountDownLatch 类位于 java.util.concurrent 包下&#xff0c;利用它可以实现类似计数器的功能。比如有一个任务 A&#xff0c;它要等待其他 4 个任务执行完毕之后才能执行&#xff0c;此时就可以…

计算机应用基础考查方案,《计算机应用基础》考查方案

《计算机应用基础》考查方案 《计算机应用基础》考核方案 制订人&#xff1a;刘久红老师 计算机应用基础科任教师 制订部门&#xff1a;基础课与思政课教学部 制订时间&#xff1a;2012年12月 一&#xff1a;考核依据 计算机应用基础是面向全院各专业开设的一门重要的公共基础课…

mongodb 导出到sqlserver_SQLServer数据导入Mongodb

SQLServer数据导入Mongodb一、思路MongoVUE免费版支持MySQL导入Mongo,所以思路是SQLServer导入MySQL,再从MySQL导入Mongo。二、准备1&#xff0c;安装mysql数据库(我用的是WAMP&#xff0c;集成mysql&#xff0c;phpadmin)&#xff0c;如果需要&#xff0c;建立自己的数据库如M…

用python画长方形_Python+opencv:绘制矩形,编写文本,PythonOpenCV,画,矩形框

#用 OpenCV 标注 bounding box主要用到下面两个工具——cv2.rectangle() 和 cv2.putText()。用法如下&#xff1a; # cv2.rectangle() # 输入参数分别为图像、左上角坐标、右下角坐标、颜色数组、粗细cv2.rectangle(img, (x,y), (xw,yh), (B,G,R), Thickness) # cv2.putText() …

无法启动此程序因为计算机丢失msvcr110.dll,计算机中丢失msvcr110.dll怎么办

我们在打开电脑程序的时候&#xff0c;系统提示无法启动此程序&#xff0c;因为计算机中丢失MSVCR110.dll&#xff0c;尝试重新安装该程序以解决此问题。这是什么情况呢?因为现在所有的5.5环境都是基于vc11的编译脚本下生成的&#xff0c;所以在windows下你得安装相关组件&…

anaconda pandas运行不了_学习python你必须弄懂的 Python、Pycharm、Anaconda 三者之间的关系...

Python作为深度学习和人工智能学习的热门语言&#xff0c;学习一门语言&#xff0c;除了学会其简单的语法之外还需要对其进行运行和实现&#xff0c;才能实现和发挥其功能和作用。下面来介绍运行Python代码常用到的工具总结。一.Python、Pycharm、Anaconda关系介绍1. PythonPyt…

谁先量子计算机谁就,G、IBM、中科院,比一比谁先实现量子计算霸权?

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼前天&#xff0c;科技圈的“重磅”、“突破”&#xff0c;可能又是一条“明明每个字都认识”系列的新闻&#xff1a;中科院在5月3日宣布中国建造了世界上第一台超越早期经典计算机的光量子计算机&#xff0c;自主研发10比特超导量子…

java: 程序包com.alibaba.fastjson不存在_Java开发中的异常

NO.1 Java.alng.NullPointerException这个异常大家肯定都经常遇到&#xff0c;异常的解释是 “程序遇上了空指针 “&#xff0c;简单地说就是调用了未经初始化的对象或者是不存在的对象&#xff0c;这个错误经常出现在创建图片&#xff0c;调用数组这些操作中&#xff0c;比如图…

福大计算机课程表,教学文件 - 福州大学电气工程与自动化学院

第一章 总 则第一条教室是学校教书育人的主要场所&#xff0c;是精神文明的窗口之一&#xff0c;为创造优美、文明、卫生的学习环境&#xff0c;保证教学活动的顺利进行&#xff0c;特制定本管理规定。第二条全校公共教学楼教室的使用均由教务处统一安排&#xff0c;多媒体教…

python爬虫之逆向破解_Python爬虫进阶之APP逆向(二)

最近有朋友在做新闻资讯类的 app 爬虫&#xff0c;也许大多数人都会认为&#xff0c;一个新闻资讯 app 不会有什么反爬吧。 恰恰相反&#xff0c;当你想爬一条新闻的时候都有请求参数加密&#xff0c;可见现在反爬的严重性。 分析 国际惯例先抓包&#xff0c;万幸抓包非常顺利&…

微型计算机的系统组成图,微型计算机系统结构图.doc

时钟复位DBCPUABCBROMRAM定时计数器中断系统I/O口外部设备微型计算机系统结构图图2.1 基于单片机的电气串级调速系统原理图基于单片机的机械串级调速系统原理图图2-1双闭环控制的串级调速系统原理图----图4-1电流环动态结构图及其化简ASRnASR____n图4-2 转速闭环的动态结构图及…

在python中可以使用for作为变量名对吗_python能用一个变量的值作为另一个变量的变量名吗?...

A [零, 一, 二, 三] B [zero, one, two, three] for index, item in enumerate(A): print(变量A的赋值是 *{}*, 变量B的赋值是 *{}*.format(item, B[index])) try: print(eval(item)) except Exception as err: print(错误原因:{}.format(err)) exec({} B[index].format(ite…