第7期图书推荐
- 内容简介
- 作者简介
- 大咖推荐
- 图书目录概述
- 参与方式
内容简介
本书介绍了Python3网络爬虫的常见技术。首先介绍了网页的基础知识,然后介绍了urllib
、Requests
请求库以及XPath
、Beautiful Soup
等解析库,接着介绍了selenium
对动态网站的爬取和Scrapy
爬虫框架,最后介绍了Linux基础,便于读者自主部署编写好的爬虫脚本。本书所有代码和相关素材可以到GitHub
下载获取,地址为https://github.com/sfvsfv/Crawer
本书主要面向对网络爬虫感兴趣的初学者。
作者简介
杨涵文
网名“川川”,现致力于全栈开发领域,在大数据分析与挖掘、机器学习、人工智能、网站开发等领域实战经验丰富。CSDN内容合伙人、阿里云博客专家,全网20万粉丝博主,热衷于技术研究,乐于分享
周培源
网名“不吃西红柿”,现任Apple高级工程师。全网30万粉丝的知名技术博主、CSDN内容合伙人、华为HDZ成员、阿里云博客专家
陈姗姗
上海工程技术大学讲师,理学博士,西澳大学联培博士,硕士生导师。发表学术论文20余篇,其中SCI检索10余篇,国际权威SCI期刊、IEEE等期刊审稿人。参与多项国家自然科学基金重点项目等
大咖推荐
本书作者“不吃西红柿”和“川川”都是CSDN创作社区的优秀作者,他们通过持续创作,带领众多粉丝学习、参加编程比赛,为粉丝答疑解惑,成为名副其实的“领军人物”。这本书就是他们持续积累、不断迭代改进的结晶。
——邹欣CSDN副总裁、《编程之美》 和《构建之法》作者
本书从基础知识入门到高级实战应用,内容详尽、案例丰富,是学习和提升Python网络爬虫技术的必备佳作。
——徐涛贝壳执行董事兼首席财务官
除了介绍Python爬虫技术基础知识,本书还提供了大量的实战案例,包括爬取各类网站的文字、图片和视频等,可以帮助读者更好地学习和掌握Python爬虫技术。我相信,这本书- -定 会成为Python爬虫开发者的必备工具书。
——刘强杭州数卓信息技术有限公司CEO、《构建企业级推荐系统》 作者
图书目录概述
全书共分为8章,第1章为网页的内容,第2~7章为爬虫的内容,第8章为Linux基础
。
- 第1章:介绍了HTML和CSS的基础知识,虽然本章并不是直接与爬虫相关,但它是学习爬虫技术的基础。对于已经掌握基本网页基础的读者,可以选择跳过该章。
- 第2章:正式进入爬虫技术的学习阶段,这一章介绍了最基本的两个请求库
urllib和Requests
,有知识点的讲解,也有实战案例的讲解。 - 第3章:本章对
正则表达式
做了详细的描述,同时有案例的实践。学完本章就可以掌握最基本的爬虫技术了。 - 第4章:主要介绍
XPath
解析库,配有实际的案例进行讲解,以帮助读者加深理解和巩固。 - 第5章:主要介绍另一个解析库
Beautiful Soup
,它在提取数据中也很方便,对相关知识点以及实际的案例都有所讲解。XPath和Beautiful Soup可以使信息的提取更加方便、快捷,是爬虫必备利器。 - 第6章:主要介绍
selenium
自动化测试。现在越来越多的网站内容是经过 JavaScript 渲染得到的,而原始 HTML 文本可能不包含任何有效内容,·使用模块selenium实现模拟浏览器进行数据爬取是非常好的选择。 - 第7章:在大规模数据的爬取中,不太用得上基础模块,
Scrapy
是目前使用最广泛的爬虫框架之一,本章介绍了Scrapy爬虫框架的详细搭建和实践。针对数据存储过程部分使用的MySql数据库,整章有多个实际的案例,以帮助读者加深理解和巩固。 - 第8章:主要介绍了
Linux
的基础知识点,以帮助读者能够在服务器部署脚本。
参与方式
本群送书五本:
Python网络爬虫入门到实战
关注博主并点赞收藏加任意评论,随机抽取五名免费包邮送出
送书截止时间
:2023年12月7日
京东购买链接:https://item.id.com/14049708.html