Python 爬虫学习系列教程

news/2025/11/3 22:13:06/文章来源:https://blog.csdn.net/freeking101/article/details/59211804

Python爬虫 --- 中高级爬虫学习路线

：https://www.cnblogs.com/Eeyhan/p/14148832.html

看不清图时，可以把图片保存到本地在打开查看。。。

Python爬虫学习系列教程

From：https://cuiqingcai.com/1052.html

一、爬虫入门

1. Python爬虫入门一之综述

2. Python爬虫入门二之爬虫基础了解

3. Python爬虫入门三之Urllib库的基本使用

4. Python爬虫入门四之Urllib库的高级用法

5. Python爬虫入门五之URLError异常处理

6. Python爬虫入门六之Cookie的使用

7. Python爬虫入门七之正则表达式

二、爬虫实战

1. Python爬虫实战一之爬取糗事百科段子

# -*- coding:utf-8 -*-import requests
import re
import osclass QSBK(object):def __init__(self):self.__url = r'https://www.qiushibaike.com'self.__head = Noneself.__data = Noneself.__proxy = Nonedef drop_n(self, content):'''去掉换行符 和 网页注释:param content: html 网页内容:return: 返回去掉换行符之后的网页内容'''content = re.sub(r'\n', '', content)content = re.sub(r'<!--.*?-->', '', content)return contentdef crawl(self):r = requests.get("{0}/hot".format(self.__url))if r.status_code == 200:print("status_code : {0}".format(r.status_code))print r.urlcontent = self.drop_n(r.content)page_num_regex = re.compile(r'<li><span class="current" >(.*?)</span></li>')page_num = re.findall(page_num_regex, content)[0]s = r'<div class="article block untagged mb15.*?>' \r'<div class="author clearfix">' \r'<a .*?>.*?</a><a.*?web-list-author-text.*?><h2>(.*?)</h2></a>' \r'.*?<a href="(.*?)".*?web-list-content.*?><div class="content"><span>(.*?)</span>'# print spattern = re.compile(s)items = re.findall(pattern, content)print u'第 {0} 页'.format(page_num)for item in items:print item[0], item[1], item[2]#os.system('pause')raw_input(u'按 Enter键 继续...')next_page_regex = re.compile(r'<ul class="pagination">.*<li><a href="(.*?)".*?><span.*?/span></a></li></ul>')next_page = re.findall(next_page_regex, content)[0]while next_page:next_url = '{0}{1}'.format(self.__url, next_page)r = requests.get(next_url)if r.status_code == 200:print("status_code : {0}".format(r.status_code))print r.urlcontent = self.drop_n(r.content)page_num = re.findall(page_num_regex, content)[0]items = re.findall(pattern, content)print u'第 {0} 页'.format(page_num)for item in items:print item[0], item[1], item[2]# os.system('pause')raw_input(u'按 Enter键 继续...')next_page = re.findall(next_page_regex, content)[0]print next_pagepasselse:print("status_code : {0}".format(r.status_code))passif __name__ == "__main__":qsbk = QSBK()qsbk.crawl()pass

运行结果截图：

2. Python爬虫实战二之爬取百度贴吧帖子

3. Python爬虫实战三之实现山东大学无线网络掉线自动重连

4. Python爬虫实战四之抓取淘宝MM照片

5. Python爬虫实战五之模拟登录淘宝并获取所有订单

6. Python爬虫实战六之抓取爱问知识人问题并保存至数据库

7. Python爬虫实战七之计算大学本学期绩点

8. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

三、爬虫利器

1. Python爬虫利器一之Requests库的用法

2. Python爬虫利器二之Beautiful Soup的用法

3. Python爬虫利器三之Xpath语法与lxml库的用法

4. Python爬虫利器四之PhantomJS的用法

5. Python爬虫利器五之Selenium的用法

6. Python爬虫利器六之PyQuery的用法

四、爬虫进阶

1. Python爬虫进阶一之爬虫框架概述

2. Python爬虫进阶二之PySpider框架安装配置

3. Python爬虫进阶三之爬虫框架Scrapy安装配置

4. Python爬虫进阶四之PySpider的用法

5. Python爬虫进阶五之多线程的用法

6. Python爬虫进阶六之多进程的用法

7. Python爬虫进阶七之设置ADSL拨号服务器代理

《一只小爬虫》

《一只并发的小爬虫》

《Python与简单网络爬虫的编写》

《Python写爬虫——抓取网页并解析HTML》

《[Python]网络爬虫（一）：抓取网页的含义和URL基本构成》

《[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容》

《[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类》

《[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用》

《[Python]网络爬虫（五）：urllib2的使用细节与抓站技巧》

《[Python]网络爬虫（六）：一个简单的百度贴吧的小爬虫》

《[Python]网络爬虫（七）：Python中的正则表达式教程》

《[Python]网络爬虫（八）：糗事百科的网络爬虫（v0.2）源码及解析》

《[Python]网络爬虫（九）：百度贴吧的网络爬虫（v0.4）源码及解析》

《[Python]网络爬虫（十）：一个爬虫的诞生全过程（以山东大学绩点运算为例）》

《用python爬虫抓站的一些技巧总结 zz》

《python爬虫高级代码》

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/496798.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

友盟分享小程序_在线学习应用“小打卡”小程序分享

友盟分享小程序_在线学习应用“小打卡”小程序分享

目前疫情导致只能线上开学，多采用微信群或QQ群发布作业、打卡，结合直播平台在线授课。各科老师加入群，打卡及发布的作业、教师辅导信息容易覆盖同时不能记录下来。在以上应用不变的情况下，应用“小打卡”微信小程序可以很好的解决…

阅读更多...

LeCun：现在还没有真正的AI系统，机器与生物系统差远了

LeCun：现在还没有真正的AI系统，机器与生物系统差远了

安妮编译自 NYU量子位出品 | 公众号 QbitAI可能我们现在提到的AI都是假AI。近日，Facebook首席人工智能科学家Yann LeCun在纽约大学坦登工程学院的AI研讨会上谈了谈AI的历史和方向。研讨会上，LeCun提出人工神经网络的学习能力仍十分有限，还不…

阅读更多...

Java并发编程实战~不安全的单例

Java并发编程实战~不安全的单例

不安全的单例 /*** 不安全的单例.<br>* author gqltt<br>* version 1.0.0 2020年4月7日<br>* see * since JDK 1.5.0*/ public class Singleton {// volatile 修饰保证安全.private static Singleton instance null;public static Singleton getInstance()…

阅读更多...

C++学习之路 | PTA乙级—— 1071 小赌怡情 (15 分)（精简）

C++学习之路 | PTA乙级—— 1071 小赌怡情 (15 分)（精简）

1071 小赌怡情 (15 分) 常言道“小赌怡情”。这是一个很简单的小游戏：首先由计算机给出第一个整数；然后玩家下注赌第二个整数将会比第一个数大还是小；玩家下注 t 个筹码后，计算机给出第二个数。若玩家猜对了，则系统奖励…

阅读更多...

于.net开发平台项目案例集锦

于.net开发平台项目案例集锦

订阅 | 上一篇 | 下一篇五味笔记于.net开发平台项目案例集锦作者:henq 日期:2007-09-14字体大小: 小中大基于.net开发平台项目案例集锦经过微软.net Framework 2.0的革新，.net平台的开发越来越精彩。笔者收集基于.net开发的n个项目，一方面为新手提…

阅读更多...

C++函数指针详解

C++函数指针详解

来源：http://www.cnblogs.com/ggjucheng/archive/2011/12/13/2286391.html 指针的概念指针是一个特殊的变量，它里面存储的数值被解释成为内存里的一个地址。要搞清一个指针需要搞清指针的四方面的内容：指针的类型，指针所指向的类…

阅读更多...

增大表名最大长度_风电叶片材料的发展变迁史，及风力发电机叶片长度发展历程...

增大表名最大长度_风电叶片材料的发展变迁史，及风力发电机叶片长度发展历程...

2020年，能源领域最火的行业是风电，由于中国出台相关文件，截止12月31日为止，之后装机并网的风电机组将不能够获得电价补贴。这个政策直接推动了国内风电市场的短期井喷。当然宏观因素背景是中国对于环保型电力能源的改革步伐在加快…

阅读更多...

重磅，Intel考虑收购博通

重磅，Intel考虑收购博通

来源：腾讯科技概要：3月10日消息，据外媒报道，《华尔街日报》援引知情人士的话报道称，英特尔（Intel）正在考虑一系列收购方案，包括收购芯片制造商博通（Broadcom）…

阅读更多...

C++学习之路 | PTA乙级—— 1073 多选题常见计分法 (20 分)（精简）

C++学习之路 | PTA乙级—— 1073 多选题常见计分法 (20 分)（精简）

1073 多选题常见计分法 (20 分) 批改多选题是比较麻烦的事情，有很多不同的计分方法。有一种最常见的计分方法是：如果考生选择了部分正确选项，并且没有选择任何错误选项，则得到 50% 分数；如果考生选择了任何一个错误的选…

阅读更多...

Java并发编程实战~volatile

Java并发编程实战~volatile

禁用CPU 缓存告诉编译器，对这个变量的读写，不能使用 CPU 缓存，必须从内存中读取或者写入 /*** TODO 在此写上类的相关说明.<br>* author gqltt<br>* version 1.0.0 2020年4月8日<br>* see * since JDK 1.5.0*/ public c…

阅读更多...

如何在SQL Server 2005中还原数据库

如何在SQL Server 2005中还原数据库

还原数据库的方式有几种数据库备份的方式就将会有几种还原数据库的方式： l 完整备份的还原：无论是完整备份、差异备份还是事务日志备份的还原，在第一步都要先做完整备份的还原。完整备份的还原只需要还原完整备份文件即可。 l 差异备份的还…

阅读更多...

amd cpu不能在cmd环境下运行java代码_如何在Windows10中配置java的JDK环境

amd cpu不能在cmd环境下运行java代码_如何在Windows10中配置java的JDK环境

今天给大家分享一下如何配置java的JDK环境。操作步骤如下：1.下载好 jdk 的安装文件，我下载的是 jdk-10.0.1_windows-x64_bin.exe 这个版本的安装文件；2.使用鼠标双击该exe文件，该exe文件会运行安装界面，截图如下&#…

阅读更多...

我国医疗机器人产业发展特征分析

我国医疗机器人产业发展特征分析

来源：雷克世界导语：2016年4月，我国发布了《机器人产业发展规划（2016-2020年）》，该规划引导我国机器人产业快速健康可持续发展，增强技术创新能力和国际竞争能力，医疗机器人政策长期利…

阅读更多...

位枚举(Bit Flags)

位枚举(Bit Flags)

场景：如字体，一个字体可以同时拥有枚举里面所列举的一种或者多种风格，这时就需要位枚举定义： [Flags] publicenumFontStyle { Bold 0x0001, Italic 0x0002, Regular 0x0004, …

阅读更多...

C++学习之路 | PTA乙级—— 1074 宇宙无敌加法器 (20 分)（精简）

C++学习之路 | PTA乙级—— 1074 宇宙无敌加法器 (20 分)（精简）

1074 宇宙无敌加法器 (20 分) 地球人习惯使用十进制数，并且默认一个数字的每一位都是十进制的。而在 PAT 星人开挂的世界里，每个数字的每一位都是不同进制的，这种神奇的数字称为“PAT数”。每个 PAT 星人都必须熟记各位数字的进制表&#xff…

阅读更多...

Java并发编程实战~final

Java并发编程实战~final

变量生而不变，允许优化，JDK1.5 pre 避免，逸出 final int x; // 错误的构造函数 public FinalFieldExample(){x 3;// 此处就是将this逸出global.obj this; }

阅读更多...

华为鸿蒙麒麟玉兔_华为P50除了麒麟9000，还预装鸿蒙系统，比iPhone12值得买

华为鸿蒙麒麟玉兔_华为P50除了麒麟9000，还预装鸿蒙系统，比iPhone12值得买

2020年已经临近尾声，各大手机厂商的旗舰机均悉数亮相，消费者的目光也开始逐渐转向2021年的开年旗舰上。而在各大手机厂商的第一批开年旗舰中，华为P系列的新品无疑是最受关注的一款。这主要是因为华为目前仍处于美方制裁下，芯片危机…

阅读更多...

2018年智能化发展趋势：语音交互全球开战、AI终端趋势显现

2018年智能化发展趋势：语音交互全球开战、AI终端趋势显现

来源：雪球网作者：西木财经美国知名研究机构CB Insights近日发布重磅报告《2018年必看的人工智能热门趋势》（Top AI Trends To Watch In 2018），报告对AI行业发展现状进行了深入研究剖析，并给出了2018年AI…

阅读更多...

C++ 对象的内存布局

C++ 对象的内存布局

来源：http://blog.csdn.net/haoel/article/details/3081328 前言 07年12月，我写了一篇《C虚函数表解析》的文章，引起了大家的兴趣。有很多朋友对我的文章留了言，有鼓励我的，有批评我的，还有很多问问题的。…

阅读更多...

C++学习之路 | PTA乙级—— 1075 链表元素分类 (25 分)（精简）

C++学习之路 | PTA乙级—— 1075 链表元素分类 (25 分)（精简）

1075 链表元素分类 (25 分) 给定一个单链表，请编写程序将链表元素进行分类排列，使得所有负值元素都排在非负值元素的前面，而 [0, K] 区间内的元素都排在大于 K 的元素前面。但每一类内部元素的顺序是不能改变的。例如：给定链表为 …

阅读更多...

最新文章