Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据-写在前面

今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址,课程数量也不是很多,大概有 6000+ 门课程,数据量不大,用单线程其实就能很快的爬取完毕,不过为了秒爬,我还是选用了一个异步数据操作。

在这里插入图片描述

2. CSDN学院课程数据-分析页码

还是需要好好的分析一下页码规律

https://edu.csdn.net/courses/p2
https://edu.csdn.net/courses/p3
https://edu.csdn.net/courses/p4
... ...
https://edu.csdn.net/courses/p271

页码还是非常有规律的,直接编写代码就可以快速的爬取下来。出于人文关怀,我还是把协程数限制在3,要不顺发271个请求还是有点攻击的性质了。这样不好,不符合我们的精神。

import asyncio
import aiohttp
from lxml import etreesema = asyncio.Semaphore(3)
async def get_html(url):headers = {"user-agent": "自己找个UA即可"}'''本文来自 梦想橡皮擦 的博客地址为:  https://blog.csdn.net/hihell  可以任意转载,但是希望给我留个版权。'''print("正在操作{}".format(url))async with aiohttp.ClientSession() as s:try:async with s.get(url, headers=headers, timeout=3) as res:if res.status==200:html = await res.text()html = etree.HTML(html)get_content(html)  # 解析网页print("数据{}插入完毕".format(url))except Exception as e:print(e)print(html)time.sleep(1)print("休息一下")await get_html(url)async def x_get_html(url):with(await sema):await get_html(url)if __name__ == '__main__':url_format = "https://edu.csdn.net/courses/p{}"urls = [url_format.format(index) for index in range(1, 272)]loop = asyncio.get_event_loop()tasks = [x_get_html(url) for url in urls]request = loop.run_until_complete(asyncio.wait(tasks))

3. CSDN学院课程数据-解析网页函数

网页下载到了之后,需要进行二次处理,然后才可以把他放入到mongodb中,我们只需要使用lxml库即可

def get_content(html):course_item = html.xpath("//div[@class='course_item']")data = []for item in course_item:link = item.xpath("./a/@href")[0]  # 获取课程详情的链接,方便我们后面抓取tags = item.xpath(".//div[@class='titleInfor']/span[@class='tags']/text()")  # 获取标签title = item.xpath(".//div[@class='titleInfor']/span[@class='title']/text()")[0]  # 获取标题num = item.xpath(".//p[@class='subinfo']/span/text()")[0]  # 学习人数subinfo = item.xpath(".//p[@class='subinfo']/text()")[1].strip() #  作者price = item.xpath(".//p[contains(@class,'priceinfo')]/i/text()")[0].strip()  # 作者data.append({"title":title,"link":link,"tags":tags,"num":num,"subinfo":subinfo,"price":price})collection.insert_many(data)

4. CSDN学院课程数据-数据存储

数据保存到mongodb中,完成。

在这里插入图片描述


168280a961c9d62f

没有特别突出的地方,简单易操作。
168280a96bb4c04b?w=420&h=420&f=gif&s=327911

转载于:https://www.cnblogs.com/happymeng/p/10247882.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/463742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UML类图解义 (来自《大话设计模式》)

为什么80%的码农都做不了架构师?>>> 小菜:“对了,我时常在一些技术书中看到这些类图表示,简单的还看得懂,有些标记我很容易混淆。要不你给我讲讲吧。” 大鸟:“这个其实多看多用就熟悉了。我给…

易写易库(EXEK)玩“花”儿之三:命令有图标支持库,附图

释题:如果您认为这个“花”儿,属于之前第一个“花”儿的变种,易语言写支持库也能玩出“花”儿来(易写易库(EXEK)进展5),我也不反对。 在开始正文之前,我要首先回答我之前提出的两个问题&#xf…

您好,有什么嵌入式书籍推荐的?

回答下这个后台的留言-----比较推荐下面这个仓库里面的内容!https://github.com/ZhongYi-LinuxDriverDev/CS-EmbeddedLinux-Book#%E5%85%A8%E9%83%A8%E6%B1%87%E6%80%BB

VS2017打开低版本的VS MVC架构的项目的时候需要修改的地方

1、需要修改的是.sln文件,即将里面的 Version改为12,其中的VS的版本改为2017 2、项目中后缀名为 .csproj中的代码改一下: 转载于:https://www.cnblogs.com/zhijianhao/p/10253572.html

从外部的js文件中获取ASPX页面的控件ClientID(get control reference from external javascript)...

前言 当使用MasterPage、UserControl等容器时,为了避免控件的重复命名,asp.net会自动将容器中的控件生成一个ClientID(Control Tree中的可生成,否则不会生成)。 例如:ContentPlaceHolder1中的Button1默认情…

可怕!CPU暗藏了这些未公开的指令!

我们平时编程写的高级语言,都是经过编译器编译以后,变成了CPU可以执行的机器指令:而CPU能支持的指令,都在它的指令集里面了。很久以来,我都在思考一个问题:CPU有没有未公开的指令?或者说&#x…

A star算法优化二

本文目的是对A*寻路算法所生成的路径进行一些人性化的调整,使其看起来不至于太机械化。关于A*算法的原理与实现,读者可以阅读其他资料,这里不再详细阐述。 如何写估价函数A*寻路算法本质上是一个有方向性的广度优先搜索算法,它使用…

CentOS下python-mysqldb安装

CentOS下python-mysqldb安装日期:2011-04-17 | 来源:未知 | 作者:redice | 869 人围观 | 1 人鼓掌了!鲲鹏Web数据抓取 - 专业Web数据采集服务提供者(1)py…

I2C总线接上拉电阻的原因

I2C为什么要接上拉电阻?因为它是开漏输出。为什么是开漏输出?I2C协议支持多个主设备与多个从设备在一条总线上,如果不用开漏输出,而用推挽输出,会出现主设备之间短路的情况。所以总线一般会使用开漏输出。为什么要接上…

解决循环引用--弱引用weak_ptr

循环引用&#xff1a; 引用计数是一种便利的内存管理机制&#xff0c;但它有一个很大的缺点&#xff0c;那就是不能管理循环引用的对象。一个简单的例子如下&#xff1a; class parent; class children;typedef shared_ptr<parent> parent_ptr; typedef shared_ptr<ch…

第九章 虚拟内存

物理地址和虚拟地址&#xff1a; 计算机的主存被组织成一个由M个连续的字节大小的单元组成的数组。每个字节都有一个唯一的物理地址&#xff08;PA&#xff09;。第一个字节地址为0&#xff0c;接下来为1&#xff0c;再接下来为2&#xff0c;依次类推。CPU访问内存的最自然方式…

Android HandlerThread 总结使用

Android HandlerThread 总结使用转载请标明出处&#xff1a;http://www.cnblogs.com/zhaoyanjun/p/6062880.html本文出自【赵彦军的博客】前言以前我在 【Android Handler、Loop 的简单使用】 介绍了子线程和子线程之间的通信。很明显的一点就是&#xff0c;我们要在子线程中调…

python 文件操作练习

1. 文件a.txt内容&#xff1a;每一行内容分别为商品名字&#xff0c;价钱&#xff0c;个数。 apple 10 3 tesla 100000 1 mac 3000 2 lenovo 30000 3 chicken 10 3 通过代码&#xff0c;将其构建成这种数据类型&#xff1a;[{name:apple,price:10,amount:3},{name:tesla,price:…

微软发布Enterprise Library 4.1和Unity 1.2

说明 微软模式与实践团队今天发布了Enterprise Library 4.1和Unity 1.2版本&#xff0c;这次发布的主要新特性如下&#xff1a; 1. 支持Visual Studio 2008 SP1 2. Unity应用程序块中加入了拦截机制 3. 性能提升 4. 配置工具的可用性提升 5. Bugs修复。 在Unity 1.2中有如下几点…

简易的波形折叠电路

01 波形折叠一、背景介绍今天在 Youtube 上看到 UP 主 Neukolln 展示了一款非常简单波形折叠电路。那么什么是波形折叠电路&#xff1f;它有什么用处&#xff1f;1、什么是波形折叠&#xff1f;通常情况下&#xff0c;信号在放大中会产生“饱和失真”&#xff0c;这是由于放大器…

STL 容器和迭代器连载6_顺序容器的操作3

2019独角兽企业重金招聘Python工程师标准>>> /*- * 文件名 &#xff1a;STL_con_ite_6.cpp * 开发人员&#xff1a;袁培荣 * 当前版本&#xff1a;1.0.0.2595 * 创建时间&#xff1a;2012-05-24 * 修改时间&#xff1a;2012-05-24 * 功能…

vector的内存释放

1. vector容器的内存自增长 与其他容器不同&#xff0c;其内存空间只会增长&#xff0c;不会减小。先来看看"C Primer"中怎么说&#xff1a;为了支持快速的随机访问&#xff0c;vector容器的元素以连续方式存放&#xff0c;每一个元素都紧挨着前一个元素存储。设想一…

poj 2096 , zoj 3329 , hdu 4035 —— 期望DP

题目&#xff1a;http://poj.org/problem?id2096 题目好长...意思就是每次出现 x 和 y&#xff0c;问期望几次 x 集齐 n 种&#xff0c;y 集齐 s 种&#xff1b; 所以设 f[i][j] 表示已经有几种&#xff0c;转移一下即可。 代码如下&#xff1a; #include<cstdio> #incl…

[C++]MySQL数据库操作实例

由于课程大实验需要使用c操作MySQL数据库&#xff0c;经过一番研究终于成功实现VS2008中与MySQL的连接。环境设置&#xff1a;安装完MySQL之后&#xff0c;将安装目录中的include目录下的libmysql.lib文件拷到VS2008安装目录中的VC\lib\下&#xff0c;然后在项目-选项-c/c-常规…

MapInfo开发心得——控件篇

前阵做一个项目过程中&#xff0c;需要结合MapInfo进行地方展示开发&#xff0c;积累一点点心得与大家共享以下所有基于MapXtreme 6.6MapInfo提供了足够强大的WinForm地图空间&#xff0c;可以很方便地在VS中拖拉摆放。但如此强大的控件也带来了封闭性太强的问题。现在我们都接…