Python爬虫入门教程 22-100 CSDN学院课程数据抓取

1. CSDN学院课程数据-写在前面

今天又要抓取一个网站了,选择恐惧症使得我不知道该拿谁下手,找来找去,算了,还是抓取CSDN学院吧,CSDN学院的网站为 https://edu.csdn.net/courses 我看了一下这个网址,课程数量也不是很多,大概有 6000+ 门课程,数据量不大,用单线程其实就能很快的爬取完毕,不过为了秒爬,我还是选用了一个异步数据操作。

在这里插入图片描述

2. CSDN学院课程数据-分析页码

还是需要好好的分析一下页码规律

https://edu.csdn.net/courses/p2
https://edu.csdn.net/courses/p3
https://edu.csdn.net/courses/p4
... ...
https://edu.csdn.net/courses/p271

页码还是非常有规律的,直接编写代码就可以快速的爬取下来。出于人文关怀,我还是把协程数限制在3,要不顺发271个请求还是有点攻击的性质了。这样不好,不符合我们的精神。

import asyncio
import aiohttp
from lxml import etreesema = asyncio.Semaphore(3)
async def get_html(url):headers = {"user-agent": "自己找个UA即可"}'''本文来自 梦想橡皮擦 的博客地址为:  https://blog.csdn.net/hihell  可以任意转载,但是希望给我留个版权。'''print("正在操作{}".format(url))async with aiohttp.ClientSession() as s:try:async with s.get(url, headers=headers, timeout=3) as res:if res.status==200:html = await res.text()html = etree.HTML(html)get_content(html)  # 解析网页print("数据{}插入完毕".format(url))except Exception as e:print(e)print(html)time.sleep(1)print("休息一下")await get_html(url)async def x_get_html(url):with(await sema):await get_html(url)if __name__ == '__main__':url_format = "https://edu.csdn.net/courses/p{}"urls = [url_format.format(index) for index in range(1, 272)]loop = asyncio.get_event_loop()tasks = [x_get_html(url) for url in urls]request = loop.run_until_complete(asyncio.wait(tasks))

3. CSDN学院课程数据-解析网页函数

网页下载到了之后,需要进行二次处理,然后才可以把他放入到mongodb中,我们只需要使用lxml库即可

def get_content(html):course_item = html.xpath("//div[@class='course_item']")data = []for item in course_item:link = item.xpath("./a/@href")[0]  # 获取课程详情的链接,方便我们后面抓取tags = item.xpath(".//div[@class='titleInfor']/span[@class='tags']/text()")  # 获取标签title = item.xpath(".//div[@class='titleInfor']/span[@class='title']/text()")[0]  # 获取标题num = item.xpath(".//p[@class='subinfo']/span/text()")[0]  # 学习人数subinfo = item.xpath(".//p[@class='subinfo']/text()")[1].strip() #  作者price = item.xpath(".//p[contains(@class,'priceinfo')]/i/text()")[0].strip()  # 作者data.append({"title":title,"link":link,"tags":tags,"num":num,"subinfo":subinfo,"price":price})collection.insert_many(data)

4. CSDN学院课程数据-数据存储

数据保存到mongodb中,完成。

在这里插入图片描述


168280a961c9d62f

没有特别突出的地方,简单易操作。
168280a96bb4c04b?w=420&h=420&f=gif&s=327911

转载于:https://www.cnblogs.com/happymeng/p/10247882.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/463742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UML类图解义 (来自《大话设计模式》)

为什么80%的码农都做不了架构师?>>> 小菜:“对了,我时常在一些技术书中看到这些类图表示,简单的还看得懂,有些标记我很容易混淆。要不你给我讲讲吧。” 大鸟:“这个其实多看多用就熟悉了。我给…

易写易库(EXEK)玩“花”儿之三:命令有图标支持库,附图

释题:如果您认为这个“花”儿,属于之前第一个“花”儿的变种,易语言写支持库也能玩出“花”儿来(易写易库(EXEK)进展5),我也不反对。 在开始正文之前,我要首先回答我之前提出的两个问题&#xf…

您好,有什么嵌入式书籍推荐的?

回答下这个后台的留言-----比较推荐下面这个仓库里面的内容!https://github.com/ZhongYi-LinuxDriverDev/CS-EmbeddedLinux-Book#%E5%85%A8%E9%83%A8%E6%B1%87%E6%80%BB

闭包的功能举例

闭包可以在函数外部或者其他函数内,访问本函数内的变量: 闭包可以使变量持久,常驻内存,又可以避免变量被外部修改 1 def func():2 name "大傻子" #定义个name "大傻子"3 def func1():4 return name #把name返回给…

低学历者为何能骗取30万年薪职位

内容&#xff1a;<P>  在如今的职场就业中&#xff0c;高学历真的很诱人。号称是美国耶鲁大学管理学博士但只有初中毕业文凭的方某&#xff0c;能不受到高企的忠爱?在方某的精心准备&#xff0c;经历过一系列面试&#xff0c;他终于谋得了一份年薪30万的总经理助理兼人…

VS2017打开低版本的VS MVC架构的项目的时候需要修改的地方

1、需要修改的是.sln文件&#xff0c;即将里面的 Version改为12&#xff0c;其中的VS的版本改为2017 2、项目中后缀名为 .csproj中的代码改一下&#xff1a; 转载于:https://www.cnblogs.com/zhijianhao/p/10253572.html

从外部的js文件中获取ASPX页面的控件ClientID(get control reference from external javascript)...

前言 当使用MasterPage、UserControl等容器时&#xff0c;为了避免控件的重复命名&#xff0c;asp.net会自动将容器中的控件生成一个ClientID&#xff08;Control Tree中的可生成&#xff0c;否则不会生成&#xff09;。 例如&#xff1a;ContentPlaceHolder1中的Button1默认情…

[转]一个老工程师给年轻工程师的忠告

[1]好好规划自己的路&#xff0c;不要跟着感觉走&#xff01;根据个人的理想决策安排&#xff0c;绝大部分人并不指望成为什么院士或教授&#xff0c;而是希望活得滋润一些&#xff0c;爽一些。那么&#xff0c;就需要慎重安排自己的轨迹。从哪个行业入手&#xff0c;逐渐对该行…

A star算法优化一

A*算法 求最优解 算法一直维护两个表: Open和Close 将起点S加入Open中将所有S可到达的点&#xff08;障碍物以及位于Close表中的点均看成不可达&#xff09;加入到Open中。将起点从Open中删去&#xff0c;并加入到Close中①从Open中删去F值最小的点Min&#xff0c;并将其加入到…

可怕!CPU暗藏了这些未公开的指令!

我们平时编程写的高级语言&#xff0c;都是经过编译器编译以后&#xff0c;变成了CPU可以执行的机器指令&#xff1a;而CPU能支持的指令&#xff0c;都在它的指令集里面了。很久以来&#xff0c;我都在思考一个问题&#xff1a;CPU有没有未公开的指令&#xff1f;或者说&#x…

在Ubuntu下运行 apt-get update命令后出现错误:

在Ubuntu下运行 apt-get update命令后出现错误: The package lists or status file could not be parsed or opened sudo rm /var/lib/apt/lists/* -vf 然后&#xff1a; sudo apt-get update #&#xff08;更新软件源&#xff09;执行安装操作 sudo apt-get upgrade#&#xff…

mvc filter 的用法

1、建个类在model里面名字随便 using System; using System.Collections.Generic; using System.Linq; using System.Web; using System.Web.Mvc; using RHRSP.Web.Controllers.Common;namespace RHRSP.Web.Models {public class DemoActionAttributeFilter : ActionFilterAttr…

Sandy引擎学习笔记:摄影机

第三课程&#xff1a;如何使用摄影机&#xff1f;通过摄影机移动来使摄影的对象产生变化&#xff0c;这样会使动画变得容易。因为你不需要改变观察对象的的属性&#xff0c;只是改变摄影机的变化 package { import flash.display.Sprite; import flash.events.*; impo…

A star算法优化二

本文目的是对A*寻路算法所生成的路径进行一些人性化的调整&#xff0c;使其看起来不至于太机械化。关于A*算法的原理与实现&#xff0c;读者可以阅读其他资料&#xff0c;这里不再详细阐述。 如何写估价函数A*寻路算法本质上是一个有方向性的广度优先搜索算法&#xff0c;它使用…

格式化字符串

Format (.7, “0%”)&#xff1d;70%Format (1140, “$#,##0”)&#xff1d;$1,140Format (114, “$#,##0”)&#xff1d;$1,140字符意义&#xff1a;0 显示一数字&#xff0c;若此位置没有数字则补 0# 显示一数字&#xff0c; 若此位置没有数字则不显示% 数字乘以 100 并在右边…

CentOS下python-mysqldb安装

CentOS下python-mysqldb安装日期&#xff1a;2011-04-17 &#xff5c; 来源&#xff1a;未知 &#xff5c; 作者&#xff1a;redice &#xff5c; 869 人围观 &#xff5c; 1 人鼓掌了&#xff01;鲲鹏Web数据抓取 - 专业Web数据采集服务提供者&#xff08;1&#xff09;py…

I2C总线接上拉电阻的原因

I2C为什么要接上拉电阻&#xff1f;因为它是开漏输出。为什么是开漏输出&#xff1f;I2C协议支持多个主设备与多个从设备在一条总线上&#xff0c;如果不用开漏输出&#xff0c;而用推挽输出&#xff0c;会出现主设备之间短路的情况。所以总线一般会使用开漏输出。为什么要接上…

[转贴]使用jQuery自动缩图片 - [jQuery]

具体思路: 通过具体容器取得容器内所有图片 循环检查所有图片长宽 对超过的图重新定高度. 直接写成一个扩展好了,以后可以直接用. jquery.fn.ImageAutoSize function(width,height){ $("img",this).each(function() { var image $(this); if(i…

解决循环引用--弱引用weak_ptr

循环引用&#xff1a; 引用计数是一种便利的内存管理机制&#xff0c;但它有一个很大的缺点&#xff0c;那就是不能管理循环引用的对象。一个简单的例子如下&#xff1a; class parent; class children;typedef shared_ptr<parent> parent_ptr; typedef shared_ptr<ch…

A - Character Encoding HDU - 6397 - 方程整数解-容斥原理

A - Character Encoding HDU - 6397 思路 &#xff1a; 隔板法就是在n个元素间的&#xff08;n-1&#xff09;个空中插入k-1个板&#xff0c;可以把n个元素分成k组的方法 普通隔板法 求方程 xyz10的正整数解的个数。 添元素隔板法 求方程 xyz10的非负整数解的个数。 那么 增加…