python爬虫学习(1)——初识爬虫

520那天我向心仪的女孩要微信:“女神,能给我你的微信号吗?”

女神:“爬!!!!”
从那天开始,我就决定要学好爬虫,爬到女神微信号!!!


目录

1、网络爬虫概述

2、网络爬虫的类型:

3、网络爬虫的工作原理:

4、网络爬虫的设计考虑:

5、搭建开发环境


1、网络爬虫概述

   网络爬虫(Web Crawler),也称为网页蜘蛛(spider)或机器人(bot),是一种自动浏览互联网的程序。它的主要任务是从一个或多个起始网页开始,递归地访问网页,收集信息,并将其存储在本地数据库中,以供搜索引擎索引或进行其他类型的分析。

2、网络爬虫的类型:

  1. 通用爬虫:爬取互联网上广泛的网页,用于构建大型搜索引擎的索引。
  2. 聚焦爬虫:专注于特定主题或领域的网页,用于构建特定领域的搜索引擎或数据库。
  3. 增量爬虫:定期爬取网页,只更新那些自上次爬取以来发生变化的网页。

3、网络爬虫的工作原理:

  1. 选择起始点:爬虫从预定义的URL列表或种子URL开始。
  2. 发送请求:爬虫向目标网页发送HTTP请求。
  3. 接收响应:服务器响应请求,返回网页内容。
  4. 解析内容:爬虫解析网页内容,提取有用的信息,如文本、图片、链接等。
  5. 存储数据:将提取的信息存储到数据库中。
  6. 发现新链接:分析网页中的链接,将新的URL添加到待爬取的队列中。
  7. 重复过程:对新发现的链接重复上述过程。

4、网络爬虫的设计考虑:

  1. 爬取策略:如何决定访问哪些网页,常见的策略有广度优先、深度优先等。
  2. 重复内容的处理:避免爬取重复内容,节省资源。
  3. 用户体验:尊重网站的robots.txt文件,遵守爬取规则,减少对服务器的压力。
  4. 数据质量:确保收集的数据准确、完整。
  5. 法律和道德问题:遵守相关法律法规,尊重版权和隐私。

5、搭建开发环境

我使用用conda来管理python环境;使用VScode/pycharm取决于你;
我的往期博客;

window下下载Anaconda及python并创建虚拟环境
在window下下载Anaconda时新建的虚拟环境在C盘解决方案

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/16497.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

引入安全生产培训云平台,实现“人人讲安全、个个会应急”

引入安全生产培训云平台,旨在全面提升企业及员工的安全意识与应急处理能力,通过数字化手段实现“人人讲安全、个个会应急”的目标。这一平台的构建和应用,不仅促进了安全知识的普及,还极大提高了培训的效率与效果。以下是该平台几…

python 匿名函数 lambda

匿名函数 可以不使用def语句去定义,可以写到简单的表达式 语法结构 lambda 参数:表达式 简单使用 可以写推导式,三目运算符,但是不可以写x1 result lambda i, j: i*jprint(result(2, 3))# 输出 6 lambda运用filter list1 [3…

驱动开发之字符设备开发

1.概念 字符设备是 Linux 驱动中最基本的一类设备驱动,字符设备就是一个一个字节,按照字节 流进行读写操作的设备,读写数据是分先后顺序的。比如我们最常见的点灯、按键、IIC、SPI, LCD 等等都是字符设备,这些设备的驱…

实验室课程|基于SprinBoot+vue的实验室课程管理系统(源码+数据库+文档)

实验室课程管理系统 目录 基于SprinBootvue的实验室课程管理系统 一、前言 二、系统设计 三、系统功能设计 1管理员功能模块 2学生功能模块 3教师功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介…

elementui中 表格使用树形数据且固定一列时展开子集移入时背景色不全问题(父级和子级所展示的字段是不一样的时候)

原来的效果 修改后实现效果 解决- 需要修改elementui的依赖包中lib/element-ui.common.js中的源码 将js中此处代码改完下面的代码 watch: {// dont trigger getter of currentRow in getCellClass. see https://jsfiddle.net/oe2b4hqt/// update DOM manually. see https:/…

幽默的力量

1.以对方的发型、服饰发生变化为借囗,夸赞对方一番。这是在想不起对方姓名时一个为自己尴尬解围的好方法。例如,“哎呀,原来是你呀!真对不住,没能马上想起来。不过你不能怨我,因为几个月的时间,…

Arrays.sort 和 Collections.sort 实现原理和区别?

Collection和Collections区别: java.util.Collection 是一个集合接口。它提供了对集合对象进行基本操作的通用接口方法。 java.util.Collections 是针对集合类的一个帮助类,他提供一系列静态方法实现对各种集合的搜索、排序、线程安全等操作。 然后还…

Oracle实践|内置函数之数学型函数

📫 作者简介:「六月暴雪飞梨花」,专注于研究Java,就职于科技型公司后端工程师 🏆 近期荣誉:华为云云享专家、阿里云专家博主、腾讯云优秀创作者、ACDU成员 🔥 三连支持:欢迎 ❤️关注…

【Linux安全】Firewalld防火墙基础

目录 一、Firewalld概述 二、Firewalld和iptables的关系 三、Firewalld网络区域 1、firewalld防火墙预定义了9个区域: 2、firewalld 数据包处理原则 3、firewalld数据处理流程 4、firewalld检查数据包的源地址的规则 四、Firewalld防火墙的配置方法 1、firewalld 命令…

SpringBoot项目热部署-解决html修改后需要重启项目的问题

前言:启动热部署之后修改html无需再次重启项目,每次都要重新重启项目 2022IDEA以下版本 1、打开file->Settings->Compiler,勾选Build project automatically 2、按住ctrlshiftalt/ 选Registry进去吧app.running的勾打上、 2022IDEA及以上

NVIDIA Orin/Jetson 平台+数字同轴GMSL 车载AI视觉方案,应用于车载,机器人等领域

专注于成像和视觉技术于近期正式发布了可适配NVIDIA DRIVE AGX Orin平台的一系列摄像头产品,该产品是自主开发的数字同轴GMSL2摄像头模组,可满足智能汽车的高质量成像需求。 目前,推出可适配于NVIDIA DRIVE AGX Orin平台的摄像头产品一共有11…

Modular military character

角色具有31个模块化骨架网格,每个模块具有多个蒙皮: 3个头(4skins) 3件衬衫(9skins) 3条裤子(9skins) 3只靴子(9skins) 7件战术背心(3skins) 4只手和手臂(2skins) 3顶帽子和头盔(9skins) 2个背包(3skins) 3支步枪(3skins) 模块允许您组装超过200万个不同的…

Oracle按照主键排序分页sql

在Oracle数据库中,当你想要按照主键排序并进行分页查询时,可以使用以下两种方法: 1. 使用 ROWNUM 和子查询 在Oracle 12c及更早的版本中,ROWNUM 是常用的分页方法。但是,因为 ROWNUM 是在结果集产生之前分配的&#…

spring boot 之 集成 druid数据库连接池

spring boot版本:2.3.12.RELEASE MySQL版本:8.0 Druid简介 Druid是阿里开源的一个数据库连接池和SQL查询优化工具,用于提高应用程序对数据库的性能和可扩展性。主要提供的功能:数据库连接池、数据库连接池监控、SQL查询优化、数…

.NET 分享一款多种方式维持权限的工具

01阅读须知 此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等(包括但不限于)进行检测或维护参考,未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失&#xf…

2024,java开发,已经炸了吗?

网友: 炸的透透的了,坐标南京。 一月底,一个好哥们,双休朝九晚六不加班18K,被裁。 入职不到两年,算是工资和年终奖才赔了6.5W左右。 上周五新公司入职,周六开始加班。现在每周134加班到晚上八…

Unity功能——通过按键设置物体朝左/右旋转(含C#转xlua版)

博文简介: 开发场景:unity的3d场景; 功能:当设定的键被按下时,进行物体朝左/右旋转; 适用范围:本文代码适用于设置3d物体朝左右旋转,也适用于设置UI对象朝左右旋转&#xf…

第22讲:RBD块存储COW克隆解除父子镜像的依赖关系

RBD块存储COW克隆解除父子镜像的依赖关系 1.COW镜像克隆存在的依赖关系 在前面使用copy-on-write机制基于快照做出来的链接克隆,与快照依赖性很强,如果快照损坏或者丢失,那么克隆的镜像将无法使用,使用这个镜像创建的虚拟机也会…

深度学习模型

深度学习模型 深度学习网络模型是人工智能领域的重要分支,它通过模拟人脑神经网络的工作方式来处理数据并识别模式。以下是对深度学习网络模型的一些主要类型的详细概述: 卷积神经网络(Convolutional Neural Network, CNN) 结构&a…

数据库模块名称汇总

1.Oracle。 2.SQLServer。