一语道破爬虫,来揭开爬虫面纱

目录

一、爬虫(网络蜘蛛(Spider))

1.1、是什么:

1.2、学习的原因

1.3、用在地方:

1.4、是否合法:

1.5、后果

案例:

二、应用领域

三、Robots协议

四、抓包

4.1、浏览器抓包

4.2、抓包工具

常见的抓包工具:

五、思维导图总结


一、爬虫(网络蜘蛛(Spider))

1.1、是什么:

网络蜘蛛:互联网是张网,可以在网上走来走去

网络爬虫就是自动的从网络上获取数据的程序【模拟客户端浏览器】

1.2、学习的原因

好吃:有数据才能进行数据分析【大数据分析】

能从网络上爬取什么:浏览网站时所能看见的数据都可以通过爬虫程序保存下来、文字、图片、视频/音频

1.3、用在地方:

数据展示----------将爬取的数据展示到网页或者APP上,比如:百度新闻、今日头条,

数据分析-----------从数据中寻找一些规律,比如:慢慢买(价格对比)、TIOBE排行等

1.4、是否合法:

网络爬虫的约束---------Robots协议、约束网络爬虫程序的速度(一秒发出一千个请求)

1.5、后果

要么封账号要么封ip(换ip----换电脑,网上有ip池,花钱买),严重的坐牢

案例:

爬虫禁区1:

为违法违规组织提供爬虫相关服务 (验证码识别服务贩卖SEO......)

  • 知乎某极验破解者自述被抓 
  • “快啊答题”AI破解验证码服务开发者被判刑
  • 永嘉警方揪出“黑”百度黑客团伙 千扰搜索引擎牟利超七千万元


爬虫禁区2: 个人隐私数据抓取与贩卖

  • 简历大数据公司“5达科技”被一锅端
  • 社保掌上通被下架 用户的信息很容易泄露太不安全了
  • 爬虫为何受关注? 业内: 大数据服务商或因合作方涉套路贷犯罪而被牵连

爬虫禁区3:利用无版权的商业数据获利

  • “车来了”涉嫌偷数据被警方立案
  • 裁判文书网数据竟被售卖: 爬虫程序抓取 或成侵权

二、应用领域

2.1、区分Python与爬虫

Python 不是爬虫,而是一种编程语言。然而,Python 在爬虫领域中有着广泛的应用。许多人选择使用 Python 来编写网络爬虫,因为它有许多强大的库和工具,如 Requests、Beautiful Soup、Scrapy 等,可以帮助开发者轻松地编写和管理爬虫程序。

因此,虽然 Python 本身不是爬虫,但它是一种非常适合用于编写爬虫的编程语言,可以帮助开发者快速、高效地创建各种类型的网络爬虫。

Python

是一种功能强大且灵活的编程语言,因此在各种领域都有广泛的应用。以下是 Python 的一些主要应用领域:

1. Web 开发:Python 可以用于开发 Web 应用程序和网站,常用的 Web 框架包括 Django 和 Flask。

2. 数据科学和机器学习:Python 在数据科学和机器学习领域非常流行,因为有许多强大的库和工具,如 NumPy、Pandas、SciPy、scikit-learn 和 TensorFlow。

3. 自动化和脚本编写:Python 可以用于编写自动化脚本,包括系统管理、文件操作、数据处理等。

4. 科学计算和工程:Python 在科学计算和工程领域有广泛的应用,因为它可以处理复杂的数学计算和科学建模。

5. 游戏开发:Python 可以用于开发游戏,有一些流行的游戏引擎如 Pygame 和 Panda3D。

6. 网络编程:Python 在网络编程方面有着良好的支持,可以用于开发网络应用和服务器端程序。

7. 数据库:Python 有许多库可以用于与各种数据库进行交互,如 MySQL、PostgreSQL 和 MongoDB。

8. GUI 应用程序:Python 可以用于开发图形用户界面(GUI)应用程序,如使用 Tkinter、PyQt 和 wxPython 等库。

总的来说,Python 在各种领域都有广泛的应用,因此是一种非常流行的编程语言。

爬虫:
1. 搜索引擎:爬虫被用于搜索引擎的抓取和索引网页内容,以便用户可以通过搜索引擎找到相关的信息。
2. 数据挖掘:爬虫可以用于从网页上抓取大量的数据,然后进行分析和挖掘,以发现有用的信息和趋势。
3. 价格比较和商品信息收集:爬虫可以用于抓取不同网站上的商品信息和价格,以便用户可以比较不同产品的价格和特性。
4. 网络安全:爬虫可以用于发现和分析网站上的安全漏洞和恶意软件,以帮助提升网络安全。
5. 社交媒体分析:爬虫可以用于抓取社交媒体上的信息和数据,以进行用户行为分析和趋势预测。
6. 舆情监控:爬虫可以用于监控新闻网站、论坛和社交媒体上的舆情信息,以帮助政府和企业了解公众舆论。
7. 金融市场分析:爬虫可以用于抓取金融市场上的数据和信息,以进行趋势分析和预测。
8. 学术研究:爬虫可以用于抓取学术文献和研究成果,以帮助研究人员进行文献综述和数据分析。

三、Robots协议

是网站管理和网络爬虫开发者之间的一种合作方式/君子协议(说白了就是给你看的,网站自己会做反爬手段),有效地管理网络爬虫对网站的访问,保护网站内容的安全性和合法性。

在网站后面加/robots.txt就可以看见那些可以爬那些不可以爬

Disallow:禁止爬

Allow:允许爬

四、抓包

抓包(Packet Capture)是指通过软件工具捕获和分析计算机网络中传输的数据包。抓包通常用于网络分析、安全审计、故障排除和网络性能优化等目的。

简单说明:电脑当前连了网,我们要和另外一台电脑通讯,通讯过程中发送的数据,是以包来发送的

4.1、浏览器抓包

右键---->检查(快捷键:F12)

4.2、抓包工具

可以截取经过计算机网络接口的数据包,并将其保存到文件中供后续分析。这些数据包可以包含从源到目的地的所有通信内容,包括通信双方的IP地址、端口号、协议类型、数据内容等信息。通过分析这些数据包,可以深入了解网络通信的细节,发现潜在的安全问题、网络瓶颈或者通信异常。

抓包工具通常可以在本地计算机上运行,也可以在网络设备上运行。

常见的抓包工具:

Wireshark、tcpdump、Fiddler、Charles等。这些工具提供了丰富的功能,可以对抓取到的数据包进行过滤、分析和可视化展示,帮助网络管理员和安全专家进行网络监控和问题排查。

伪基站就假的网络

五、思维导图总结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/585047.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从0到1浅析Redis服务器反弹Shell那些事

文章目录 前言Redis服务1.1 特点与应用1.2 安装与使用1.3 语法和配置1.4 未授权访问 反弹Shell2.1 Web服务写入Webshell2.2 Linux定时任务反弹shell2.3 /etc/profile.d->反弹shell2.4 写入ssh公钥登录服务器2.5 利用Redis主从复制RCE2.6 SSRF漏洞组合拳->RCE 总结 前言 …

stm32中的i2c协议

stm32中I2C 文章目录 stm32中I2CI2C 协议简介I2C物理层协议层I2C基本读写过程 **通讯的起始和停止信号****数据有效性****地址及数据方向****响应** STM32的I2C特性及架构**STM32** **的** I2C外设简介STM32 的 I 2C 架构剖析通讯引脚 通讯过程主发送器主接收器 I2C初始化结构体…

【Linux】指令(本人使用比较少的)——笔记(持续更新)

文章目录 ps -axj:查看进程ps -aL:查看线程echo $?:查看最近程序的退出码jobs:查看后台运行的线程组fd 任务号:将后台任务提到前台bg 任务号:将暂停的后台程序重启netstat -nltp:查看服务及监听…

Unity Meta Quest 一体机开发(十二):【手势追踪】Poke 交互 - 用手指点击由 3D 物体制作的 UI 按钮

文章目录 📕教程说明📕给玩家配置 HandPokeInteractor📕用 3D 物体制作可以被点击的 UI 按钮⭐搭建物体层级⭐给物体添加脚本⭐为脚本变量赋值 📕模仿官方样例按钮的样式📕在按钮上添加文字📕修改按钮图片 …

基于MINIST的手写数字体识别

一、算法简述 网络结构设计 通过创建MnistNet类,定义了包含两个卷积层和两个全连接层的深度神经网络。这个网络的设计灵感来自于经典的CNN结构,其中卷积层用于提取图像特征,而全连接层则用于将这些特征映射到最终的类别。 卷积与池化 卷…

Docker 入门 ------ 基本命令

1. 使用Docker镜像 1.1 获取镜像 主要命令: docker pull NAME[:TAG] NAME 为镜像名称,后跟:版本号,如果没有跟后面的版本号,默认拉取最新的稳定版本 例子: 上述命令相当于:docker.io/library/ubuntu:latest 1.2 查…

基于metersphere和supper-jacoco 测试覆盖率落地实践

一、背景及目标 背景 1、技术研发流程为测试 提供冒烟用例-开发根据用例自测-提测-开始测试,这一套流程,但是中间开发是否真实执行冒烟,测试并不知晓,而且测试提供冒烟用例是否符合标准也没法进行量化 2、公司产品属于saas产品&…

企业私有云容器化架构

什么是虚拟化: 虚拟化(Virtualization)技术最早出现在 20 世纪 60 年代的 IBM 大型机系统,在70年代的 System 370 系列中逐渐流行起来,这些机器通过一种叫虚拟机监控器(Virtual Machine Monitor,VMM&#x…

Redis:原理速成+项目实战——Redis常见命令(数据结构、常见命令总结)

👨‍🎓作者简介:一位大四、研0学生,正在努力准备大四暑假的实习 🌌上期文章:Redis:原理速成项目实战——初识Redis、Redis的安装及启动、Redis客户端 📚订阅专栏:Redis速…

RIP路由协议配置实验

实验目的: (1)理解RIP路由的原理; (2)掌握RIP路由的配置方法 实验器材: Cisco packet 实验内容: 实验步骤: (1)布置拓扑: &…

【Minikube Prometheus】基于Prometheus Grafana监控由Minikube创建的K8S集群

文章目录 1. 系统信息参数说明2. Docker安装3. minikube安装4. kubectl安装5. Helm安装6. 启动Kubernetes集群v1.28.37. 使用helm安装Prometheus8. 使用helm安装Grafana9. Grafana的Dashboard设定10. 设定Prometheus数据源11. 导入Kubernetes Dashboard12. 实验过程中的常见问题…

shell打印粉色小心心、颜文字心心

#!/bin/bash # *********************************************************# # # # * Author : 白嫖一茶 # # * QQ邮箱址 : 2534824121qq.com # #…

万界星空科技车间生产管理系统解决方案

车间管理系统解决方案:   (一)车间生产计划管理解决方案   车间管理系统解决方案对于一般的生产计划,需完成编制、审批、下达、执行、完工等操作,车间管理系统解决方案立足于减少中间环节浪费,节约成本&#xff0c…

【Vue】使用Axios请求下载后端返回的文件流,并能够提示后端报错信息

【需求】使用Axios请求下载后端返回的文件流,下载失败时提示信息不写死,按照后端返回的信息进行提示。 一、需求分析 看到这个需求的时候,有人可能会很疑惑,这不是直接就能获取到吗,直接message.error()弹框就完事了&…

Matlab:BP神经网络算法,二叉决策树

1、BP神经网络算法 (1)步骤 1.准备训练数据和目标值 2.创建并配置BP神经网络模型 3.训练BP神经网络模型 4.用BP神经网络模型预测数据 例:某企业第一年度营业额为132468,第二年度为158948,第三年度为183737,预测第四年度的营…

【并发设计模式】聊聊线程本地存储模式如何实现的线程安全

前面两篇文章,通过两阶段终止的模式进行优雅关闭线程,利用数据不变性的方式保证数据安全,以及基于COW的模式,保证读数据的安全。本篇我们来简述下如果利用线程本地存储的方式保证线程安全。 首先一个大前提就是并发问题&#xff…

【六袆 - Framework】vue3入门;vue框架的特点矩阵列举;Vue.js 工作原理

vue框架的特点 Vue.js的特点展开叙述Vue.js的工作原理展开叙述 官方文档: https://cn.vuejs.org/guide/introduction.html Vue.js的特点 ┌────────────────────┬────────────────────────────────────…

yolov5 主要流程

1.介绍 本文包含了有关yolov5目标检测的基本流程,包括模型训练与模型部署,旨在帮助小伙伴们建立系统的认知💖💖 YOLO是 "You only look once "的首字母缩写,是一个开源软件工具,它具有实时检测…

昇腾910平台安装驱动、固件、CANN toolkit、pytorch

本文使用的昇腾910平台操作系统是openEuler,之前没了解过,不过暂时感觉用起来和centOS差不多。系统架构是ARM,安装包基本都是带aarch64字样,注意和x86_64区别开,别下错了。 安装依赖 cmake 通过yum安装的cmake版本较…