使用Python的Scrapeasy几行代码内快速抓取任何网站的信息

前言

在浏览网页时,经常会遇到喜欢的视频、音频和图片,希望将它们保存下来。通常的做法是使用浏览器的书签功能或者网站提供的收藏功能。但是,如果网站上的内容被删除,这些方式都会失效。比如在短视频网站中,如果我们收藏了一个视频,但该视频违规或者被UP主删除,那么我们将无法再次访问它,因此很难找回。因此,有必要将网页上的视频、音频和图片下载到本地,这样就不必担心网站上的内容被删除。那么如何快速下载网页上的资源内容呢?
Scrapy是一个适用于Python的快速、高层次的屏幕抓取和Web抓取框架,用于从Web站点中抓取数据并提取结构化数据。Scrapy的用途非常广泛,可用于数据挖掘、监测和自动化测试。Scrapy的吸引之处在于它是一个框架,允许用户根据自己的需求进行方便的定制。它还提供了多种类型的爬虫基类,如BaseSpider、Sitemap爬虫等,而最新版本还增加了对Web 2.0爬虫的支持。另外,Scrapeay 是Python的一个第三方库,其主要功能包括抓取网页数据、从单个网页提取数据以及从多个网页提取数据。此外,它还可以从PDF和HTML表格中提取数据。

一、 安装

1.安装库

pip install scrapeasy

2.导入库

导入库之后,只需提供主页的 URL,scrapeasy就开始去访问当前主页面。

from scrapeasy import Website, Page
web =Website("https://www.pinterest.com/")

二、常用功能函数

class Web:def __init__(self, url):self.url = urldef get_subpages_links(self):# 获取指定网站的所有子页面链接# 实现代码def get_images(self):# 获取指定网站上的所有图像链接# 实现代码def download_media(self, media_type, output_folder):# 下载指定网站上的媒体文件到本地磁盘# 实现代码def get_linked_pages(self, intern=True, extern=True, domain=False):# 获取指定网站链接到的其他页面链接# 参数intern表示内部链接,extern表示外部链接,domain表示域链接# 实现代码class Page:def __init__(self, url):self.url = urldef download_media(self, media_type, output_folder):# 下载指定页面上的媒体文件到本地磁盘# 实现代码def get_media_links(self, media_type):# 获取指定页面上特定类型的媒体链接# 实现代码# 示例用法:
web = Web("https://www.pinterest.com")
links = web.get_subpages_links()
images = web.get_images()
web.download_media("img", "fahrschule/images")
domains = web.get_linked_pages(intern=False, extern=False, domain=True)page = Page("https://www.w3schools.com/html/html5_video.asp")
page.download_media("video", "w3/videos")
video_links = page.get_media_links("video")page = Page("https://tikocash.com")
calendar_links = page.get_media_links("php")page = Page("http://mathcourses.ch/mat182.html")
page.download_media("pdf", "mathcourses/pdf-files")

要获取 ‘pinterest.com’ 上的所有子页面链接,首先我们需要创建一个名为 ‘Web’ 的对象。使用该对象,我们可以调用一个特定的方法来收集这些链接。值得注意的是,由于本地互联网连接和目标网站服务器速度的差异,获取所有子页面链接可能需要一些时间,因此需要谨慎使用这种非常庞大的方法。

调用 ‘.getSubpagesLinks()’ 方法后,将会返回一个包含所有子页面链接的列表。需要注意的是,返回的链接列表缺少典型的 ‘http://www.’ 前缀。尽管在处理链接时可能更加方便,但在浏览器中或通过请求调用这些链接时,请确保在每个链接前面添加 ‘http://www.’。

接下来,我们可以通过调用 ‘.getImages()’ 方法来查找指向 fahrschule-liechti.com 放置在其网站上的所有图像的链接。该方法将返回一个包含所有图像链接的响应。

如果我们想将 tikocash.com 上的所有图片下载到本地磁盘,可以使用 ‘.download(“img”, “fahrschule/images”)’ 方法。首先,我们使用关键字 ‘img’ 来指定下载所有图像媒体,然后定义输出文件夹的位置,即图像应该保存的位置。通过运行这段代码,几秒钟之内就可以收到 Tikocash.com 上的所有图片。

如果想要了解 tikocash.com 链接到哪些页面,可以使用 ‘.getLinks(intern=False, extern=False, domain=True)’ 方法来获取所有链接的列表。为了获得更全面的概述,可以指定只获取域链接,以便了解它链接到的其他网站。

要进一步了解这些链接,可以调用 ‘.getLinks(intern=False, extern=True, domain=False)’ 方法来获取详细的外部链接。这将帮助我们更深入地了解所有外部链接。

要初始化页面,可以创建一个名为 ‘Page’ 的对象来代表网站中的特定页面。通过初始化页面,可以进行各种操作,比如下载视频。例如,通过初始化 ‘W3schools’ 页面,我们可以尝试下载其中的视频。

要下载其他文件类型,比如 .pdf、.php 或 .ico 文件,可以使用 ‘.download()’ 方法,并将文件类型作为参数传递给它。这样可以将指定类型的文件下载到本地磁盘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读《文明之光》第1册总结

人类几千年的文明史和地球的历史相比,实在是太短暂了,大约相当于几分钟和一年的关系。人类已经走过的路,相比今后要走的漫漫长路,只能算是刚刚起步。如果跳出一个个具体事件,站在历史的高度去看,我们会发现…

支小蜜校园防欺凌系统听到声音之后会自动识别吗

在校园安全领域,特别是在预防和应对欺凌问题上,校园防欺凌系统作为新兴的技术应用,正在受到越来越多的关注和探索。那么当这样的系统听到声音之后,它是否能够自动识别并作出相应反应呢?本文将围绕这一问题展开探讨。 …

Python通过SFTP实现网络设备配置备份

一、背景 为了防止网络设备意外损坏,导致配置文件无法恢复,可以通过将网络设备的配置文件备份到本地电脑上。 一般情况下,设备支持通过FTP、TFTP、FTPS、SFTP和SCP备份配置文件。其中使用FTP和TFTP备份配置文件比较简单,但是存在…

K线实战分析系列之十八:十字线——判断行情顶部的有效信号

K线实战分析系列之十八:十字线——判断行情顶部的有效信号 一、十字线二、十字线总结三、三种特殊十字线四、长腿十字线五、墓碑十字线六、蜻蜓十字线七、特殊十字线总结 一、十字线 重要的反转信号 幅度较大的下跌,出现一根十字线,正好是在…

编译内核错误 multiple definition of `yylloc‘

编译内核错误 # make ARCHarm CROSS_COMPILEarm-mix410-linux- uImageHOSTLD scripts/dtc/dtc /usr/bin/ld: scripts/dtc/dtc-parser.tab.o:(.bss0x10): multiple definition of yylloc; scripts/dtc/dtc-lexer.lex.o:(.bss0x0): first defined here collect2: error: ld ret…

【Lazy ORM】 小工具 acw 本地客户端 你负责点击页面,他负责输出代码

介绍 wu-smart-acw-client 简称acw-client&#xff0c;是一个基于Lazy ORM定制的客户端代码生成小工具 Lazy ORM 小工具 acw 本地客户端 你负责点击页面&#xff0c;他负责输出代码安装 <dependency><groupId>top.wu2020</groupId><artifactId>wu-sma…

数据结构——lesson7二叉树 堆的介绍与实现

前言&#x1f49e;&#x1f49e; 啦啦啦~这里是土土数据结构学习笔记&#x1f973;&#x1f973; &#x1f4a5;个人主页&#xff1a;大耳朵土土垚的博客 &#x1f4a5; 所属专栏&#xff1a;数据结构学习笔记 &#x1f4a5;对于数据结构顺序表链表有疑问的都可以在上面数据结…

第四届信息通信与软件工程国际会议(ICICSE 2024)即将召开!

2024年第四届信息通信与软件工程国际会议&#xff08;ICICSE 2024&#xff09;将于2024年5月10-12日在中国北京举办。本次会议由北京工业大学、IEEE以及Comsoc 联合主办。随着当今社会信息化的高速发展&#xff0c;电子信息技术的应用更是随处可见。其中&#xff0c;信息通信与…

WebGL之让目标动起来

在此示例中&#xff0c;我们实际上将旋转正方形平面。 使正方形旋转 让我们开始旋转正方形。我们需要的第一件事是创建一个变量&#xff0c;用于跟踪正方形的当前旋转&#xff1a; var squareRotation 0.0;现在我们需要更新drawScene()函数以在绘制正方形时将当前旋转应用于…

备份 ChatGPT 的聊天纪录

备份 ChatGPT 的聊天纪录 ChatGPT 在前阵子发生了不少次对话纪录消失的情况&#xff0c;让许多用户觉得困扰不已&#xff0c;也担心自己想留存的聊天记录消失不见。 好消息是&#xff0c;OpenAI 在 2023 年 4 月 11 日推出了 ChatGPT 聊天记录备份功能&#xff0c;无论是免费…

QT绑定信号槽重载

qt5中信号和槽的绑定方式发生了变化不再使用宏SIGNAL、SLOT而是使用传递函数指针的形式&#xff0c;这时如果遇到重载函数就需要进行一下类型转换&#xff0c;有两种方式 connect(a, QOverload<type>::of(&A::fun), this, &B::fun); connect(a, static_cast&l…

Redis什么这么快和Redis单线程模型和多线程

概述 1、完全基于内存&#xff0c;绝大部分请求是纯粹的内存操作&#xff0c;非常快速。数据存在内存中&#xff0c;类似于HashMap&#xff0c;HashMap的优势就是查找和操作的时间复杂度都是O(1)&#xff1b; 2、数据结构简单&#xff0c;对数据操作也简单&#xff0c;Redis中…

二叉树入门

这篇博客通过手动创建的一个简单二叉树&#xff0c;实现二叉树遍历&#xff0c;返回节点&#xff0c;叶子个数&#xff0c;查找结点等相关操作。 1. 二叉树的概念 二叉树不为空时&#xff0c;由根节点&#xff0c;左/右子树组成&#xff0c;逻辑结构如下&#xff0c;当二叉树…

Postman(注册,使用,作用)【详解】

目录 一、Postman 1. Postman介绍 2. 安装Postman 3. 注册帐号再使用(可保存测试记录) 4. 创建workspace 5. 测试并保存测试记录 一、Postman postman工具可以发送不同方式的请求,浏览器只能发送get请求(所有用这个工具) 在前后端分离开发模式下&#xff0c;前端技术人员…

Spring Boot中SQL语句报错

报错原因&#xff1a; You have an error in your SQL syntax 你的SQL语句出现错误 报错位置&#xff1a; check the manual that corresponds to your MySQL server version for the right syntax to use near :/sql/schema.sql.t_film at line 1 在:/sql/schema.sql附近使用…

主网NFT的发布合约

1.什么是nft? NFT:Non-fungible-token 非同质化货币 2.新建suimove项目 使用sui move new 项目名命令新建sui move项目 sui move new nft_qyx项目结构如下: 3.写nft合约 module qyx123::nft{use sui::object::{Self, UID};use sui::transfer;use sui::tx_context::{Sel…

【工具】Raycast – Mac提效工具

引入 以前看到同事们锁屏的时候&#xff0c;不知按了什么键&#xff0c;直接调出这个框&#xff0c;然后输入lock屏幕就锁了。 跟我习惯的按Mac开机键不大一样。个人觉得还是蛮炫酷的&#xff5e; 调研 但是由于之前比较繁忙&#xff0c;这件事其实都忘的差不多了&#xff0…

JVM-垃圾收集底层算法实现

三色标记 背景描述 在并发标记的过程中&#xff0c;因为标记期间应用线程还在继续跑&#xff0c;对象间的引用可能发生变化&#xff0c;多标和漏标的情况就有可能发生。 如何解决上面的问题&#xff1f; 引入“三色标记” 意思就是&#xff0c;把Gcroots可达性分析遍历对象过程…

BUUCTF---[MRCTF2020]你传你呢1

1.题目描述 2.打开题目链接 3.上传shell.jpg文件&#xff0c;显示连接成功&#xff0c;但是用蚁剑连接却连接不上。shell文件内容为 <script languagephp>eval($_REQUEST[cmd]);</script>4.用bp抓包&#xff0c;修改属性 5.需要上传一个.htaccess的文件来把jpg后缀…

调查数据显示,越来越多的企业正在增加对云存储预算

调查数据显示&#xff0c;越来越多的企业正在增加对云存储的使用和预算&#xff0c;以便加速创新进程。根据2024年Wasabi全球云存储指数&#xff0c;超过一半&#xff08;53%&#xff09;的受访者表示其公共云存储开支超出预算&#xff0c;原因主要包括使用的存储容量超过原计划…