java爬取网页数据_如何使用爬虫工具采集数据

网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本。按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据。

8ada53ef3c94f9e6dc5fed466ddf91ae.png

(图1)

这就是一个网页源码的dom结构,我们需要一级一级指定抓取的标签,如下图:

22a8ae9e47256d16408bd7bc98e506cd.png

(图2)

图2是java程序使用webmagic框架开发的爬虫程序,这段代码就是抓取对应的标签,和图1是相对应的,运行后得到结果如下:

68f4e29294630203fa5df5f80b9a8e79.png

当然,以上是专业程序员干的事情,但是有助于我们理解爬虫工具工作的原理。非专业人员可以通过爬虫工具来自己爬取数据。

1.首先输入你要爬取的网站的网址,点击“开始采集”。

3a301855c0eb4efc6e20390a6ce794ba.png

2.工具自动识别到当前页面是多页数据,会默认翻页采集,我们只要点击“生成采集设置”即可。

347b5d9543174aa43a39a9c8c417e072.png

3.点击要采集的详细链接,这里我们要采集这个网站上所有的化工产品的信息,所以点击中文名称这一列某个链接,再点击右侧“点击该链接”,如下图

70200d1c7f17f377c5e46de0ab5a57cd.png

4.爬虫工具进入到详细链接的页面,这个页面的数据也就是我们要爬取的,点击“生成采集设置”,会生成爬虫工具最后的爬取流程,如下图所示,爬虫工具就会按照这个流程给我们采集数据,直到数据采集完成。

b3f693a914bf8092d23d7202d341feaf.png
f1676c7df005dd3b4df8e94fe41177d4.png

5.点击“采集”按钮,爬虫工具正式开始运行,爬虫工具工作时如下:

59961eb9b68b9bc52e3e8551afc6ff6f.png

列表的这些数据都是爬虫采集到的,我们还可以对这些采集的数据做处理,可以选择导成Excel文档,或者直接导入数据库,这些是后续分析数据,对数据做进一步处理的必要条件。有了这些基础数据,可以对数据做分析,得出一些商业依据,可以作为商业决策时的支撑。比如以前沃尔玛就通过他们的大数据,发现买尿不湿的奶爸喜欢一起买啤酒,于是就把尿不湿和啤酒摆在一起,啤酒的销量大增,这个就是大数据的价值。

这次讲的爬虫工具使用,只是比较基础的应用,希望对大家有帮助。科技漫步者带你漫步科技,后续会不断更新相关知识,欢迎关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

gRPC in ASP.NET Core 3.x - gRPC 简介(2)

前一篇:gRPC in ASP.NET Core 3.x - gRPC 简介(1)身份认证这里指的不是用户的身份认证,而是指多个server和client之间,它们如何识别出来谁是谁,并且能安全的进行消息传输。在身份认证这方面,gRP…

.NET Core开发实战(第8课:配置框架:让服务无缝适应各种环境)--学习笔记

08 | 配置框架:让服务无缝适应各种环境配置是应用程序发布到各种环境的必备能力,这一节开始详细讲解 ASP.NET Core 的配置框架配置框架的核心包有两个,一个抽象包,一个实现包Microsoft.Extensions.Configuration.AbstractionsMicr…

【译】探索更轻量的Electron替代品来托管Blazor桌面应用程序

本文翻译自 ASP.NET 项目组的 Steve Sanderson 的博客,发表于 2019 年 11 月 1 日。Steve Sanderson 是 Blazor 最早的创造者。这篇文章发布后还有一篇后续,是介绍一个在本文提到的跨平台 webview 概念的落地项目 WebWindow ,我也会接着翻译过…

mysql 剔除不可见字符_不可见字符,Excel里最隐蔽的坑

小伙伴们好啊,我是流浪铁匠,今天为大家介绍的是excel数据整理时一类最常见的坑——不可见字符。从unichar函数对应的uincode字符集结果来说,excel大约有111万个字符,其中有不少字符的性质千奇百怪,由于unichar/unicode…

同为Chromium浏览器,Edge却被“特别关照”

谷歌会在 Microsoft Edge 用户访问 Chrome Web Store(Chrome 网上应用商店) 时发去一条通知提醒,建议用户切换到 Google Chrome 以安全地使用扩展程序,通知还提供了下载 Google Chrome 的链接。不过有趣的是,其他 Chro…

噪声与振动控制工程手册_声学分享客噪声与振动控制篇大型隔振工程案例介绍...

第一期《声学分享客--噪声与振动控制篇》将于今日上午10:00~11:00,在线直播,欢迎各位上线交流。主讲人:苏宏兵报告内容:大型隔振工程案例介绍报告人介绍:苏宏兵,工学硕士&#xff0c…

微软推出全新的Windows 10系统图标

微软已开始通过 Fast Ring 向 Insider 用户推出新的 Windows 10 系统图标,这些新图标基于 Fluent 设计。更改从邮件和日历等程序开始,微软将陆续推出更多彩色图标。这些图标将在接下来的几个月中通过 Microsoft Store 的应用更新和 Windows 10 的发布预览…

.NET Core开发实战(第9课:命令行配置提供程序)--学习笔记

09 | 命令行配置提供程序:最简单快捷的配置注入方法这一节讲解如何使用命令行参数来作为配置数据源命令行配置(提供程序的)支持三种格式的命令1、无前缀的 keyvalue 模式2、双中横线模式 --keyvalue 或 --key value3、正横杠模式 /keyvalue 或…

gRPC in ASP.NET Core 3.x - gRPC 消息定义

之前写了几篇关于 Protoco Buffer 的文章。gRPC in ASP.NET Core 3.x - gRPC 简介(1)gRPC in ASP.NET Core 3.x - gRPC 简介(2)当gRPC使用Protocol Buffer作为传输协议的时候,Protocol Buffer里所有的规则仍然都适用。…

10个用于C#.NET开发的基本调试工具

在调试软件时,工具非常重要。获取正确的工具,然后再调试时提取正确的信息。根据获取的正确的错误信息,可以找到问题的根源所在。找到问题根源所在,你就能够解决该错误了。你将看到我认为最基本的解决在C# .NET 中错误问题的工具的…

[蓝桥杯2015初赛]移动距离

题目描述 X星球居民小区的楼房全是一样的,并且按矩阵样式排列。 其楼房的编号为1,2,3… 当排满一行时,从下一行相邻的楼往反方向排号。 比如:当小区排号宽度为6时,开始情形如下: 1 2 3 4 5 6 12 11 10 9 8 7 13 14 15 …

最长公共子序列-dp

一个字符串的 子序列 是指这样一个新的字符串:它是由原字符串在不改变字符的相对顺序的情况下删除某些字符(也可以不删除任何字符)后组成的新字符串。 例如,“ace” 是 “abcde” 的子序列,但 “aec” 不是 “abcde” …