数据挖掘 | 零代码采集房源数据,支持自动翻页、数据排重等

1 前言

城市规划、商业选址等应用场景中经常会对地区房价、地域价值进行数据分析,其中地区楼盘房价是分析数据中重要的信息参考点,一些互联网网站上汇聚了大量房源信息,通过收集此类数据,能够对地区房价的分析提供参考依据。

如何收集此类数据呢,互联网上提供了众多工具或代码,然后对于普通用户均有较高的使用门槛,并且需要调试用户体验不太理想,工作量也较大。

下面以目标网址为例:

上海楼盘网,上海新房一手房,上海房产网信息网,新开楼盘在售上海楼盘信息 - 安居客

为解决此类用户需求痛点,本着“所见所得”的设计理念,小O历时半年时间,重新对小O网兜软件进行重构,摈弃原有的使用思路,提升软件功能的同时,更加提升软件应用的灵活性,力求为用户提供更加实用的网页信息收集软件,这个过程中,反复测试,适配多种类型网页,面对及其复杂的网页内容结构,反复修改功能,再多次自我使用、测试、颠覆的状态中,终于发布新版本 0231,功能上超越之前版本,更加灵活可配置。

复杂功能和易用性有时难两全,软件在使用操作方面仍然有一定的门槛,好在软件也提供了数据模板功能,通过下载配置好的模板,用户可以跳过配置直接启动采集(不断扩充模板...),希望新版能够满足您数据采集上的需求,助力提升工作效率。

下文将以采集二手房源信息为例,带领大家感受软件功能。

本文操作流程概览

2 操作步骤

下载软件

登录官网 www.gis9.com ,首页往下滚动,下载【小O网兜】。

软件无需安装,下载后直接运行,可能会被防火墙或者软件管家之类的软件拦截,请将软件添加到信任列表里。

软件启动后进入主界面如图,请注册登录后使用软件。

新建任务

点击软件左上方网格球图标,打开任务向导窗口,可以新建和打开xop扩展名的任务文件。

当然,也可以直接从模板库中下载模板。

注意:任务文件保存着采集目标网页、采集的数据等信息,请妥善保存好。

本例子选择新建采集任务,设置任务文件保存目录,软件打开空的任务界面。如下图

打开目标网址,并新建采集规则,自动创建一组采集动作。

配置任务

依次配置每个动作的参数

【打开页面】

-- 该动作是让浏览器打开目标网址。

切换至动作参数,将当前网址复制到网址集合参数项里。如下图,点击批量生成后,会在列表页中新增网址记录。

【扫描页面】

-- 自动扫描页面所有元素,此动作无需配置。

如果目标页面带有向下滚动加载数据,可将超时参数设置大些,以便让程序自动将页面向下滚动,加载更多数据。

  • 滚动幅度:控制页面向下滚动的速度,值越大则越快。
  • 运行超时:控制页面滚动时长,可适当调大。

【读取数据】

-- 该动作从页面读取数据并保存至表格中。

  • (一) 点击【数据表】,弹出界面配置,新建存储表,默认会有一个表存储数据。如有需求,可以新建新表存储数据。

  • (二) 在读取数据Tab页中,点击数据块 / 新建菜单,新建读取数据块,如下图依次选择保存字段。对照页面设置需要采集的字段。

  • (三) 配置字段采集的数据,如下图,依次点击,使用[选择元素],在页面上右键选中目标元素,定位到[网页树]节点,在节点右键菜单,选[设置字段目标元素],设置目标元素至选中的字段。

  • (四) 选中[读数据块1],上图中 1 位置,需设置读取数据块和数据行。

  • (五) 点击字段,在页面下方有取值预览,调整参数获得想要的数据结果。
  • -- 设置参数[目标元素],在网页树选中节点,右键菜单,设置目标元素。
  • -- 设置取值参数,对值进行处理,预览值显示在下方。

  • (六) 点击表格,在页面下方能预览所有表格数据,页面中数据正确预览在表格中。

【翻页动作】

-- 设置翻页动作,执行后页面会自动翻页,提供多种方式翻页

查找和设置目标元素设置同上

设置翻页页码

  1. 点下一页按钮:设置下一页翻页,设置下一页目标元素,每次模拟翻页,可设置翻页执行次数。
  2. 逐个页码:设置页码翻页,设置翻页元素和页码,在页码中找到元素后执行翻页。

设置完成后, 可点击动作鼠标右键,单步执行该动作,验证页码是否翻页。

至此所有动作均配置完成。

执行任务

可挨个动作点击右键,执行单步,逐一执行动作。

也可以点击执行(循环),循环执行多有动作。下图,程序会进行运行直到结束。

异常情况,运行期间可能会出现异常情况,

1、 网页反扒,需要人工点击,此时可能会导致动作执行失效,人工点击验证后,再从任务点击右键继续循环执行。

2、 目标元素为找到,导致无法翻页。

导出数据

执行完毕后,打开【数据表】窗口,对采集数据进行处理后,导出CSV文件,可应用再其他软件中。

导出前,可对数据进行简单处理

--- 删除重复记录:选择 页码URL和标题作为唯一值进行排重

--- 导出数据:将表格数据导出CSV文件,可在EXCEL软件中打开表格。

到此就是小O网兜复制网页信息的全过程,感兴趣的朋友可登陆官网下载软件。

3 小结

小O网兜除了提供模板任务供用户直接下载并采集数据,也提供自定义配置功能,由用户自助式实现采集流程。本文以房源数据为例,介绍采集房源数据的操作流程,通过本文用户能够掌握房源数据采集任务的配置过程,满足中介、科研机构、高校研究等用户自定义采集需求。小O网兜提供开放式、可视化、配置化的采集功能,能够采集绝大多数网页的列表数据和自动翻页操作,实现无人留守自动采集。

后续作者还将继续对标其他优秀同类软件,新增更多操作简便、实用、易用的软件功能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/42875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

216、仿真-基于51单片机温度烟雾人体感应布防报警Proteus仿真设计(程序+Proteus仿真+原理图+配套资料等)

毕设帮助、开题指导、技术解答(有偿)见文未 目录 一、硬件设计 二、设计功能 三、Proteus仿真图 四、原理图 五、程序源码 资料包括: 需要完整的资料可以点击下面的名片加下我,找我要资源压缩包的百度网盘下载地址及提取码。 方案选择 单片机的选…

Python学习笔记_进阶篇(一)_浅析tornado web框架

tornado简介 1、tornado概述 Tornado就是我们在 FriendFeed 的 Web 服务器及其常用工具的开源版本。Tornado 和现在的主流 Web 服务器框架(包括大多数 Python 的框架)有着明显的区别:它是非阻塞式服务器,而且速度相当快。得利于…

2023国赛数学建模思路 - 复盘:人力资源安排的最优化模型

文章目录 0 赛题思路1 描述2 问题概括3 建模过程3.1 边界说明3.2 符号约定3.3 分析3.4 模型建立3.5 模型求解 4 模型评价与推广5 实现代码 建模资料 0 赛题思路 (赛题出来以后第一时间在CSDN分享) https://blog.csdn.net/dc_sinor?typeblog 1 描述 …

衣服材质等整理(时常更新)

参考文章&图片来源 https://zhuanlan.zhihu.com/p/390341736 00. 天然纤维 01. 化学纤维 02. 聚酯纤维(即,涤纶) 一种由有机二元酸和二元醇通过化学缩聚制成的合成纤维。具有出色的抗皱性和保形性,所制衣物在穿着过程中不容…

爬虫逆向实战(十四)--某培训平台登录

一、数据接口分析 主页地址:某培训平台 1、抓包 通过抓包可以发现登录是表单提交到j_spring_security_check 2、判断是否有加密参数 请求参数是否加密? 通过查看“载荷”模块可以发现有一个j_password加密参数 请求头是否加密? 无响应是…

2024浙大MBA/MEM/MPA四个月冲刺备考策略

近期收到很多考生的咨询:距离联考就仅剩四个多月的时间,这个管理类联考的难度如何?主要考些什么内容?现在才开始备考还有希望上岸浙大吗?是不是要等到明年在开始备考比较合适?那么今天在这里小立老师就跟大…

CentOS系统环境搭建(十二)——CentOS7安装Elasticsearch

centos系统环境搭建专栏🔗点击跳转 CentOS 7.9安装Elasticsearch 7.17.6 文章目录 CentOS 7.9安装Elasticsearch 7.17.61.下载2.上传3.解压4.调整es占用内存5.修改es默认Java为本地Java6.修改elasticsearch配置文件7.创建用户8.Elasticsearch 后台启动与关闭9.es管…

查看 Linux 内核版本的几种方法

uname -a uname -srm uname -r 分拆:Linux 5.13.0-19-generic x86 64 5-内核版本 13-主修订版本 0-19 -次要修订版本 过查看 /proc/version 文件确认 /proc 目录包含虚拟文件,其中包含有关系统内存,CPU内核,已安装文件系统等的信…

【C#】条码管理操作手册

前言:本文档为条码管理系统操作指南,介绍功能使用、参数配置、资源链接,以及异常的解决等。思维导图如下: 一、思维导图 二、功能操作–条码打印(客户端) 2.1 参数设置 功能介绍:二维码图片样…

Windows定时任务计划无法显示任务程序界面的问题解决

笔者这两天写了一个python脚本程序,用来自动从公司的主数据系统获取数据,并按格式编制成excel。脚本程序编写一切顺利,运行结果很是完美,笔者很是舒心。但在最后一步,用上班的电脑每天早上定时运行它时,出了…

JAVA设计模式总结之23种设计模式

一、什么是设计模式 设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计…

计算复杂度基础

1. 抽象问题 抽象问题包括决策问题和优化问题 注意:描述中,I的缩写是Instance,S的缩写是Solution。 2. 决策问题 3. 优化问题 将一个优化问题转换为决策问题后,不会变的更难。 \color {green}将一个优化问题转换为决策问题后&…

Python绘图系统6:自定义坐标列表控件

文章目录 自定义坐标列表控件显示和隐藏加载按钮坐标设置控件的显示和隐藏源代码 Python绘图系统: 基础:将matplotlib嵌入到tkinter 📈简单的绘图系统 📈数据导入📈三维绘图系统自定义控件:坐标设置控件&a…

android resoure资源图片颜色值错乱

最近androidstudio开发,添加一些颜色值或者drawable资源文件时,运行app,颜色值或者图片对应不上,暂时找不到原因,望告知。 暂时解决方法:

链游再进化 Web3版CSGO来袭

过去几年,游戏开发者们一直希望借Web3这个价值流通网络,改造传统游戏的经济系统,将虚拟资产的掌管权交给用户,让资产自由地在市场流通。 Web3游戏发展史上,涌现过CryptoKitties、Axie Infinity两大爆款,但…

【C++深入浅出】初识C++中篇(引用、内联函数)

目录 一. 前言 二. 引用 2.1 引用的概念 2.2 引用的使用 2.3 引用的特性 2.4 常引用 2.5 引用的使用场景 2.6 传值、传引用效率比较 2.7 引用和指针的区别 三. 内联函数 3.1 内联函数的概念 3.2 内联函数的特性 一. 前言 上期说道,C是在C的基础之上&…

onvif中imaging setting图像画质总结!

前言: 大家好,今天给大家来分享一篇关于图像质量的内容,这个内容是我在做onvif中的imaging setting的时候,关注到里面有关于: brightness(亮度)color saturation(色彩饱和度)contrast(对比度)sharpness(锐度)white balance(白平衡…

C语言刷题指南(二)

📙作者简介: 清水加冰,目前大二在读,正在学习C/C、Python、操作系统、数据库等。 📘相关专栏:C语言初阶、C语言进阶、C语言刷题训练营、数据结构刷题训练营、有感兴趣的可以看一看。 欢迎点赞 &#x1f44d…

kubesphere 集成 sonar

文章目录 安装 helm通过 helm 安装 sonar配置 SonarQube 服务器创建 SonarQube 管理员令牌SonarQube 配置添加到 ks-installer创建 Webhook 服务器将 SonarQube 服务器添加至 Jenkins将 sonarqubeURL 添加到 KubeSphere 控制台重启服务 为新项目创建 SonarQube Token 官方文档&…

Threejs学习04——球缓冲几何体环境光以及直线光源

实现随机多个三角形随机位置随机颜色展示效果 这是一个非常简单基础的threejs的学习应用!本节主要学习的是球面缓冲几何体在环境光合直线光源下的效果,可以学习到环境光和直线光源的生成效果等功能!主要使用的是球缓冲几何体对象SphereGeome…