程序员搞副业一些会用到的工具

微信号采集(爬虫)技术的选型 那么,我们应该使用什么技术来从庞大的网页内容中自动筛选和提取微信号呢?答案就是:数据采集技术,也就是爬虫技术。

然而,数据采集技术种类繁多,我们具体应该采用哪一个呢? 针对我们的需求,我对常见的爬虫技术进行了调研、实践和对比,汇总如下:

从新人上手、采集范围、灵活应变程度、免费程度、采集速度这五个方面划分,重要系数是越重要的我会给分给的高一点。

我们需求是从网页中采集微信号,站在需求角度,老板思维,对技术的选择考虑是我们要选择简单的技术,能快速的完成我们需求,这是我们重中之重,所以新手上手的重要系数权重我给的权重很高。

我们需求也没有特别高的采集要求(只是把微信号从正文内容和评价内容中过滤出来)

免费程度要求也不高,如果付费能直接解决我需求,那更加省时省心。

采集速度要求也不高,不管多慢,在技术层面,都比人工效率最起码高个几十倍,足以满足需求。

当代技术思维,对技术的选择标准是(迷思) 一定要选择最流行的技术,只有最流行的技术才能显出自己的前瞻性! 处理能力当然越强越好! 操作当然是越简便越好!

付费是不可能的,我宁愿通宵达旦地寻找免费资源,也不愿意为高级功能支付一分钱! 执行效率,单一进程已经满足不了我追求效率的心愿,多任务处理才是我的选择! 所以一开始我就把Java和Oracle数据库排除了,Java学习曲线太陡峭,门槛太高,对新手友好度几乎为零。

虽然相对于Java而言,Oracle数据库用户友好得多,但比起MySQL、PostgreSQL这些更现代的数据库来说,Oracle数据库的操作复杂多了。

仿写的内容不符合指令,需要重新仿写。 而Web Scraper对于我们这些懂技术的人来说,配置和使用还算得上简单,但对于技术小白来说,学习起来还是有一定难度的,因此并不是特别推荐。

火车头对于老一辈的站长来说,几乎是人尽皆知,几乎每个资深站长都曾用火车头来采集数据,更新自己的网站内容。

从火车头软件那复古的配置界面风格就能看出,这款产品已经有一定的历史了。尤其是官网的视频教程,竟然还是2018年的版本,真不知道这款产品多久没更新了。

而相较于火车头,八爪鱼的软件界面配置显得更为简洁。

八爪鱼的智能采集功能使得数据采集变得异常简单,只需点击鼠标即可自动完成爬虫配置。 其内置的众多模板也许正好满足你的需求,直接套用即可解决问题,甚至无需智能识别。

因此,八爪鱼毫无疑问成为了技术选择的首选!你会发现,最合适的技术往往也是最简单的技术! 另外,虽然RPA也能进行爬虫数据采集,在采集范围、灵活应变、免费程度和采集速度方面表现不俗,但RPA的学习门槛相对较高。

RPA能够模拟人工自动化处理更多场景的任务,因此如果仅用于数据采集,似乎有点大材小用。 此外,提到八爪鱼,许多人也听说过另一款数据采集产品:后裔采集器。

我专门测试调研过后裔采集器,个人认为其智能模式比八爪鱼更加简单易用(尽管它没有模板库,这是一个不小的缺点)。

然而,这款产品内置的IE浏览器在采集知识星球时会出现报错(知识星球不支持低版本的IE浏览器,而八爪鱼内置的是Chrome浏览器,完全没有这个问题)。其他平台没有测试,暂时没有其他问题。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/24214.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Linux】—— 线程控制的基本介绍

目录 (一)POSIX线程库 (二)创建线程 2.1 线程ID及进程地址空间布局 (三)线程终止 (四)分离线程 (一)POSIX线程库 POSIX线程库(POSIX Thread…

Node.js后端构建指南:MongoDB与Express的集成

安装express 安装 Express 并将其保存到依赖列表中: $ cnpm install express --save 以上命令会将 Express 框架安装在当前目录的 node_modules 目录中, node_modules 目录下会自动创建 express 目录。以下几个重要的模块是需要与 express 框架一起安…

nss刷题(4)

1、[SWPUCTF 2021 新生赛]easyrce <?php error_reporting(0); highlight_file(__FILE__); if(isset($_GET[url])) { eval($_GET[url]); } ?> if(isset($_GET[url])) isset函数用来检测url变量是否存在&#xff1b;$_GET函数获取变量数据 eval($_GET[url]); eval函数用…

【GIS矢量切片】tippecanoe在Windows和CentOS中的安装

组件安装记录 背景介绍Windows下安装1、下载工具2、存放安装包3、进入DOS终端4、在终端执行命令5、下载程序6、放置源码7、修改配置信息8、编译9、测试10、参数说明瓦片输出瓦片描述和权属信息输入文件和图层名输入文件的并行处理输入文件的投影缩放级别瓦片分辨率CentOS 7安装…

尝试用 GPT-4o 写 2024高考语文作文

文章目录 新课标I卷科技进步与问题的演变 新课标II卷抵达未知之境&#xff1a;探索与成长的旅程 全国甲卷坦诚交流&#xff1a;构建真正相遇的桥梁 北京卷历久弥新 天津卷定义与自定义&#xff1a;在世界的缤纷中前行 上海卷认可度的思考与反思 新课标I卷 阅读下面的材料&#…

Mongodb---java篇

一、导入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-mongodb</artifactId></dependency> 二、编写配置文件连接Mongodb 我的认证数据库是admin&#xff0c;你们可能不一样 sp…

第三篇——大数据思维的科学基础

目录 一、背景介绍二、思路&方案三、过程1.思维导图2.文章中经典的句子理解3.学习之后对于投资市场的理解4.通过这篇文章结合我知道的东西我能想到什么&#xff1f; 四、总结五、升华 一、背景介绍 大数据时代&#xff0c;大数据思维的重要性不言而喻&#xff1b;而信息在…

Elasticsearch搜索优化-自定义路由规划(routing)

在es的实践学习中&#xff0c;我觉得它的文档是最好的老师&#xff0c;所以先把这部分链接贴出来&#xff0c;本文只是引导&#xff0c;文档全是细节&#xff0c;还是推荐大家事后认真看看文档 Metadata fields-routing 在es搜索中&#xff0c;请求是先分发到所有分片&#x…

6月26~28日,2024北京国际消防展即将开幕!

随着社会的快速发展&#xff0c;消防安全日益受到广大民众的高度关注。为了进一步推动消防科技的创新与发展&#xff0c;提升全民消防安全意识&#xff0c;2024年北京消防展将于6月26日在北京国家会议中心盛大开展。目前:观众预登记已全面启动&#xff0c;广大市民和业界人士可…

马尔科夫性质-举例简单说明,马尔科夫模型和隐马尔科夫模型在自然语言处理方面应用是什么

目录 马尔科夫模型应用 马尔科夫性质,举例简单说明 马尔科夫模型 马尔科夫链 马尔科夫决策过程(Markov Decision Process, MDP) 例子 隐马尔科夫模型(Hidden Markov Model, HMM) 马尔科夫模型和隐马尔科夫模型在自然语言处理方面应用是什么 马尔科夫模型在自然语言…

SQLite3(1):介绍安装与测试

目录 1、SQLite3介绍 2、SQLite3的优势和特性 3、SQLite3安装与测试 3.1 SQLite3安装 3.2 SQLite3测试 4、SQLite3简单使用 4.1 连接数据库文件 4.2 创建信息表 4.3 插入三个学生信息 4.4 确认信息 5、总结 1、SQLite3介绍 SQLite3是一种轻量级的关系型数据库管理系…

论文阅读 A Distributional Framework for Data Valuation

本论文解决的问题 量化数据价值&#xff08;机器学习模型训练中各个数据点的贡献&#xff09; 避免数据价值受到其所处数据集的影响&#xff0c;使数据点的估值更加稳定、一致 变量假设 假设 D 表示一个在全集 Z 上的数据分布。对于监督学习问题&#xff0c;我们通常认为 Z…

jvm学习笔记(一) ----- JAVA 内存

JAVA 内存 一、程序计数器二、虚拟机栈三、本地方法栈四、堆五、非JAVA内存(堆外内存)1.元空间(Metaspace)2.直接内存 链接: jvm学习笔记(二) ----- 垃圾回收 链接: jvm学习笔记(三) ----- 垃圾回收器 一、程序计数器 虚拟机需要通过『程序计数器』记录指令执行到哪了。线程要…

代码随想录算法训练营day43

题目&#xff1a;1049. 最后一块石头的重量 II 、494. 目标和、474.一和零 参考链接&#xff1a;代码随想录 1049. 最后一块石头的重量 II 思路&#xff1a;本题石头是相互粉碎&#xff0c;粉碎后剩下的重量就是两块石头之差&#xff0c;我们可以想到&#xff0c;把石头分成…

使用智谱 GLM-4-9B 和 SiliconCloud 云服务快速构建一个编码类智能体应用

本篇文章我将介绍使用智谱 AI 最新开源的 GLM-4-9B 模型和 GenAI 云服务 SiliconCloud 快速构建一个 RAG 应用&#xff0c;首先我会详细介绍下 GLM-4-9B 模型的能力情况和开源限制&#xff0c;以及 SiliconCloud 的使用介绍&#xff0c;最后构建一个编码类智能体应用作为测试。…

数据结构和算法之数组和链表

一、数组 数组是一种线性数据结构&#xff0c;它是由一组连续的内存单元组成的&#xff0c;用于存储相同类型的数据。在JavaScript中&#xff0c;数组可以包含任意类型的数据&#xff0c;不只限于基本数据类型。 1.存储方式 在内存中&#xff0c;数组的元素是连续存储的&…

【Vue】组件的存放目录问题

注意&#xff1a; .vue文件 本质无区别 组件分类 .vue文件分为2类&#xff0c;都是 .vue文件&#xff08;本质无区别&#xff09; 页面组件 &#xff08;配置路由规则时使用的组件&#xff09;复用组件&#xff08;多个组件中都使用到的组件&#xff09; 存放目录 分类开来的…

Llama模型家族之拒绝抽样(Rejection Sampling)(二)均匀分布简介

LlaMA 3 系列博客 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;一&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;二&#xff09; 基于 LlaMA 3 LangGraph 在windows本地部署大模型 &#xff08;三&#xff09; 基于 LlaMA…

ssti模板注入

一、Flask应用 1、介绍 定义 Flask&#xff1a;是一个使用Python编写的轻量级web应用框架。Flask基于Werkzeug WSGI工具包和Jinja2模板引擎。 特点 良好的文档、丰富的插件、包含开发服务器和调试器、集成支持单元测试、RESTful请求调度、支持安全cookies、基于Unicode。 …

手机短信删除怎么恢复?快速找回的3个秘密武器

手机&#xff0c;这个我们每天离不开的小玩意儿&#xff0c;有时候也会让我们头疼不已。比如&#xff0c;你一不小心&#xff0c;或者为了清理点空间&#xff0c;就把那些重要的短信给删了。这些短信可能是你和好友的深夜聊天&#xff0c;或者是重要的工作信息。一旦删除&#…