新数据革命:开源图形化数据引擎Hawk5发布

Hawk是一款开源图形化的爬虫和数据清洗工具,GitHub Star超过2k+,前几代版本介绍如下:

Hawk3: 终于等到你: 图形化开源爬虫Hawk 3发布!

Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!

Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬…

Hawk从2015年开源,但Hawk5则带来了其历史上最大的更新,解决诸多bug,提供开放的任务市场,手机app嗅探和更强大的调试系统。 因此我们直接跳过Hawk4,发布Hawk5。

640?wx_fmt=png
Hawk5欢迎界面

那么Hawk5带来哪些让人兴奋的更新呢? 大招在最后!

Hawk5对界面做了进一步的完善和微调,使用更人性化:

640?wx_fmt=gif
front.gif

断点续跑和自动保存

Hawk早期版本不稳定,用户正在编辑任务或处理数据时,Hawk扑街了!

Hawk5能自动保存任务,数据表,甚至当前执行的位置!一旦关闭或崩溃,不要怕!数据一条没丢,重启后,还能从上次中断继续运行!就像断点续传一样,颤抖吧筒子们!

自动回补数据

这是另一革命性功能,由于访问网站经常会超时或不可访问,想一次性抓取且不重不漏是非常困难的。

Hawk5支持批量补数据。当发生异常时,Hawk会将异常和上下文写入数据表,之后即可智能重新执行,将数据不重不漏地回补回来。

丰富的文档,自动更新和多国语言

Hawk5中,帮助文档获得了极大的增强,除了丰富和细致的在线文档之外:

https://ferventdesert.github.io/Hawk/

640?wx_fmt=png
在线文档系统

还在各个模块下方提供图文并茂的说明,当你不知道该按钮的作用时,鼠标放在该按钮上保持3秒就有贴心提示出现!

更贴心的是,设计完任务后,一键即可生成手把手帮助文档。新手按部就班即可重现该任务!

Hawk5进一步地提供了多国语言,能方便地在中文,English或其他任何语言切换,只要在执行目录增加对应的语言文件即可。

同时,Hawk的自动更新机制,能够让迭代更加敏捷,有新版本的Hawk即可一键更新,妈妈再也不用担心Hawk出现bug了!

全局参数

早期的Hawk,多任务间协同比较复杂,子任务也不能彻底解决该问题。

Hawk5中提供了全局参数系统,可以在任何模块中,使用大括号引用你已经配置的参数,并能在多个参数组间切换。

640?wx_fmt=png
全局可配置参数

这有什么用呢?举个栗子,当二手房抓取时,每个城市们页面格式和地址都不相同, 需要手工切换多个参数。使用全局参数后,切换配置组即可一键在不同城市间切换!

调试系统和UI交互改进

早期Hawk在配置错误时,一条数据都出不来,卡住的不仅是Hawk,还有用户的心。

Hawk5提供了更加方便的调试系统,每个模块是否正常工作,会以绿色方格提醒,一目了然。当任务的某个模块出现异常时会及时提示。

超级拷贝,可以通过shift键,选择多个模块,在多个任务间拷贝。你甚至还能将Hawk自动嗅探出的网页XPath结构一键拷贝为python代码,极大地简化爬虫工程师的工作!

640?wx_fmt=png
方便的调试系统

是否已经被网站封锁?总共进行了多少次请求?全局统计系统能够方便的显示当前总的web请求数,异常数,超时数,当错误数达到阈值时,更能自动暂停所有的任务!

640?wx_fmt=png
系统设置

除此之外,新版的Hawk更是改进了UI设计,例如XPath转换器,能够通过关键字快速定位,几次点选即可获取真实XPath。

社会化协作:任务市场

以前所有的Hawk用户只能各自为政,无法共享和沟通。

在新的Hawk中,你可以浏览任务市场,直接加载远程任务和浏览数据,并方便地组合其他人的任务。像BT站一样,作者发布数据清洗工程后,所有的Hawk用户就会立即受益!

640?wx_fmt=png
任务市场主页

以前想抓取全国二手房很复杂,且不能应对网站改版。在Hawk市场只要轻轻点击加载任务即可,所见即所得,一键将数据导出到Excel。

这是Hawk本次更新的最重要的功能,它极大地改善了Hawk社会化协作,基于GitHub。由于账号系统的限制,目前还不能在软件中直接上传任务(未来会提供),如果你希望向主仓库贡献任务,可提交git的pull request。

在AI时代,通过大量用户使用Hawk的行为和任务市场的积累,我们能够通过强化学习等技术,自动让AI学出数据清洗和转换算法,让Hawk变得更加智能。

无限想象:自动抢票,翻译,图片识别…

如果你只以为Hawk就是个爬虫,那就错了,Hawk是个通用的流式计算客户端。未来Hawk市场,不仅会有共享的任务,更会引入第三方插件机制,极大地扩展Hawk流式计算的版图。

目前正在开发中的浏览器驱动插件,能够让Hawk自动控制浏览器,模拟点击,翻页等一系列操作,你要做的只是做一遍后导入到Hawk。通过配置数据清洗流,能够实现自动抢票,键盘输入等一系列功能。

Hawk5的手机远程嗅探功能,能方便的抓取手机app的数据,相关教程会在近期放出。

未来的插件能够更方便地调用百度识图,翻译转换以及各类服务存储API,让更多用户能够通过Hawk拖拽就能实现丰富的数据处理,并导出成任何格式。

我们对Hawk的理念,是开源,去中心化和社会化协作。它没有公司去运营,没有中心服务器,只依赖了免费的GitHub仓库,使用文档和教程都是机器自动生成的。但它也在各种艰难中一路走来,但我们对Hawk的愿景,是让数据流变得更加智能,让数据工作者变得更加地敏捷方便。

感谢阅读,点击原文链接,直达Hawk文档。如果Hawk给你提供了帮助,欢迎转发本文给更多的朋友,并欢迎给本项目的GitHub点个star!

640?wx_fmt=png
公众号二维码


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/317639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

11.6模拟:总结

250pts 1003010020 好的地方是没有挂分吧 T4还用假复杂度过了20 但是T2其实是可做的 关键就是对模型的转化 换个角度考虑每条边的贡献 思路就豁然开朗了 T4确实是神仙题 不太可做 qwq 加油吧OvO

[TJOI2018]智力竞赛 (匈牙利)

description 题目描述 小豆报名参加智力竞赛,他带上了 n个好朋友作为亲友团一块来参加比赛。 比赛规则如下:一共有 m道题目,每个人都有 1 次答题机会,每次答题为选择一道题目回答,在回答正确后,可以从这个…

P6944-[ICPC2018 WF]Gem Island【数学期望,dp】

正题 题目链接:https://www.luogu.com.cn/problem/P6944 题目大意 有nnn颗不同颜色的宝石,每次随机选择一颗复制,重复ddd次,求最后宝石数前rrr的颜色的宝石数之和的期望值。 1≤r≤n,d≤3001\leq r\leq n,d\leq 3001≤r≤n,d≤300 解题思路…

Educational Codeforces Round 107 (Rated for Div. 2)

Educational Codeforces Round 107 (Rated for Div. 2) 题号题目知识点AReview Site签到BGCD Length思维构造CYet Another Card Deck思维DMin Cost String构造题EColorings and Dominoes思维题,构造题FChainwordGChips on a Board A 题意: 有3种评论员…

ASP.NET Core如何在ActionFilterAttribute里做依赖注入

点击蓝字关注我在ASP.NET Core里,我们可以使用构造函数注入很方便地对Controller,ViewComponent等部件做依赖注入。但是如何给过滤器ActionFilterAttribute也用上构造函数注入呢?问题我的博客系统里有个用来删除订阅文件缓存的ActionFilter&a…

NOIP2012:疫情控制(二分、贪心、树上倍增)

解析 二分的单调性较为明显,一路推导下去的性质都不算太难想,正解的思路还是不难想到的 但从头到尾都实现很考验思维的严密性和代码能力 然后我就双重被考验挂了qwq 第一交的时候一个地方把倍增的dis数组写成pl,判断封口也有问题… 但竟然有…

[八省联考2018]劈配 (匈牙利)

description 一年一度的综艺节目《中国新代码》又开始了。Zayid 从小就梦想成为一名程序员,他觉得这是一个展示自己的舞台,于是他毫不犹豫地报名了。 轻车熟路的 Zayid 顺利地通过了海选,接下来的环节是导师盲选,这一阶段的规则…

Codeforces Round #715 (Div. 2)

Codeforces Round #715 (Div. 2) 题号题目知识点AAverage HeightBTMT DocumentCThe Sports Festival区间dpDBinary Literature构造题EAlmost SortedFComplete the MST A 题意: 如果两个相邻的数的和是偶数,则贡献为1 如何排序使得贡献值最大 题解&am…

YbtOJ-森林之和【dp】

正题 题目大意 一个节点的权值定义为它度数的平方,求所有nnn个点的有标号森林的所有节点权值和。 1≤n,T≤51031\leq n,T\leq 5\times 10^31≤n,T≤5103 解题思路 首先因为所有节点本质相同,所以我们可以只考虑一个节点所有情况下的权值和。 然后考虑…

CF1322B:Present(异或、two pointers)

解析 想到了按位&#xff0c;但卡在了进位… qwq 当时总是想一位一位往后转化&#xff0c;但是那样确实做不了 判断第k位时把每个数的前k-1位提出来 sort一下 再维护双指针&#xff0c;就可以很方便的统计进位的个数了 代码 #include<bits/stdc.h> using namespace st…

助力苏州、星火相传,广苏两地微软技术俱乐部交流纪实

2019年1月19日时值二十四节气“大寒”前夕&#xff0c;江南水乡冬日的寒气盖不住苏州.NET开发者的热情&#xff0c;就在这一天苏州微软技术俱乐部成立了并举办了第一场大型的线下交流活动。星火相传2018年12月8日广州.NET微软技术俱乐部举办了恢复以来的第一场大型线下技术交流…

[CTSC2017]吉夫特(思维+巧妙)

description 戳我看题目 solution 显然只要选出来的子序列有一个组合数为偶数&#xff0c;最后取模 222 的结果都会是零 有一个结论&#xff1a;当且仅当n&mm时&#xff0c;CnmC_n^mCnm​为奇数 所以我们要选的子序列&#xff0c;任意相邻两位中后一位的下标和前一位的…

cf1511B. GCD Length

cf1511B. GCD Length 题意&#xff1a; 定义gcd(x,y) z 现在给你a&#xff0c;b&#xff0c;c三个数字&#xff0c;含义分别是 不带前导0的x是由a个数字构成的 不带前导0的y是由b个数字构成的 不带前导0的z是由c个数字构成的 题解&#xff1a; 很明显构造题&#xff0c;但…

微软技术专家为您解读深度学习

随着阿尔法狗、无人驾驶、智能翻译的横空出世&#xff0c;“人工智能”这个已经存在60多年的词语&#xff0c;仿佛一夜之间重新成为热词。同时被科技圈和企业界广泛提及的还有“机器学习”“深度学习”“神经网络”…… 但如此喧嚣热烈的气氛之下&#xff0c;大部分人对这一领域…

CF1322C:Instant Noodles

解析 神仙题了属于是 设SiS_iSi​为右侧第i个点连向的左侧点的集合 然后把所有SiS_iSi​ 相同的点合并成一个点&#xff08;就称为新点吧&#xff09;&#xff0c;点权相加 合并后的所有点权的gcd&#xff08;设为w吧&#xff09;就是答案 为什么&#xff1f; 首先一个显然的…

cf 1511 D. Min Cost String

cf 1511 D. Min Cost String 题意&#xff1a; 我们规定一个字符串的费用为存在一个i和j(i<j),然后s[i] s[j] && s[i1] s[j1]&#xff0c;组成字符串的字符必须是前k位 现在给你字符串的长度n和k&#xff0c;怎样构造使得费用最少 题解&#xff1a; 其实第一个…

「LibreOJ NOI Round #2」不等关系 (dp+NTT分治)

description 戳我看题目哦 solution 有一道非常相似的题目 一棵树&#xff0c;每条边限制两个端点的大小关系&#xff08;限制 a[u]>a[v]a[u]>a[v]a[u]>a[v] 或 a[u]<a[v]a[u]<a[v]a[u]<a[v]&#xff09; 求有多少种符合要求的排列aaa满足整棵树的限制。n…

Loj#2460-「POI2010」桥Bridges【网络流,欧拉回路】

正题 题目链接:https://loj.ac/p/2460 题目大意 给出nnn个点mmm条边的一张无向图&#xff0c;每条边双向的权值不同&#xff0c;求一条经过的最大权值最小的欧拉回路。 2≤n≤1000,1≤m≤200002\leq n\leq 1000,1\leq m\leq 200002≤n≤1000,1≤m≤20000 解题思路 显然我们可…

PCB 机器学习(ML.NET)初体验实现PCB加投率预测

使用ML.NET建立PCB加投率模型对单一蚀刻工序进行加投率预测, 此实例为最简单预测&#xff0c;要想实现全流程加投率预测挑战难度还是挺大的&#xff0c;可以查看另一种关于大数据在PCB行业应用---加投率计算基本原理:PCB 加投率计算实现基本原理--K最近邻算法&#xff08;KNN&a…

CF1325D:Ehab the Xorcist(位运算)

解析 绿题照样不会qwq 一开始的想法是按位分类讨论 辛辛苦苦码了七十行 然后发现当一次性需要进多位的时候就炸了 qwq 关键要考虑到一点&#xff1a;异或就是不进位的加法 所以考虑u和v的差值&#xff0c;设为d 将其二进制分解&#xff0c;然后就是让其在对应的位进位即可 后…