.NET 图形化开源爬虫Hawk 3发布


超级图形化爬虫Hawk已经发布两年半时间了,2015年升级到第二版,收到上千条用户反馈(tucao),100多个红包,总共666块五毛~一直想攒着这笔钱,去北境之王天通苑的龙德商场买最心爱的阿迪王!

啥,你不知道Hawk是什么?它是智能而强大的网络数据采集工具,全图形化无需编程,一些功能强大到作者自己都不会用(这是真的),下面的文章有更多的细节:

Hawk1: 如何从互联网采集海量数据?租房,二手房,薪酬...

Hawk2: 120项优化: 超级爬虫Hawk 2.0重磅发布!

背景故事: 设计爬虫Hawk背后的故事

Hawk star已经突破1300, 开源地址如下,记得在全世界最大的同性交友网站上给沙漠君点个star~:


 Github.com/ferventdesert/Hawk

某天夜里,一位神秘人物突然加我微信,知道我是Hawk的设计者之后,二话不说就发了200块红包!在确认对方不是仙人跳之后。我赶紧给这位客户老爷千恩万谢,明天可以加鸡腿了!

这位VIP客户跟我语音聊了接近一个小时,在无数条对Hawk的赞美之后,话锋一转,说“你这Hawk用户体验好差,界面太丑了,就不能好好优化一下么?”

我说:好啊,你来提需求,我来改?我们一拍即合!这位神秘人物,就叫他升哥吧(可惜不是妹子啊)

从17年10月份开始,我们开始了你织布来我缝衣的模式(好哲♂学),升哥负责测试,用户体验,提需求;我来负责改代码。宝刀未老的沙漠君竟然还能记得四五年前写的C#代码!平时工作太太太太忙了,只能抽周六日坐在马桶上优化代码,差点搞成前列腺炎!平日我们会在地铁和公交上,通过微信讨论各种体验细节,画风是这样的:

image.png-517.5kB

这样的聊天记录少说上万条,我们脑暴更好的体验,更快的算法,抠每个交互细节,在有限的时间内尽可能打磨和优化Hawk这款产品。后来参与内测的同学越来越多,我也收到了更多的反馈。

时间过得好快,朝鲜改革开放了,杭州买房要摇号了,半年多瞬间过去了。经过无数个“死也不改版”,拥有多个重大功能更新,两百多个体验升级后,Hawk3总算千呼万唤屎出来啦!

那Hawk3带来哪些令客官老爷们吃惊的体验呢?我们重点说明Hawk3强化的功能,已有的介绍可参考之前的文章哦。


1. 更智能的网页采集器

输入网址,点击【手气不错】,Hawk就会自动将所有高价值的数据表提取出来,相比上一代,更是支持智能排序和自定义,动动鼠标,就能在多个结果间来回筛选,点击确定就完成了!


手气不错不仅能列表,还能支持详情页,在链家页面上随便输入一个信息,点手气不错,房产的详细信息就都出来了!


网页采集器不仅支持xpath,更能混合使用selector语法,搜索关键词还能实现页面自动定位跳转高亮,智能地让你想哭! 除了显示html源码,还能以浏览器模式预览!

2. 更易用的数据清洗

Hawk最引以为傲的功能是:用户可组装灵活的数据清洗任务,先洗菜再切菜,最后扔锅里爆炒,所见即所得。

Hawk3大幅度改进了用户体验,模仿播放器设计,你可以对任务的各个模块灵活修改,快进后退!处理数据就像播放岛国大片一样流畅刺激!


可以将多个数据清洗任务互相调用,实现更复杂和高级的功能,新版提供了对子任务的更友好的配置界面,让你像写Python函数一样实现子任务。Hawk调用Python实现自定义处理的功能也得到了增强,支持引入一部分第三方库,处理数据更加灵活。

Hawk同样大大强化了调试功能,能够实时监控web请求数和频次,分析任务中模块的工作和异常,快速确定问题,再也不用担心一脸懵逼找不到bug了!

3. 两百多个微创新!

一款软件,增加新功能不是重点,而是打磨核心功能,用无数个细节编织出的微创新。你会发现:

  • 以往需要手工输入的文本框现在都支持下拉菜单自动提示

  • 能更容易地暂停和取消正在运行的任务

  • 错误弹窗更加人性化,支持拼音快速检索模块

4. 超快的导出Excel/数据库

早期版本的Hawk,大数据导出Excel卡得让男人沉默,女人流泪。优化后的Excel导出速度提升了15倍,百万级数据都轻轻松松。

更何况,Hawk还支持了文件级数据库Sqlite,千万数据毫无压力。完全不需要配置,再也不用担心数据太多爆内存了!

5. 想自动化部署的客官有福了!

新的Hawk支持从Windows命令行模式执行,大概是下面的样子:

cmd> HawkScheduler project.xml task_name

在Hawk图形界面上设计工程,命令行输入工程名和任务名,即可直接执行任务,速度更快更轻量,但记得用执行器把数据导出到数据库或者文件里哦!

微软的跨平台战略太不给力,让Hawk支持Linux和Mac的成本实在太高了,所以目前依然只能在Windows上运行。由于更新较多,新的Hawk基本上不能支持以前的工程文件,好在爬虫配置一遍也不是费事,对吧^-^


哎呀太多了写不完,在使用过程中,你能慢慢发现这些细节和惊喜。

考虑到之前用户的使用习惯,大部分改进都是平滑的,但早期工程已经不兼容。界面依然很工科癌。说界面丑的妹子欢迎给我们提意见~

通过阅读文档和视频,研究教学工程,5分钟就能上手使用,半小时就能成为老司机。你肯定迫不及待地想问我在哪里下载?点击阅读原文,即可到达项目主页,那里有下载地址,文档,视频教程,以及你想要的全部资料!


由于时间极度紧张,可能视频和文档还有不完全之处,请关注“沙漠之鹰”微信公众号,Hawk的消息会在第一时间推送给你~最后,如果使用中有任何问题和建议,欢迎加入QQ群546750531,或者在GitHub上发言答疑 ~

祝使用Hawk愉快!

原文地址: https://github.com/ferventdesert/Hawk


.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/321309.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

P4027-[NOI2007]货币兑换【斜率优化dp,CDQ分治】

正题 题目链接:https://www.luogu.com.cn/problem/P4027 题目大意 nnn天开始时有SSS元钱,每天AAA种股票价格为aia_iai​,BBB种价格为bib_ibi​。然后出售必须AAA和BBB出售相同比例,买入时AAA和BBB必须按照rir_iri​的比例买入。 求最后的钱最多是多少 …

【栈】【字符】匹配(jzoj 1612)

匹配 题目大意: 给你一个长度为n的字符串(有多组数据),中间有小写字母(没用的东西)和大写字母,A-M是左括号,与之相对的是右括号Z-N(之所以说是Z-N而不是N-Z是因为只有Z…

codeforces 940E Cashback 有趣的dp

题解 这么明显的一个dp,我怎么就没看出来呢?! 首先我们需要一些前提条件:任何划分出来的一个区间的长度不应该超过c。 如果这个区间长度大于c,那么设lenn∗cklenn∗ck,那么这个区间应该被分成n个长度为c的…

理解 C# 项目 csproj 文件格式的本质和编译流程

写了这么多个 C# 项目,是否对项目文件 csproj 有一些了解呢?Visual Studio 是怎么让 csproj 中的内容正确显示出来的呢?更深入的,我能够自己扩展 csproj 的功能吗?本文将直接从 csproj 文件格式的本质来看以上这些问题…

P2000-拯救世界【生成函数,NTT】

正题 题目链接:https://www.luogu.com.cn/problem/P2000 题目大意 十种东西,有要求 金神石A的块数必须是 6 的倍数。 木神石A最多用 9 块。 水神石A最多用 5 块。 火神石A的块数必须是 4 的倍数。 土神石A最多用 7 块。 金神石B的块数必须是 2 的倍数。 木神石B最…

【模拟】生日蛋糕(jzoj 1613)

生日蛋糕 题目大意: 一个正方形蛋糕,竖着横着各切一刀,使他变成四块正方形蛋糕,蛋糕中有一些巧克力,而小明只能拿巧克力最少的一块,请问小明要怎么切才能吃到最多的巧克力 样例输入 8 …#…#… .##……

使用.NET Core与Google Optimization Tools实现加工车间任务规划

前一篇文章《使用.NET Core与Google Optimization Tools实现员工排班计划Scheduling》算是一种针对内容的规划,而针对时间顺序任务规划,加工车间的工活儿是一个典型的场景。在加工车间有不同的工活儿,一般称为作业,每种作业都有多…

P6047-丝之割【斜率优化,dp】

前言 然而丝之鸽还是没有出 正题 题目链接:https://www.luogu.com.cn/problem/P6047 题目大意 两个平行的线,上面连接着若干条弦,第iii条连接上方的xix_ixi​个下方的yiy_iyi​。 然后每次可以选择一个位置(i,j)(i,j)(i,j),可以切断任何位…

洛谷P1373 小a和uim之大逃离 动态规划

题解 我们可以先简单的想一种状态,也就是dp[i][j][x][y][t]dp[i][j][x][y][t]dp[i][j][x][y][t],这是最暴力的。 当t0t 0t0时,表示小a处于(i,j)(i,j)(i,j)位置,其中小a拥有x魔液,uim拥有y的魔液时候的方案总数。t1t …

【模拟】游戏(jzoj 1614)

游戏 题目大意: 有一个n*n的棋盘,有一个坐标在x,y的棋子, 1、2号玩家可以将他向左,向下,向左下(45∘45^{\circ}45∘)移动若干格,假如他们都是AKIOI聪明绝顶的巨佬,请问…

VSTS + XX云服务器构建netcore+docker持续集成交付部署

持续集成交付部署是什么意思,它给我们带来什么好处?先贴一张图持续集成(Continuous Integration)持续集成强调开发人员提交了新代码之后,立刻进行构建、(单元)测试(这个要看情况了是否需要)持续交付&#x…

codeforces E. Game with String 概率

题意 这道题目的叙述不好理解: 给你一个字符串ss,小a和小b都知道。现在小b要把字符串的左边一段移动到最右边,生成一个新的字符串s′" role="presentation" style="position: relative;">s′s′,小a只知道s′…

P4593-[TJOI2018]教科书般的亵渎【拉格朗日差值】

正题 题目链接:https://www.luogu.com.cn/problem/P4593 题目大意 场上有若干只怪,最高的为nnn,每个怪血量不同,有mmm个血量不存在。 不停释放亵渎(全场打一,如果有怪死亡就再次生效),每次一…

【链表】【树形DP】最大利润(jzoj 1487)

最大利润 题目大意: 有n个车站,每个车站有一定的人数,有n-1条线路连接着这些车站,相邻的车站不能同时有两个餐厅,当在一个车站建立餐厅时,会得到这个车站所有人的monny(1个人可以得到1份利润&…

P2617-Dynamic Rankings【树套树】

正题 题目链接:https://www.luogu.com.cn/problem/P2617 题目大意 给出一个序列,要求支持 区间查询第kkk大单点修改 解题思路 区间查询第kkk大需要使用主席树,构建权值线段树的前缀和。考虑如何进行单点修改,在前缀和上进行单点修改就是进…

如何创建一个基于 MSBuild Task 的跨平台的 NuGet 工具包

MSBuild 的 Task 为我们扩展项目的编译过程提供了强大的扩展性,它使得我们可以用 C# 语言编写扩展;利用这种扩展性,我们可以为我们的项目定制一部分的编译细节。NuGet 为我们提供了一种自动导入 .props 和 .targets 的方法,同时还…

codeforces F.F. Teodor is not a liar! 最长不降子序列

题意 给出一堆线段。 询问者每次可以询问一个整数点,回答者告诉询问者这个点被多少根线段包括。 问询问者最多问多少次,还不能确定任意一个整数点都不可能被所有的线段包含。 题解 首先用O(n)的方法计算出来每个点被多少条线段包含。 突破点&#x…

2019.01.23【NOIP普及组】模拟赛C组总结

总结 这次的分数是1001000100300 第一题第一题一开始把题看错了,乱打一通,结果才发现自己打错了,把题看清后,就知道用栈,快速解决。第二题和之前做过的一道题十分相似,就是用前缀和来将求一个范围内的巧克…

P2149-[SDOI2009]Elaxia的路线【最短路】

正题 题目链接:https://www.luogu.com.cn/problem/P2149 题目大意 nnn个点mmm条边的一张无向图,给定两个起点和对应的终点。求两个最短路的最长公共距离 解题思路 首先要求是最短路,我们可以先跑一次第一个起点的SPFASPFASPFA,然后从终点开…

Platform.Uno介绍

编者语:Xamarin国内很多人说缺乏可用的实例,我在写书过程中在完善一些常用场景的例子,希望帮到大家。Build 2018结束一周了,善友问我要不要谈谈Xamarin的一些变化,但碍于时间有限一直没有付诸行动。想想总得写点什么给…