基于C#.NET的高端智能化网络爬虫

前两天朋友发给我了一篇文章,是携程网反爬虫组的技术经理写的,大概讲的是如何用他的超高智商通过(挑衅、怜悯、嘲讽、猥琐)的方式来完美碾压爬虫开发者。今天我就先带大家开发一个最简单低端的爬虫,突破携程网超高智商的反爬虫技术。

一、什么是爬虫?

很多人说我们这些搞软件的人,总喜欢把虚拟世界里的事物跟现实中的东西扯上关系。这点我真不否认,脱离了现实,我们伟大的创举还有何意义?

“爬虫”就是个例子,它对于我们开发人员而言,就是一段用来自动化采集网站数据的程序,结果跟现实中的虫子扯上了关系。听说是Google工程师提出来的,有质疑请联系Larry Page。

二、为什么需要开发爬虫?

在这个数据横流的互联网时代,创业型公司如雨后春笋般的崛起,而大数据则可以帮他们迅速生产垂直化数据资料库,提供给用户使用。同时也让老板们更容易看清未来的方向,制定发展策略。

这些大数据从哪儿能弄来呢?当然是从每个行业里的龙头老大那里,做老大就是这么不容易。这图里一部分是行业老大,有些我也没听说过,仅供参考:

京东的价格、携程的评论、亚马逊的书、淘宝的信用、支付宝的订单等。这些数据采集下来都很庞大,那究竟要这些数据有什么用呢?

  • 直接用于机器学习,分析用户的兴趣爱好和行为。

  • 获取淘宝店铺信用,直接用于新平台的用户信用及身份验证。

  • 获取各个商城物品价格,为用户提供市场场最低价。

  • 获取酒店、图书的(价格、简介、评论),做垂直化平台的基础数据库。

请原谅我用携程举例:设想我们要做一个高端的垂直化酒店平台,就拿北京来说,酒店接近10000家。要是全部都手动筛选、录入这些信息,需要花费的人力、时间是极其恐怖的事。当然最难的应该是将人工搜集的数据标准化。怎样才能把携程网的酒店数据弄下来作为我们的基础资料库呢?

如果利用爬虫技术,事情就有了很好解决方案。我们只需要编写一个7*24小时运行的分布式爬虫,自动化采集携程网酒店数据,将国内外所有高端酒店(图片、简介、评分、用户评论)全部抓取下来。再通过数据清洗,使内容标准化,让这些数据成为我们的基础资料库就行了。看到这里内心是不是已经有点小激动?

三、开发爬虫需要哪些技术?

由此可见,爬虫技术已经成为我们每个开发人员最基本的技能,同时也是步入中高级开发不得不涉足的内容。为什么这么说呢?因为开发一个像样的爬虫,需要你了解的东西还真不少:

  • 学习任意一门开发语言:C#、NodeJs、Python、Java、C++。

  • 学习网页前端脚本语言:Javascript、HTML、CSS。

  • 学习HTTP协议、正则表达式、数据库、代理切换等相关知识。

  • 学习多线程并发抓取、任务调度、消息队列、分布式爬虫、图像识别、模拟键鼠、NoSql。

我仿佛看到了你一脸懵懂的表情!你真的没有看错,这些技术只是冰山一角。不过也不用担心,初中级的爬虫只需要学会前三点就可以了。要想开发出更高级的爬虫,第四点是必须会的,同时为了追求极致的性能,还需要研究开源浏览器内核的相关项目,此处暂省略十万字。

四、开发一个最简单的爬虫

下面我用C#.NET来写一个非常简单的爬虫,我们的爬虫之所以被封杀,肯定是因为对方找到了运行特征。因此只需要修改爬虫的运行方式及特征,让其操作与普通用户的相似就可以了。一般爬虫会有哪些特征和运行方式呢?

  • User-Agent:主要用来将我们的爬虫伪装成浏览器。

  • Cookie:主要用来保存爬虫的登录状态。

  • 连接数:主要用来限制单台机器与服务端的连接数量。

  • 代理IP:主要用来伪装请求地址,提高单机并发数量。

通常来说,只要我们控制好了上面这4个东西,反爬虫组那边就较难找到我们的运行特征。还是拿携程网来举个例子,抓取他们的酒店数据,因为这些酒店信息本身属于公开的内容,我们也不用于商业运作的目的,只是为了想见识一下他们反爬虫经理所描述的猥琐程度。

爬虫工作的方式可以归纳为两种:深度优先、广度优先。

深度优先就是一个连接一个连接的向内爬,处理完成后再换一下一个连接,这种方式对于我们来说缺点很明显。广度优先就是一层一层的处理,非常适合利用多线程并发技术来高效处理,因此我们也用广度优先的抓取方式。

首先我们用Visual Studio 2015创建一个控制台程序,定义一个简单的SimpleCrawler类,里面只包含几个简单的事件:

接着我们创建一个OnStart的事件对象:

然后我们创建一个OnCompleted事件对象:

最后我们再给它增加一个异步方法,通过User-Agent将爬虫伪装成了Chrome浏览器,代码中每行我基本都加了注释,学过.NET的朋友一看就明白,这里就不再重复解释了:

就如你所见,一个支持并发执行、可伪装成Chrome浏览器、支持Cookie状态保存、支持代理切换的简单爬虫就完成了。

为了加快爬虫的速度,我又增加了Gzip解压缩的功能,由于不太便于截图,大家可以在源代码里查看。现在我们用这个爬虫抓取一下携程网的酒店数据,看看效果如何。

携程的酒店是按城市归类的,从每个城市又链接到了下属所有酒店,国内的城市大约有300多个,仅北京一个市的酒店数据就有9000多个,所以我要先抓下边这页面里的城市名称及城市URL地址。


在控制台里写下爬虫的抓取代码:


代码都很简单,眼睛犀利的朋友肯定看到了我在cityCrawler.Start()方法中使用了代理服务器,那个参数是可选的。经测试代理IP的速度还不错,唯一不足的地方可能就是偶尔会出现连接超时,并发量少时并不需要开代理,这里只是为了测试的需要。来看看执行情况:

由上图可见,我们抓到了城市列表页面的源代码,但这并不是我们需要的数据,我们只想要规规矩矩的城市名称和URL地址。

怎么办呢?现在请出《正则表达式》—又简洁又高效的神器,就是学起来比较费劲。我写了个提取城市名称及URL的正则表达式,直接提取源代码中所有符合规则的数据:

<a[^>]+href=""*(?<href>/hotel/[^>\s]+)""\s*[^>]*>(?<text>(?!.*img).*?)</a>

在控制台程序中增加正则表达式过滤数据:

再次运行爬虫看看是否是我们需要的内容:

运行状态良好,成功拿到了城市名称及城市URL地址,每个城市的URL中都包含了该城市的所有酒店,现在我们就根据城市URL抓取下属的酒店列表,就拿最后一个城市来试试吧,我就不贴代码了,同样是先抓取源代码,再使用正则表达式清洗数据:

"><a[^>]+href="*(?<href>/hotel/[^>\s]+)"\s*data-dopost[^>]*><span[^>]+>.*?</span>(?<text>.*?)</a>

请原谅我写出这无比糟糕的正则表达式,看看它的运行结果:

这里我发现一个有趣的地方,携程网酒店列表页中的连接,在点击后会发生变化,会自动拼接上一个当天的日期,应该是用javascript写的事件。我测试了下这些URL都能正确的连接到酒店介绍页,如果这算是他们的反爬虫手段,大家也可以在下一篇高级爬虫知识里找到解决方案。

下面写个多爬虫并发抓取的例子,代码也非常简单,随便写两个酒店URL地址,通过Parallel实现2个爬虫的并发抓取。

注意:单个IP并发数量不要设置太多,短时间内发送大量的爬虫请求,很容易被反爬虫组轻易的识别出来,因为普通用户不可能在一秒内有那么多的请求和连接。

我们想要提高并发数量怎么办呢?当然是使用代理IP和VPN,假设反爬虫组限制单台IP连接数不能超过50,那我们增加一个代理IP就相当于可以多并发50个爬虫出去,在带宽足够的情况下,10个有效的代理IP就可以让爬虫的性能提到一个新的高度,有没有感觉到大数据已经在向你招手?

有人说代理也可以被检测出来,那是因为你还不太了解代理,代理服务器有很多种,而且真有不能被检测出来的代理,比如自己搭建的 shadowsocks ,这块内容较多,将在下一篇高级爬虫的文章详细讲解,它的运行方式如下:

现在大家就可以利用这个简单的爬虫自由发挥了,试试从酒店列表里抓取每个酒店的(评分、名称、图片),不要太难为自己,毕竟这只是一个最简单的爬虫,抓取都是同样的原理,我就不再多说。

明天发下一篇(绝对干货):基于C#.NET的高端智能化网络爬虫(二),主要讲:如何开发浏览器内核的高级爬虫、如何执行Javascript、如何操作Dom结构、如何搞定加密代理、如何实现分布式等功能。

然后我们通过这个高级爬虫,实现对携程网Ajax评论数据的抓取,这次我们就抓取他们的酒店评论。希望大家订阅“全栈解密”,千万不要错过哦!

全部源代码下载:https://github.com/coldicelion/Simple-Web-Crawler

原文地址:http://www.toutiao.com/a6304503113106555138/


.NET社区新闻,深度好文,微信中搜索dotNET跨平台或扫描二维码关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/326014.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2019蓝桥杯省赛---java---B---7(外卖店优先级)

题目描述 时间限制: 1.0s 内存限制: 512.0MB 本题总分&#xff1a;20 分 【问题描述】 “饱了么”外卖系统中维护着 N 家外卖店&#xff0c;编号 1 ∼ N。每家外卖店都有 一个优先级&#xff0c;初始时 (0 时刻) 优先级都为 0。 每经过 1 个时间单位&#xff0c;如果外卖店没有…

left join 和 left outer join 的区别

通俗的讲&#xff1a; A left join B 的连接的记录数与A表的记录数同 A right join B 的连接的记录数与B表的记录数同 A left join B 等价B right join A table A: Field_K, Field_A 1 a 3 b 4 c table B: Field_K, Field_B 1 x 2 y 4 z select a.Field_K, a.…

服务器母鸡系统,母鸡云服务器

母鸡云服务器 内容精选换一换云耀云服务器创建成功后&#xff0c;您可以根据需求&#xff0c;修改云服务器的名称。系统支持批量修改多台云耀云服务器的名称&#xff0c;修改完成后&#xff0c;这些云耀云服务器的名称相同。登录控制台。单击管理控制台左上角的&#xff0c;选择…

在ASP.NET Core中使用Apworks开发数据服务:对HAL的支持

HAL&#xff0c;全称为Hypertext Application Language&#xff0c;它是一种简单的数据格式&#xff0c;它能以一种简单、统一的形式&#xff0c;在API中引入超链接特性&#xff0c;使得API的可发现性&#xff08;discoverable&#xff09;更强&#xff0c;并具有自描述的特点。…

.net三层架构开发步骤

City城市表&#xff0c;id ,name,password,address,phone; 1.新建一个windows窗体应用程序&#xff0c;CitySys 2.文件–》添加–》新建项目–》类库&#xff08;CitySysModel&#xff09;–》重命名class1.cs的类&#xff08;CityModel&#xff09;。 3.根据数据表里面的字段&…

JAVA多线程和并发面试问题

转载自 JAVA多线程和并发面试问题 Java多线程面试问题 1.进程和线程之间有什么不同&#xff1f; 一个进程是一个独立(self contained)的运行环境&#xff0c;它可以被看作一个程序或者一个应用。而线程是在进程中执行的一个任务。Java运行环境是一个包含了不同的类和程序的…

C#各个版本中的新增特性详解

序言 自从2000年初期发布以来&#xff0c;c#编程语言不断的得到改进&#xff0c;使我们能够更加清晰的编写代码&#xff0c;也更加容易维护我们的代码&#xff0c;增强的功能已经从1.0搞到啦7.0甚至7.1&#xff0c;每一次改过都伴随着.NET Framework库的相应支持&#xff0c;也…

微内核操作系统能做服务器系统吗,科普:微内核操作系统现状

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼微内核结构是1980年代产生出来的较新的内核结构&#xff0c;强调结构性部件与功能性部件的分离。20世纪末&#xff0c;基于微内核结构&#xff0c;理论界中又发展出了超微内核与外内核等多种结构。尽管自1980年代起&#xff0c;大部…

2019蓝桥杯省赛---java---A---8(修改数组)

题目描述 思路分析 不是每次1了&#xff0c;而是直接加相同数字出现过的次数&#xff0c;比如有3个1&#xff0c;第二个1就是1&#xff0c;第三个直接2&#xff0c;而不是两次1&#xff0c;而且每次都记录每次的新值出现的次数&#xff0c;这样循环到新数未出现过为止 代码实…

HTML、sqlserver数据库和java前七章节的复习(一)

1.HTML的基本结构 <!doctype> <html><head><title></title></head><body></body> </html>2.有序列表 <ol><li></li></ol>3.无序列表 <ul><li></li></ul>4.写一个边…

Java异常面试问题

转载自 Java异常面试问题 1.什么是Java中的异常&#xff1f; 异常是在程序执行期间可能发生的错误事件&#xff0c;并且会中断它的正常流程。异常可能来自不同类型的情况&#xff0c;例如用户输入的错误数据&#xff0c;硬件故障&#xff0c;网络连接故障等。 每当执行jav…

复习总结01110

.1.//从控制台输入3个数&#xff0c;然后按从小到输出public static void test_num(){Scanner sc new Scanner(System.in);System.out.println("请输入第一个数&#xff1a;");int num1 sc.nextInt();System.out.println("请输入第二个数&#xff1a;");…

ASP.NET Core 网站在Docker中运行

Docker作为新一代的虚拟化方式&#xff0c;未来肯定会得到广泛的应用&#xff0c;传统虚拟机的部署方式要保证开发环境、测试环境、UAT环境、生产环境的依赖一致性&#xff0c;需要大量的运维人力&#xff0c;使用Docker我们可以实现一次部署&#xff0c;到处运行。 本文介绍如…

键值存储之外,Redis还有这些用法

转载自 键值存储之外&#xff0c;Redis还有这些用法 Redis是一个强大的内存数据结构存储&#xff0c;包含数据库&#xff0c;缓存和消息代理等多种用途。大多数人经常认为它不过是一个简单的键值存储&#xff0c;但其实它有更多的能力。下面给出一些实例 1.全页面缓存 首先…

2018蓝桥杯省赛---java---C---3(字母阵列)

题目描述 测试数据 FOAIQNALWIKEGNICJWAOSXDHTHZPOLGYELORAUHOHCZIERPTOOJUITQJCFNIYYQHSBEABBQZPNGYQTCLSKZFCYWDGOAIADKLSNGJ GSOZTQKCCSDWGUWAUOZKNILGVNLMCLXQVBJENIHIVLRPVVXXFTHQUXUAVZZOFFJHYLMGTLANQIAOQQILCDCJERJASNCTLYGRMHGF TSDFYTLVIBHKLJVVJUDMKGJZGNNSTPVLCKT…

复习总结0111

1.从控制台中输入三个数&#xff0c;然后从小到大输出 public static void mian(String []args){Scanner sc new Scanner(System.in);System.out.println("请输入第一个数&#xff1a;");int a sc.nextInt();System.out.println("请输入第二个数&#xff1a;&…

sql基本命令整理

1、 查看数据库中的表或查询数据库&#xff1b; show tables/databases&#xff1b; 2、 查看数据库中所有的表 show tables&#xff1b;&#xff08;前提是使用use database 数据库&#xff1b;&#xff09; 3、 查看数据表结构 describe 表名&#xff1b; 4、 创建数据…

微软确认5月2日召开新品发布会 8天后就是Build 2017大会

援引外媒 ZDNet 报道&#xff0c;微软计划在 5 月上旬召开新品发布会&#xff0c;重点围绕着 Windows 10 Cloud&#xff0c;并且有望公布关于 Surface Pro 5 的相关信息。今天这条消息已经得到了证实&#xff0c;微软官方宣布将于 5 月 2 日将会在纽约召开发布会&#xff0c;也…

面试进阶之字符串常量池

转载自 面试进阶之字符串常量池 作为最基础的引用数据类型&#xff0c;Java 设计者为 String 提供了字符串常量池以提高其性能&#xff0c;那么字符串常量池的具体原理是什么&#xff0c;我们带着以下三个问题&#xff0c;去理解字符串常量池&#xff1a; 字符串常量池的设计…

java实现人脸识别V3版本开发

有段时间没有写更新公众号了&#xff0c;也许好多人都忘记了自己还关注了这么个公众号。因为这段时间确实是有其他的事比较忙&#xff0c;还有一个原因就是自己在技术方面没有学习新的东西&#xff0c;所以没有可更新的&#xff08;包括博客&#xff09;今天&#xff0c;我决定…