爬虫，是一种按照一定的规则，自动地抓取网站的程序或者脚本。`.NET`写爬虫非常简单，并能轻松优化性能。今天我将分享一段简短的代码，爬出博客园前200页精华内容，然后通过微小的改动，将代码升级为多线程爬虫，让爬虫速度提升数倍；最后将对爬到了内容进行一些有趣的分析。

我的演示代码通过LINQPad运行，可以在这里找到最新的LINQPad下载链接：https://www.linqpad.net/Download.aspx

这些代码同样可以运行在Visual Studio中。其中.Dump()方法可以在Visual Studio中搜索并安装NuGet包即可兼容：

Install-Package LINQPad

爬虫的三要素

经过我“多年”的爬虫骚操作的经验，我认为爬虫无非就是：

下载网站数据；
解析/保存网站数据；
分析数据与下个页面之间的关系，以便继续下载下个页面数据；

下面我将通过代码演示这三点。

下载网站数据

换作以前，有WebRequest/WebClient/RestSharp之类的选择，但如今已经都被HttpClient取代了，HttpClient同时内置于.NET Framework 4.5/netstandard 1.1及以后的版本，不用安装第三方包。

代码使用也非常简单：

var client = new HttpClient();	
string response = await client.DownloadStringAsync("https://www.cnblogs.com");

其中response就是从博客园下载的html字符串。

解析网站数据

.NET解析html有多个包可供选择，如HtmlAgilityPack、CsQuery等。但AngleSharp由于其简单好用、功能强大，已经也成为解析html的不错之选。

AngleSharp是开源项目，Github地址是：https://github.com/AngleSharp/AngleSharp。

近期还加入了.NET Foundation（.NET基金会），官网地址是：https://anglesharp.github.io 。

使用AngleSharp解析html过程（在`INQPad`，按Ctrl+Shift+P快速安装NuGet包）：

Install-Package AngleSharp	
Install-Package Newtonsoft.Json

使用代码如下：

var parser = new HtmlParser();	
IHtmlDocument dom = parser.ParseDocument(@"&lt;ul&gt;	&lt;li&gt;	&lt;a href=""cnblogs.com""&gt;博客园&lt;/a&gt;	&lt;a href=""baidu.com""&gt;百度&lt;/a&gt;	&lt;a href=""google.com""&gt;谷歌&lt;/a&gt;	&lt;/li&gt;	
&lt;ul&gt;");	
var data = dom.QuerySelectorAll("ul li a").Select(x =&gt; new	
{	Link = x.GetAttribute("href"),	Title = x.TextContent	
}).Dump();

运行效果：

Link	Title
cnblogs.com	博客园
baidu.com	百度
google.com	谷歌

然后这些数据可以通过JSON序列化，保存到桌面上：

File.WriteAllText(@"C:\Users\sdfly\Desktop\cnblogs.json", 	JsonConvert.SerializeObject(data));

注意：在解析网页数据时，可能还需要灵活运用`正则表达式`，来抓取没那么直观的信息。

页面与页面之间的关系

我们找到博客园的分页器，打开F12开发者工具，用鼠标定位到分页器：

640?wx_fmt=png

如图，注意到，每一个页面按钮，都对应了一个不同的链接地址，如第2页，对应的的链接是：/sitehome/p/2，第3页，对应的是：/sitehome/p/3。

博客园首页内容一共有200页，因此只需将在每一页拼接一个$"/sitehome/p/{页面数码}"即可。

代码与优化

根据上面的知识，可以轻松将博客园首页200页数据爬出来：

var http = new HttpClient();	
var parser = new HtmlParser();	for (var page = 1; page &lt;= 200; ++page)	
{	string pageData = await http.GetStringAsync($"https://www.cnblogs.com/sitehome/p/{page}");	IHtmlDocument doc = await parser.ParseDocumentAsync(pageData);	doc.QuerySelectorAll(".post_item").Select(tag =&gt; new	{	Title = tag.QuerySelector(".titlelnk").TextContent,	Page = page,	UserName = tag.QuerySelector(".post_item_foot .lightblue").TextContent,	PublishTime = DateTime.Parse(Regex.Match(tag.QuerySelector(".post_item_foot").ChildNodes[2].TextContent, @"(\d{4}\-\d{2}\-\d{2}\s\d{2}:\d{2})", RegexOptions.None).Value),	CommentCount = int.Parse(tag.QuerySelector(".post_item_foot .article_comment").TextContent.Trim()[3..^1]),	ViewCount = int.Parse(tag.QuerySelector(".post_item_foot .article_view").TextContent[3..^1]),	BriefContent = tag.QuerySelector(".post_item_summary").TextContent.Trim(),	}).Dump(page);	
}

运行结果如下：

640?wx_fmt=png

多线程优化

这个爬虫将200页数据全部爬完，根据我的网速，需要76秒，任务管理器显示如下（接收带宽只有1.7Mbps）：

640?wx_fmt=png

在.NET/C#中，只需对此代码的for循环修改为LINQ，然后而加以使用Parallel LINQ，即可将代码并行化：

Enumerable.Range(1, 200)  // for循环转换为LINQ	.AsParallel()         // 将LINQ并行化	.AsOrdered()          // 按顺序保存结果（注意并非按顺序执行）	.SelectMany(page =&gt;	{	return Task.Run(async() =&gt; // 非异步代码使用async/await，需要包一层Task	{	string pageData = await http.GetStringAsync($"https://www.cnblogs.com/sitehome/p/{page}".Dump());	IHtmlDocument doc = await parser.ParseDocumentAsync(pageData);	return doc.QuerySelectorAll(".post_item").Select(tag =&gt; new 	{	Title = tag.QuerySelector(".titlelnk").TextContent,	Page = page,	UserName = tag.QuerySelector(".post_item_foot .lightblue").TextContent,	PublishTime = DateTime.Parse(Regex.Match(tag.QuerySelector(".post_item_foot").ChildNodes[2].TextContent, @"(\d{4}\-\d{2}\-\d{2}\s\d{2}:\d{2})", RegexOptions.None).Value),	CommentCount = int.Parse(tag.QuerySelector(".post_item_foot .article_comment").TextContent.Trim()[3..^1]),	ViewCount = int.Parse(tag.QuerySelector(".post_item_foot .article_view").TextContent[3..^1]),	BriefContent = tag.QuerySelector(".post_item_summary").TextContent.Trim(),	});	}).GetAwaiter().GetResult(); // 等待Task执行完毕	})

通过这个非常简单的优化，在我的电脑上，即可将运行时间降低为14.915秒，速度快了5倍！同时任务管理器显示网络下载流量为（16.5Mbps）：

640?wx_fmt=png

数据简单分析

现在我们得到了博客园首页博客简要数据，我将其保存到桌面的一个json文件中（大家也可以试着保存为其它格式，如数据库中）。当然少不了分析一番。使用LINQPad，可以很轻松地分析这些数据，并生成图表。

分析基础

所有的分析，都基于以下代码：

void Main()	
{	var data = JsonConvert.DeserializeObject&lt;List&lt;CnblogsItem&gt;&gt;(	
File.ReadAllText(@"C:\Users\sdfly\Desktop\cnblogs.json"));	
}	class CnblogsItem	
{	public string TItle { get; set; }	public int Page { get; set; }	public string UserName { get; set; }	public DateTime PublishTime { get; set; }	public int CommentCount { get; set; }	public int ViewCount { get; set; }	public string BriefContent { get; set; }	
}

我创建了一个CnblogsItem的类，用来反序列号桌面上json文件的数据。返序列化完成后，这些数据保存在data变量中。

什么时间发文章浏览量最高？

Util.Chart(data	.GroupBy(x =&gt; x.PublishTime.Hour)	.Select(x =&gt; new { Hour = x.Key, ViewCount = 1.0 * x.Sum(v =&gt; v.ViewCount) })	.OrderByDescending(x =&gt; x.Hour),	x =&gt; x.Hour,	y =&gt; y.ViewCount).Dump();

结果：

640?wx_fmt=png

可见，每天上午9点发文章浏览量最高，凌晨3-4点发文章浏览量最低（谁会

在晚上3-4点爬起来看东西呢？）

星期几发的文章多？

Util.Chart(data	.GroupBy(x =&gt; x.PublishTime.DayOfWeek)	.Select(x =&gt; new { WeekDay = x.Key, ArticleCount = x.Count() })	.OrderBy(x =&gt; x.WeekDay),	x =&gt; x.WeekDay.ToString(),	y =&gt; y.ArticleCount).Dump();

结果：

640?wx_fmt=png