汽车之家店铺数据抓取 DotnetSpider实战[一]

一、背景

春节也不能闲着,一直想学一下爬虫怎么玩,网上搜了一大堆,大多都是Python的,大家也比较活跃,文章也比较多,找了一圈,发现园子里面有个大神开发了一个DotNetSpider的开源库,很值得庆幸的,该库也支持.Net Core,于是乘着春节的空档研究一下整个开源项目,顺便实战一下。目前互联网汽车行业十分火热,淘车,人人车,易车,汽车之家,所以我选取了汽车之家,芒果汽车这个店铺,对数据进行抓取。

二、开发环境

VS2017+.Net Core2.x+DotNetSpider+Win10

三、开发

3.1新建.Net Core项目

新建一个.Net Core 控制台应用

3.2通过Nuget添加DotNetSpider类库

搜索DotnetSpider,添加这两个库就行了

 

 3.3分析需要抓取的网页地址

打开该网页https://store.mall.autohome.com.cn/83106681.html,红框区域就是我们要抓取的信息。

我们通过Chrome的开发工具的Network抓取到这些信息的接口,在里面可以很清楚的知道HTTP请求中所有的数据,包括Header,Post参数等等,其实我们把就是模拟一个HTTP请求,加上对HTML的一个解析就可以将数据解析出来。

参数page就是页码,我们只需要修改page的值就可以获取指定页码的数据了。

返回结果就是列表页的HTML。

 3.4创建存储实体类AutoHomeShopListEntity

class AutoHomeShopListEntity : SpiderEntity 

        {

            public string DetailUrl { get; set; }

            public string CarImg { get; set; }

            public string Price { get; set; }

            public string DelPrice { get; set; }

            public string Title { get; set; }

            public string Tip { get; set; }

            public string BuyNum { get; set; }


            public override string ToString()

            {

                return $"{Title}|{Price}|{DelPrice}|{BuyNum}";

            }

        }

3.5创建AutoHomeProcessor

用于对于获取到的HTML进行解析并且保存

private class AutoHomeProcessor : BasePageProcessor

        {

            protected override void Handle(Page page)

            {

                List<AutoHomeShopListEntity> list = new List<AutoHomeShopListEntity>();

                var modelHtmlList = page.Selectable.XPath(".//div[@class='list']/ul[@class='fn-clear']/li[@class='carbox']").Nodes();

                foreach (var modelHtml in modelHtmlList)

                {

                    AutoHomeShopListEntity entity = new AutoHomeShopListEntity();

                    entity.DetailUrl = modelHtml.XPath(".//a/@href").GetValue();

                    entity.CarImg = modelHtml.XPath(".//a/div[@class='carbox-carimg']/img/@src").GetValue();

                    var price = modelHtml.XPath(".//a/div[@class='carbox-info']").GetValue(DotnetSpider.Core.Selector.ValueOption.InnerText).Trim().Replace(" ", string.Empty).Replace("\n", string.Empty).Replace("\t", string.Empty).TrimStart('¥').Split("¥");

                    if (price.Length > 1)

                    {

                        entity.Price = price[0];

                        entity.DelPrice = price[1];

                    }

                    else

                    {

                        entity.Price = price[0];

                        entity.DelPrice = price[0];

                    }

                    entity.Title = modelHtml.XPath(".//a/div[@class='carbox-title']").GetValue();

                    entity.Tip = modelHtml.XPath(".//a/div[@class='carbox-tip']").GetValue();

                    entity.BuyNum = modelHtml.XPath(".//a/div[@class='carbox-number']/span").GetValue();

                    list.Add(entity);

                }

                page.AddResultItem("CarList", list);

            }


        }

3.6创建AutoHomePipe

用于输出抓取到的结果。

private class AutoHomePipe : BasePipeline

        {


            public override void Process(IEnumerable<ResultItems> resultItems, ISpider spider)

            {

                foreach (var resultItem in resultItems)

                {

                    Console.WriteLine((resultItem.Results["CarList"] as List<AutoHomeShopListEntity>).Count);

                    foreach (var item in (resultItem.Results["CarList"] as List<AutoHomeShopListEntity>))

                    {

                        Console.WriteLine(item);

                    }

                }

            }

        }

3.7创建Site

主要就是将HTTP的Header部信息放进去

var site = new Site

            {

                CycleRetryTimes = 1,

                SleepTime = 200,

                Headers = new Dictionary<string, string>()

                {

                    { "Accept","text/html, */*; q=0.01" },

                    { "Referer", "https://store.mall.autohome.com.cn/83106681.html"},

                    { "Cache-Control","no-cache" },

                    { "Connection","keep-alive" },

                    { "Content-Type","application/x-www-form-urlencoded; charset=UTF-8" },

                    { "User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.167 Safari/537.36"}

                    



                }


            };

3.8构造Request

因为我们所抓取到的接口必须用POST,如果是GET请求则这一部可以省略,参数就放在PostBody就行。

List<Request> resList = new List<Request>();

            for (int i = 1; i <= 33; i++)

            {

                Request res = new Request();

                res.PostBody = $"id=7&j=%7B%22createMan%22%3A%2218273159100%22%2C%22createTime%22%3A1518433690000%2C%22row%22%3A5%2C%22siteUserActivityListId%22%3A8553%2C%22siteUserPageRowModuleId%22%3A84959%2C%22topids%22%3A%22%22%2C%22wherePhase%22%3A%221%22%2C%22wherePreferential%22%3A%220%22%2C%22whereUsertype%22%3A%220%22%7D&page={i}&shopid=83106681";

                res.Url = "https://store.mall.autohome.com.cn/shop/ajaxsitemodlecontext.jtml";

                res.Method = System.Net.Http.HttpMethod.Post;


                resList.Add(res);

            }

3.9构造爬虫并且执行

var spider = Spider.Create(site, new QueueDuplicateRemovedScheduler(), new AutoHomeProcessor()).AddStartRequests(resList.ToArray()).AddPipeline(new AutoHomePipe());spider.ThreadNum = 1;spider.Run();

3.10执行结果

四、下次预告

接下来我会将对商品的详情页数据(包括车型参数配置之类的)进行抓取,接口已经抓取到了,还在思考如果更加便捷获取到商品id,因为目前来看商品id是存储在页面的js全局变量中,抓取起来比较费劲。

 

五、总结

.Net 相对于别的语言感觉并不是那么活跃,DotnetSpider虽然时间不长,但是希望园子里面大伙都用起来,让他不断的发展,让我们的.Net能够更好的发展。


原文地址: https://www.cnblogs.com/FunnyBoy/p/8453338.html


.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/322093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloud Zuul(五)之编程指导

一、Zuul Servlet Zuul被实现为Servlet。对于一般情况&#xff0c;Zuul已嵌入到Spring Dispatch机制中。这使Spring MVC可以控制路由。在这种情况下&#xff0c;Zuul缓冲请求。如果需要在不缓冲请求的情况下进行Zuul操作&#xff08;例如&#xff0c;对于大文件上传&#xff09…

Comet OJ(Contest #8)-D菜菜种菜【树状数组,指针】

前言 话说昨晚写题的时候贼NMNMNM惊险&#xff0c;最后22秒把程序交了上去竟然过了 正题 题目链接:https://cometoj.com/contest/58/problem/D?problem_id2758 题目大意 nnn个点mmm条单向边&#xff0c;然后每次询问一个区间[L,R][L,R][L,R]求若只选择这个区间的点&#xf…

微软正式开源Blazor ,将.NET带回到浏览器

微软 ASP.NET 团队近日正式开源了 Blazor &#xff0c;这是一个 Web UI 框架&#xff0c;可通过 WebAssembly 在任意浏览器中运行 .Net 。Blazor 旨在简化快速的单页面 .Net 浏览器应用的构建过程&#xff0c;它虽然使用了诸如 CSS 和 HTML 之类的 Web 技术&#xff0c;但它使…

SpringCloud Zuul(六)之PRE Filter

一、PRE Filter 前置过滤器一般用来区分请求来源、转换数据格式、debug日志、校验权限&#xff0c;增加请求装饰标识等待操作。 有一下几个重要方法&#xff1a; &#xff08;1&#xff09;filterType 确定过滤器类型 &#xff08;2&#xff09;filterOrder 过滤器执行顺序…

在.NetCore中使用Myrmec检测文件真实格式

Myrmec 是什么&#xff1f;Myrmec 是一个用于检测文件格式的库&#xff0c;Myrmec不同于其它库或者手写检测代码&#xff0c;Myrmec不依赖文件扩展名&#xff08;在实际使用中&#xff0c;你的用户很可能使用虚假的扩展名欺骗你的应用程序&#xff09;&#xff0c;Myrmec会检测…

jzoj3736-[NOI2014模拟7.11]数学题(math)【计算几何】

正题 题目大意 给定两个向量a(x1,y1),b(x2,y2)a(x_1,y_1),b(x_2,y_2)a(x1​,y1​),b(x2​,y2​)&#xff0c;然后求∣λ1aλ2b∣|\lambda _1a\lambda _2b|∣λ1​aλ2​b∣的最小值&#xff0c;要求λ1,λ2\lambda_1,\lambda _2λ1​,λ2​不同时为0。 解题思路 我们先考虑若…

SpringCloud Zuul(七)之POST Filter

一、POST Filter 后置过滤器一般使用来转换响应数据的格式&#xff0c;截取请求响应数据进行流量录制等操作。 Zuul已定义的后置过滤器SendResponseFilter&#xff0c;将代理请求的响应写入当前响应。 二、自定义后置过滤器 本文自定义后置过滤器用来截取响应体的快照文本发…

Orleans之EventSourcing

引入:如果没有意外,我再这篇文章中用ES代替EventSourcing,如果碰到"事件回溯","事件溯源","事溯"等词语,都一般代表Eventsourcing.如果引入Orleans而不用es的话,那就只用了Orleans一半的优点,多线程编程的逻辑\排错的简化以及可分布式.下面我聊聊…

jzoj3737-[NOI2014模拟7.11]挖宝藏(treasure)【斯坦纳树,SPFA,状压】

正题 题目大意 hhh层&#xff0c;每层n∗mn*mn∗m个石头&#xff0c;挖开不同位置的石头有不同的消耗&#xff0c;只能从高层下到低层。有一些宝藏&#xff0c;求拿到所有宝藏的最小代价。 解题思路 先考虑只有111层的情况&#xff0c;因为挖开的不用再挖 &#xff0c;我们可以…

SpringCloud Zuul(八)之ERROR Filter

一、ERROR Filter 错误过滤器用来处理zuul异常&#xff0c;一般使作为打印异常堆栈、跳转异常页面、转换异常信息格式返回等操作。 Zuul已定义的错误过滤器SendErrorFilter&#xff0c;如果RequestContext.getThrowable()不为null&#xff0c;则转发到/error&#xff08;默认…

Alex: 2018年对混合现实MR的展望

原文作者&#xff1a;Alex Kipman&#xff0c; 微软操作系统工程院技术院士 Hello 大家好&#xff01;难以置信我们已经走过了2018年的头两个月了。每年一月份我都会去巴西省亲&#xff0c;和我的家人欢聚一堂&#xff0c;度过一个美好的假日。在我省亲的同时&#xff0c;我想了…

jzoj3738-[NOI2014模拟7.11]理想城市(city)【树,模型转换】

正题 题目大意 一个理想城市有nnn个块构成&#xff0c;有以下性质 任意两个块之间可以通过其他块到达任意两个块之间可以不通过其他块(通过空位)到达 然后求每个块之间的距离之和。 解题思路 我们将横竖的距离分开计算。 假设现在我们考虑计算竖向的边的距离&#xff0c;我…

SpringCloud Ribbon(二)之自定义负载均衡策略IRule

一、Ribbon负载均衡策略 一个服务对应一个LoadBalancer&#xff0c;一个LoadBalancer只有一个Rule&#xff0c;LoadBalancer记录服务的注册地址&#xff0c;Rule提供从服务的注册地址中找出一个地址的规则。 Ribbon提供七种负载均衡策略&#xff0c;默认的负载均衡策略是轮训策…

欢乐纪中A组赛【2019.8.10】

前言 昨天&#xff1a; MdMdMd今天还真爆零了 顺便%%%ZZYRank1\%\%\%ZZY\ Rank1%%%ZZY Rank1 成绩 JJJ表示初中&#xff0c;HHH表示高中后面加的是几年级 RankRankRankPersonPersonPersonScoreScoreScoreAAABBBCCC111(H−1)ZZY(H-1)ZZY(H−1)ZZY1501501502020203030301001001…

Blazor正式成为Microsoft官方.NET 和WebAssembly项目

Microsoft从Blazor的开发者Steve Sanderson手中接手了这款应用程序&#xff0c;自此&#xff0c;将.NET在浏览器运行的计划又更进了一步。由此&#xff0c;Microsoft又进一步扩充了自己的WebAssembly/.NET栈&#xff0c;更进一步帮助.NET开发人员搭建基于浏览器的应用程序。在一…

SpringCloud Ribbon(一)之自定义负载均衡器ILoadBalancer

一、Ribbon负载均衡 一个服务对应一个LoadBalancer&#xff0c;一个LoadBalancer只有一个Rule&#xff0c;LoadBalancer记录服务的注册地址&#xff0c;提供更新服务的注册地址&#xff0c;Rule提供从服务的注册地址中找出一个地址的规则。 二、 自定义负载均衡 本文自定义负…

bzoj4403-序列统计【Lucas,组合数学】

正题 题目链接:https://www.lydsy.com/JudgeOnline/problem.php?id4403 题目大意 求有多少个长度为nnn的单调不升序列&#xff0c;且对于每个元素都∈[L,R]\in[L,R]∈[L,R] 解题思路 我们让mR−L1mR-L1mR−L1&#xff0c;因为序列的要求起始起始不会影响结果 然后我们开始考…

.NET Core 2.1路线图

Microsoft的Scott Hunter发布了Microsoft .NET Core 2.1版本的路线图。Hunter宣布Microsoft .NET Core每天约有五十万开发人员的使用量。根据Microsoft所收集的数据&#xff0c;在2017年9月.NET Core 2的使用量已经超过了.NET Core 1.X。有了之前成功的发布经验&#xff0c;Mic…

SpringCloud Ribbon(三)之IPing机制

一、IPing机制 IPing是一个主动探测服务节点存活的机制&#xff0c;通过判断服务节点的当前状态&#xff0c;设置节点的可用状态。只有当节点为可用时候才会作为负载均衡器的选取节点。 IPing有以下几种模式: DummyPing&#xff1a;默认返回true&#xff0c;即认为所有节点都…

.NET Core使用swagger进行API接口文档管理

一、问题背景随着技术的发展&#xff0c;现在的开发模式已经更多的转向了前后端分离的模式&#xff0c;在前后端开发的过程中&#xff0c;联系的方式也变成了API接口&#xff0c;但是目前项目中对于API的管理很多时候还是通过手工编写文档&#xff0c;每次的需求变更只要涉及到…