发现一款.NET Core开源爬虫神器:DotnetSpider

没有爬虫就没有互联网!

爬虫的意义在于采集大批量数据,然后基于此进行加工/分析,做更有意义的事情。谷歌,百度,今日头条,天眼查都离不开爬虫。

去开源中国和Github查询C#的爬虫项目,仅有几个非常简单或是几年没有更新的项目。

而单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,反而有开发上的优势(得益于世界上最强大的IDE)。爬虫性能瓶颈大多是在并发下载(网速)、IP池,那么为什么.NET没有一个强大的爬虫框架呢?

说真的我不知道,可能爬虫框架核心上比较简单,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。

所以,今天推荐一个.NET 爬虫的开源项目:DotnetSpider

开源项目地址:
https://github.com/dotnetcore/DotnetSpider

免责申明:本框架如同 Python 下著名的 Scrapy 一样只是为了帮助开发人员简化开发流程、提高开发效率,请勿使用此框架做任何违法国家法律的事情。使用者所做任何事情也与本框架的作者无关。

设计图

框架设计

参考的webmagic,所以整体架构上没有什么大的变化,设计图如下(图片是直接从webmagic上拿的)

  • Scheduler:负责URL的调度、去重,可以实现如Queue, PriorityQueueScheduler, RedisScheduler(可用于分布式)等等

  • Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等

  • PageProcesser: 负责HTML解析、目标URL的选择

  • Pipeline: 负责数据的存储, 已实现文件存储, MySql存储, MySqlFile存储(脚本),MSSQL存储,MongoDb存储, 更多存储期待您的贡献

优点

  • 可以使用Json定义爬虫

  • 可以使用实体类+Attrbiute定义爬虫

  • 自动创建数据库、数据表

  • 支持 .NET CORE,可以跨平台

  • 支持ADSL拨号换IP:如果所有爬虫统一部署, 可以实现单台机器同时运行多个任务拨号互不影响、或者一个路由下面多个电脑下多个任务拨号互不影响

  • 支持自定义代理池

  • 有管理平台

如果你也有好的开源项目,欢迎推荐!

微信号联系:westbrook12000(ps:加好友请备注“开源”)

回复 【小程序】获取15套小程序源码【学习+实战+赚钱】

回复 【关闭】学关闭微信朋友圈广告

回复 【实战】获取20套实战源码

回复 【福利】获取最新微信支付有奖励

回复 【被删】学查看你哪个好友删除了你巧

回复 【访客】学微信查看朋友圈访客记录

回复 【python】学微获取全套0基础Python知识手册

还需要Pandownload?阿里云网盘来了(附注册教程)


副业刚需,个人开发者如何通过小程序变现?已经有朋友变现月入4k了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/307703.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

leetcode746. 使用最小花费爬楼梯

一:题目 二:上码 class Solution { public:/**思路:1.分析题意给出的数组的下标代表楼梯的台阶数2.动态规划五步走1>:确定dp数组以及下标的含义dp[i]:表示到达第i层所需要花费的体力2>:确定dp数组的递推公式那么如何得到dp[i](花费的体力)呢?dp[i]由dp[i-1]或…

SS CMS 全新跨平台 V7.0 版本正式发布

今天,我们很高兴宣布基于.NET CORE平台的全新 SS CMS V7.0正式发布,新版本采用.NET CORE模块化和高性能实现,用于创建在Windows,Linux、Mac以及Docker上运行的Web应用程序和服务。SS CMS 7.0 之旅在此,我们简单回顾一下…

leetcode62. 不同路径

一:题目 二:上码 class Solution { public:/**思路:1.分析题意:2.动态规划五步走:1>:确定dp数组和其下标的含义dp[i][j]为到达二维数组下标为i,j的路径条数,i和j为下标2>:确定dp数组的递推公式那么dp[i][j]是如何求解出来的呢?只能是两个方向左边:dp[i-1][j…

推荐一本基于ASP.NET Core 3.1的实战来了

第一本基于 ASP.NET Core 3.1 的实战书来了我脱产花费了一年时间创作书籍《深入浅出 ASP.NET Core》,终于上架了。目前天猫、京东等主流平台均有销售。这本书是基于.NET Core3.1 平台,从 ASP.NET Core 的基础入门,通过项目实战结合 ASP.NET Core 源代码解…

leetcode63. 不同路径 II

一:题目 二:上码 class Solution { public:/**思路:1.分析题意:这里有障碍物,所以我们的做法会有点变化,如果这个障碍物出现在左侧或则右测的话那么我们确定的是其障碍物包括其后面的下标将均为0,如果障碍物出现在上诉区域外的话,那么就直接…

C#刷剑指Offer | 从上到下打印二叉树

【C#刷题】| 作者 / Edison Zhou这是EdisonTalk的第288篇原创内容我们来用之前学到的数据结构知识来刷《剑指Offer》的一些核心题目(精选了其中30道题目),希望对你有帮助!本文题目为:从上到下打印二叉树。1题目介绍题目…

跟我一起学.NetCore之自定义配置源-热更新-对象绑定

前言上一篇针对不同的配置源进行举例演示,感受到不同配置源和不同数据格式使用统一操作的便捷(即没有什么加一层解决不了的,这个不是我说的),这里接着说说自定义配置源、配置热更新、配置绑定对象相关操作;配置源回顾:…

leetcode343. 整数拆分(思路+详解)

一:题目 二:上码 class Solution { public:/**思路:1.分析题意:将一个数拆分为几个数相加的和 然后求取这几个数相乘的最大积,这个就很动态规划也就是我们可以得到多种结果,要在多种结果中取最优2.动态规划:1>:确定dp数组代表啥,以及下标的含义dp[i…

C++ 学习之旅(14)——构造函数constructors和析构函数destructors

首先我们看下一个简单的类&#xff1a; #include <iostream>class Entity { public:float X, Y;void Print(){std::cout << X << "," << Y << std::endl;} };int main() {Entity e;e.Print();std::cin.get(); }输出结果如下&#xf…

跟我一起学.NetCore之配置变更监听

前言通常程序中配置少不了&#xff0c;配置的修改也避免不了&#xff0c;配置的热更新为此给应用程序带来很大的便捷&#xff0c;不用重启&#xff0c;提高用户体验&#xff1b;但往往有时候需要对修改进行审计&#xff0c;也就是需要记录&#xff0c;有时候也会针对配置修改的…

解决Spring boot整合mybatis,xml资源文件放置及路径配置问题

一:问题描述 1:前言 无论你是将mapper.xml文件是和resources建造在一块&#xff0c;还是将mapper.xml文件和mapper放在一块,我们只要修改在yaml当中的mapper-locations的相对路径即可。&#xff08;前提是你在pom文件中导入了相关的resources路径&#xff09; 2:下方是将map…

C++ 学习之旅(15)——继承inheritance

所谓继承&#xff0c;就是在原有的类的基础上&#xff0c;通过继承它并添加一些新的成员&#xff0c;从而产生出一个新的类。例如我们在游戏有实体Entity和玩家Player&#xff0c;它们都有位置X&#xff0c;Y和一个移动的方法Move&#xff0c;但不同的是玩家有名字Name&#xf…

dotNET Core:编码规范

在项目开发过程中&#xff0c;由于时间紧、任务重&#xff0c;很容易导致面向功能编程。实现相同的功能&#xff0c;代码可以写的很优雅&#xff0c;也可以写的很晦涩和复杂。现在的工作&#xff0c;都需要进行团队协作&#xff0c;代码就需要有一定的规范进行指引&#xff0c;…

C++ 学习之旅(16)——虚函数与纯虚函数virtual

关于虚函数的概念讲解&#xff0c;可以看这篇文章&#xff1a; https://blog.csdn.net/siwuxie095/article/details/71159414 以下用例子进行实际说明&#xff1a; #include <iostream> using namespace std;class Shape { public:int width, height;Shape(int a 0,…

.NET 5 自身就是一个 .NET Standard

微软2014年开源.NET的动作是实现一个全新的.NET Core ,从而引入了一个新的问题&#xff1a;选择代码的编译目标变得困难&#xff0c;需要面对3个环境。因此微软为了解决这个问题&#xff0c;引入了两个主要的概念&#xff1a;目标框架别名&#xff08;Target Framework Moniker…

Springboot后台管理(CRUD)

一:前言 这个就是用springboot实现后台管理(CRUD)的小demo,相比于SSM的配置地狱&#xff0c;springboot的自动配置确实很牛&#xff0c;tomcat都内置&#xff0c;我们想要修改相关的信息只要在yaml配置文件修改就行了&#xff0c;关于Dao层&#xff0c;这个mybatis-plus,quo实…

保护 .NET Core 项目的敏感信息

我们的项目中几乎都会有配置文件&#xff0c;里面可能会存储一些敏感信息&#xff0c;比如数据库连接字符串、第三方API的AppKey和SecretKey等。对于开源项目&#xff0c;这些敏感信息肯定不能随着源代码一起提交到托管平台。对于网站应用大多都是要部署到有公开IP的服务器上的…

背包(二维数组版和一维数组版)

一:前言 这是动态规划的经典题型&#xff0c;那么我们也是 按照动态规划五步走的策略分析的 确定dp数组的含义以及下标的含义确定dp数组的递推公式确定dp数组的初始化确定dp数组的遍历顺序举例验证&#xff08;如果不是做题可省略&#xff09; 二:二维数组 1:示例 2:dp数组…

Azure App Service 健康检查正式发布

点击上方蓝字关注“汪宇杰博客”原文&#xff1a;Jason Freeberg, Suwat Bodin翻译&#xff1a;汪宇杰导语通过App Service&#xff0c;可以在流量增加时自动将应用程序自动扩展到多个实例。这样可以提高您应用的吞吐量&#xff0c;但是如果其中一个实例发生未捕获的异常怎么办…

Azure Cosmos Db 介绍及演示

Azure Cosmos DB 是 Microsoft 提供的全球分布式多模型数据库服务。Cosmos DB是一种NoSql数据库&#xff0c;但是它兼容多种API。它支持SQL, MongoDB、Cassandra或 Gremlin&#xff0c;你可以挑选自己喜欢的方式进行存储跟访问。主要优势统包式全局分发凭借 Cosmos DB&#xff…