网络数据采集(AngleSharp)-使用AngleSharp做html解析

有这么一本Python的书: <<Python 网络数据采集>>

640?wx_fmt=png

我准备用.NET Core及第三方库实现里面所有的例子. 

这是第一部分, 主要使用的是AngleSharp: https://anglesharp.github.io/

(文章的章节书与该书是对应的)

640?wx_fmt=png

发送Http请求

 在python里面这样发送http请求, 它使用的是python的标准库urllib:

640?wx_fmt=png

在.NET Core里面, 你可以使用HttpClient, 相应的C#代码如下:

            var client = new HttpClient();
HttpResponseMessage response = await client.GetAsync("http://pythonscraping.com/pages/page1.html");
response.EnsureSuccessStatusCode();
var responseBody = await response.Content.ReadAsStringAsync();
Console.WriteLine(responseBody);
return responseBody;

或者可以简写为:

                var client = new HttpClient();
var responseBody = await client.GetStringAsync("http://pythonscraping.com/pages/page1.html");
Console.WriteLine(responseBody);

其结果如下:

640?wx_fmt=png

使用AngleSharp解析html源码

python里面可以使用BeautifulSoup或者MechanicalSoup等库对html源码进行解析.

而.NET Core可以使用AngleSharp, Html Agility Pack, DotnetSpider(国产, 也支持元素抽取).等库来操作Html文档.

这里我先使用的是AngleSharp, AngleSharp的解析库可以使用标准的W3C规范来解析HTML, MathML, XML, SVG和CSS. 它支持.NET Standard 1.0.

安装AngleSharp

通过Nuget即可: https://www.nuget.org/packages/AngleSharp/

Install-Package AngleSharp

或者dotnet-cli:

dotnet add package AngleSharp

AngleSharp的一个简单例子

下面这个例子(1.2.2)是把页面中h1元素的内容显示出来.

书中Python的代码:

640?wx_fmt=png

下面是.NET Core的C#代码:

 public static async Task ReadWithAngleSharpAsync()
{
var htmlSourceCode = await SendRequestWithHttpClientAsync();
var parser = new HtmlParser();
var document = await parser.ParseAsync(htmlSourceCode);

Console.WriteLine($"Serializing the (original) document: {document.QuerySelector("h1").OuterHtml}");
Console.WriteLine($"Serializing the (original) document: {document.QuerySelector("html > body > h1").OuterHtml}");
}

在这里AngleSharp首先需要创建一个可以循环使用的HtmlParser(Html解析器), 然后使用解析器解析html源码即可: parser.Parse() 或者异步版本 parser.ParseAsync().

解析返回对象的类型是IHtmlDocument, 里面是解析好的DOM. 其中DOM是和AngleSharp里的类这样对应的:

640?wx_fmt=png

这个图其实是老一点的版本, 新版本的DOM模型是稍微有点不同的, 不过你只要理解这个意思就行...

AngleSharp有很多特点, 但是最重要的特点就是它支持querySelector()querySelectorAll()方法, 就像DOM的方法一样.

上面这个例子里, 其html的结构大致如下:

640?wx_fmt=png

所以针对返回的IHtmlDocument对象document, 我们使用document.QuerySelector("h1").OuterHtml, 就可以返回h1的OuterHtml. 而使用document.QuerySelector("html > body > h1").OuterHtml 也是同样的效果, 因为标准的CSS选择器是都支持的.

QuerySelector()返回的是一个/0个元素, 相当于Linq的FirstOrDefault().

其运行结果如下:

640?wx_fmt=png

异常情况处理

发送Http请求之后, 可能会发生错误, 例如网页不存在(或者请求时出错), 服务器不存在等等.

针对这些情况, .NET Core程序会返回HTTP错误, 可能是404也可能是500等. 但是所有的类型HttpClient都会抛出HttpRequestException, 我们可以这样处理这种异常:

public static async Task ResponseWithErrorsAsync()
{
try
{
var client = new HttpClient();
var responseBody = await client.GetStringAsync("http://notexistwebsite");
Console.WriteLine(responseBody);
}
catch (HttpRequestException e)
{
Console.ForegroundColor = ConsoleColor.Red;
Console.WriteLine("\nException Caught!");
Console.WriteLine("Message :{0} ", e.Message);
}
}

640?wx_fmt=png

但是即使网页获取成功了, 网页上的内容也并非完全是我们所期待的, 仍可能会抛出异常. 比如说你想要找的标签不存在, 那么就会返回null, 然后再调用改标签的属性, 就会发生NullReferenceException.

所以这种情况可以捕获NullReferenceException, 也可以使用代码判断:

        public static async Task ReadNonExistTagAsync()
{
var htmlSourceCode = await SendRequestWithHttpClientAsync();
var parser = new HtmlParser();
var document = await parser.ParseAsync(htmlSourceCode);

var nonExistTag = document.QuerySelector("h8");
Console.WriteLine(nonExistTag);
Console.WriteLine($"nonExistTag is null: {nonExistTag is null}");

try
{
Console.WriteLine(nonExistTag.QuerySelector("p").OuterHtml);
}
catch (NullReferenceException)
{
Console.ForegroundColor = ConsoleColor.Red;
Console.WriteLine("Tag was not found");
}
}

640?wx_fmt=png

完整的例子:

        public static async Task RunAllAsync()
{
Console.ForegroundColor = ConsoleColor.Red;
async Task<string> GetTileAsync(string uri)
{
var httpClient = new HttpClient();
try
{
var responseHtml = await httpClient.GetStringAsync(uri);
var parser = new HtmlParser();
var document = await parser.ParseAsync(responseHtml);
var tagContent = document.QuerySelector("body > h8").TextContent;
return tagContent;
}
catch (HttpRequestException e)
{
Console.WriteLine($"{nameof(HttpRequestException)}:");
Console.WriteLine("Message :{0} ", e.Message);
return null;
}
catch (NullReferenceException)
{
Console.WriteLine($"{nameof(NullReferenceException)}:");
Console.WriteLine("Tag was not found");
return null;
}
}

var title = await GetTileAsync("http://www.pythonscraping.com/pages/page1.html");
if (string.IsNullOrWhiteSpace(title))
{
Console.WriteLine("Title was not found");
}
else
{
Console.ForegroundColor = ConsoleColor.Green;
Console.WriteLine(title);
}
}

640?wx_fmt=png

首先我把请求Http返回HTML代码的那部分封装成了一个方法以便复用:

        public static async Task<string> GetHtmlSourceCodeAsync(string uri)
{
var httpClient = new HttpClient();
try
{
var htmlSource = await httpClient.GetStringAsync(uri);
return htmlSource;
}
catch (HttpRequestException e)
{
Console.ForegroundColor = ConsoleColor.Red;
Console.WriteLine($"{nameof(HttpRequestException)}: {e.Message}");
return null;
}
}

CSS是网络爬虫的福音, 下面这两个元素在页面中可能会出现很多次:

640?wx_fmt=png

640?wx_fmt=png

我们可以使用AngleSharp里面的QuerySelectorAll()方法把所有符合条件的元素都找出来, 返回到一个结果集合里.

        public static async Task FindGreenClassAsync()
{
const string url = "http://www.pythonscraping.com/pages/warandpeace.html";
var html = await GetHtmlSourceCodeAsync(url);
if (!string.IsNullOrWhiteSpace(html))
{
var parser = new HtmlParser();
var document = await parser.ParseAsync(html);
var nameList = document.QuerySelectorAll("span > .green");

Console.WriteLine("Green names are:");
Console.ForegroundColor = ConsoleColor.Green;
foreach (var item in nameList)
{
Console.WriteLine(item.TextContent);
}
}
else
{
Console.WriteLine("No html source code returned.");
}
}

640?wx_fmt=png

非常简单, 和DOM的标准操作是一样的.

如果只需要元素的文字部分, 那么就是用其TextContent属性即可.

再看个例子

1. 找出页面中所有的h1, h2, h3, h4, h5, h6元素

2. 找出class为green或red的span元素.

        public static async Task FindByAttributeAsync()
{
const string url = "http://www.pythonscraping.com/pages/warandpeace.html";
var html = await GetHtmlSourceCodeAsync(url);
if (!string.IsNullOrWhiteSpace(html))
{
var parser = new HtmlParser();
var document = await parser.ParseAsync(html);

var headers = document.QuerySelectorAll("*")
.Where(x => new[] { "h1", "h2", "h3", "h4", "h5", "h6" }.Contains(x.TagName.ToLower()));
Console.WriteLine("Headers are:");
PrintItemsText(headers);

var greenAndRed = document.All
.Where(x => x.TagName == "span" && (x.ClassList.Contains("green") || x.ClassList.Contains("red")));
Console.WriteLine("Green and Red spans are:");
PrintItemsText(greenAndRed);

var thePrinces = document.QuerySelectorAll("*").Where(x => x.TextContent == "the prince");
Console.WriteLine(thePrinces.Count());
}
else
{
Console.WriteLine("No html source code returned.");
}

void PrintItemsText(IEnumerable<IElement> elements)
{
foreach (var item in elements)
{
Console.WriteLine(item.TextContent);
}
}
}

640?wx_fmt=png

这里我们可以看到QuerySelectorAll()的返回结果可以使用Linq的Where方法进行过滤, 这样就很强大了.

TagName属性就是元素的标签名.

此外, 还有一个document.All, All属性是该Document所有元素的集合, 它同样也支持Linq.

(该方法中使用了一个本地方法).

由于同时支持CSS选择器和Linq, 所以抽取元素的工作简单多了.

导航树

一个页面, 它的结构可以是这样的:

640?wx_fmt=png

这里面有几个概念:

子标签和后代标签.

子标签是父标签的下一级, 而后代标签则是指父标签下面所有级别的标签.

tr是table的子标签, tr, th, td, img都是table的后代标签.

使用AngleSharp, 找出子标签可以使用.Children属性. 而找出后代标签, 可以使用CSS选择器.

兄弟标签

找到前一个兄弟标签使用.PreviousElementSibling属性, 后一个兄弟标签是.NextElementSibling属性.

父标签

.ParentElement属性就是父标签.

        public static async Task FindDescendantAsync()
{
const string url = "http://www.pythonscraping.com/pages/page3.html";
var html = await GetHtmlSourceCodeAsync(url);
if (!string.IsNullOrWhiteSpace(html))
{
var parser = new HtmlParser();
var document = await parser.ParseAsync(html);

var tableChildren = document.QuerySelector("table#giftList > tbody").Children;
Console.WriteLine("Table's children are:");
foreach (var child in tableChildren)
{
System.Console.WriteLine(child.LocalName);
}

var descendants = document.QuerySelectorAll("table#giftList > tbody *");
Console.WriteLine("Table's descendants are:");
foreach (var item in descendants)
{
Console.WriteLine(item.LocalName);
}

var siblings = document.QuerySelectorAll("table#giftList > tbody > tr").Select(x => x.NextElementSibling);
Console.WriteLine("Table's descendants are:");
foreach (var item in siblings)
{
Console.WriteLine(item?.LocalName);
}

var parentSibling = document.All.SingleOrDefault(x => x.HasAttribute("src") && x.GetAttribute("src") == "../img/gifts/img1.jpg")
?.ParentElement.PreviousElementSibling;
if (parentSibling != null)
{
Console.WriteLine($"Parent's previous sibling is: {parentSibling.TextContent}");
}
}
else
{
Console.WriteLine("No html source code returned.");
}
}

结果:

640?wx_fmt=png640?wx_fmt=png

使用正则表达式

"如果你有一个问题打算使用正则表达式来解决, 那么现在你有两个问题了".

这里有一个测试正则表达式的网站: https://www.regexpal.com/

目前, AngleSharp支持通过CSS选择器来查找元素, 也可以使用Linq来过滤元素, 当然也可以通过多种方式使用正则表达式进行更复杂的查找动作.

关于正则表达式我就不介绍了. 直接看例子.

我想找到页面中所有的满足下列要求的图片, 其src的值以../img/gifts/img开头并且随后跟着数字, 然后格式为.jpg的图标.

        public static async Task FindByRegexAsync()
{
const string url = "http://www.pythonscraping.com/pages/page3.html";
var html = await GetHtmlSourceCodeAsync(url);
if (!string.IsNullOrWhiteSpace(html))
{
var parser = new HtmlParser();
var document = await parser.ParseAsync(html);

var images = document.QuerySelectorAll("img")
.Where(x => x.HasAttribute("src") && Regex.Match(x.Attributes["src"].Value, @"\.\.\/img\/gifts/img.*\.jpg").Success);
foreach (var item in images)
{
Console.WriteLine(item.Attributes["src"].Value);
}

var elementsWith2Attributes = document.All.Where(x => x.Attributes.Length == 2);
foreach (var item in elementsWith2Attributes)
{
Console.WriteLine(item.LocalName);
foreach (var attr in item.Attributes)
{
Console.WriteLine($"\t{attr.Name} - {attr.Value}");
}
}
}
else
{
Console.WriteLine("No html source code returned.");
}
}

640?wx_fmt=png

这个其实没有任何难度.

但从本例可以看到, 判断元素有没有一个属性可以使用HasAttribute("xxx")方法, 可以通过.Attributes索引来获取属性, 其属性值就是.Attributes["xxx"].Value.

如果不会正则表达式, 我相信多写的Linq的过滤代码也差不多能达到要求.

遍历单个域名

就是几个应用的例子, 直接贴代码吧.

打印出一个页面内所有的超链接地址:

        public static async Task TraversingASingleDomainAsync()
{
var httpClient = new HttpClient();
var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon");

var parser = new HtmlParser();
var document = await parser.ParseAsync(htmlSource);
var links = document.QuerySelectorAll("a");
foreach (var link in links)
{
Console.WriteLine(link.Attributes["href"]?.Value);
}
}

640?wx_fmt=png

找出满足下列条件的超链接:

  • 在id为bodyContent的div里

  • url不包括分号

  • url以/wiki开头

        public static async Task FindSpecificLinksAsync()
{
var httpClient = new HttpClient();
var htmlSource = await httpClient.GetStringAsync("http://en.wikipedia.org/wiki/Kevin_Bacon");

var parser = new HtmlParser();
var document = await parser.ParseAsync(htmlSource);
var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success);
foreach (var link in links)
{
Console.WriteLine(link.Attributes["href"]?.Value);
}
}

640?wx_fmt=png

随机找到页面里面一个连接, 然后递归调用自己的方法, 直到主动停止:

        private static async Task<IEnumerable<IElement>> GetLinksAsync(string uri)
{
var httpClient = new HttpClient();
var htmlSource = await httpClient.GetStringAsync($"http://en.wikipedia.org{uri}");
var parser = new HtmlParser();
var document = await parser.ParseAsync(htmlSource);

var links = document.QuerySelector("div#bodyContent").QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)((?!:).)*$").Success);
return links;
}

public static async Task GetRandomNestedLinksAsync()
{
var random = new Random();
var links = (await GetLinksAsync("/wiki/Kevin_Bacon")).ToList();
while (links.Any())
{
var newArticle = links[random.Next(0, links.Count)].Attributes["href"].Value;
Console.WriteLine(newArticle);
links = (await GetLinksAsync(newArticle)).ToList();
}
}

640?wx_fmt=png

采集整个网站

首先要了解几个概念:

浅网 surface web: 是互联网上搜索引擎可以直接抓取到的那部分网络.

与浅网对立的就是深网 deep web: 互联网中90%都是深网.

暗网Darknet / dark web / dark internet: 它完全是另外一种怪兽. 它们也建立在已有的网络基础上, 但是使用Tor客户端, 带有运行在HTTP之上的新协议, 提供了一个信息交换的安全隧道. 这类网也可以采集, 但是超出了本书的范围.....

深网相对暗网还是比较容易采集的.

采集整个网站的两个好处:

  • 生成网站地图

  • 收集数据

由于网站的规模和深度, 所以采集到的超链接很多可能是重复的, 这时我们就需要链接去重, 可以使用Set类型的集合:

        private static readonly HashSet<string> LinkSet = new HashSet<string>();
private static readonly HttpClient HttpClient = new HttpClient();
private static readonly HtmlParser Parser = new HtmlParser();

public static async Task GetUniqueLinksAsync(string uri = "")
{
var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}");
var document = await Parser.ParseAsync(htmlSource);

var links = document.QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success);

foreach (var link in links)
{
if (!LinkSet.Contains(link.Attributes["href"].Value))
{
var newPage = link.Attributes["href"].Value;
Console.WriteLine(newPage);
LinkSet.Add(newPage);
await GetUniqueLinksAsync(newPage);
}
}
}

640?wx_fmt=png

(递归调用的深度需要注意一下, 不然有时候能崩溃).

收集整个网站数据

这个例子相对网站, 包括收集相关文字和异常处理等:

        private static readonly HashSet<string> LinkSet = new HashSet<string>();
private static readonly HttpClient HttpClient = new HttpClient();
private static readonly HtmlParser Parser = new HtmlParser();

public static async Task GetLinksWithInfoAsync(string uri = "")
{
var htmlSource = await HttpClient.GetStringAsync($"http://en.wikipedia.org{uri}");
var document = await Parser.ParseAsync(htmlSource);

try
{
var title = document.QuerySelector("h1").TextContent;
Console.ForegroundColor = ConsoleColor.Green;
Console.WriteLine(title);

var contentElement = document.QuerySelector("#mw-content-text").QuerySelectorAll("p").FirstOrDefault();
if (contentElement != null)
{
Console.WriteLine(contentElement.TextContent);
}

var alink = document.QuerySelector("#ca-edit").QuerySelectorAll("span a").SingleOrDefault(x => x.HasAttribute("href"))?.Attributes["href"].Value;
Console.WriteLine(alink);
}
catch (NullReferenceException)
{
Console.ForegroundColor = ConsoleColor.Red;
Console.WriteLine("Cannot find the tag!");
}

var links = document.QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, @"^(/wiki/)").Success).ToList();
foreach (var link in links)
{
if (!LinkSet.Contains(link.Attributes["href"].Value))
{
var newPage = link.Attributes["href"].Value;
Console.WriteLine(newPage);
LinkSet.Add(newPage);
await GetLinksWithInfoAsync(newPage);
}
}
}

640?wx_fmt=png

不知前方水深的例子

第一个例子, 寻找随机外链:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;
using AngleSharp.Parser.Html;

namespace WebScrapingWithDotNetCore.Chapter03
{
public class CrawlingAcrossInternet
{
private static readonly Random Random = new Random();
private static readonly HttpClient HttpClient = new HttpClient();
private static readonly HashSet<string> InternalLinks = new HashSet<string>();
private static readonly HashSet<string> ExternalLinks = new HashSet<string>();
private static readonly HtmlParser Parser = new HtmlParser();

public static async Task FollowExternalOnlyAsync(string startingSite)
{
var externalLink = await GetRandomExternalLinkAsync(startingSite);
if (externalLink != null)
{
Console.WriteLine($"External Links is: {externalLink}");
await FollowExternalOnlyAsync(externalLink);
}
else
{
Console.WriteLine("Random External link is null, Crawling terminated.");
}
}

private static async Task<string> GetRandomExternalLinkAsync(string startingPage)
{
try
{
var htmlSource = await HttpClient.GetStringAsync(startingPage);
var externalLinks = (await GetExternalLinksAsync(htmlSource, SplitAddress(startingPage)[0])).ToList();
if (externalLinks.Any())
{
return externalLinks[Random.Next(0, externalLinks.Count)];
}

var internalLinks = (await GetInternalLinksAsync(htmlSource, startingPage)).ToList();
if (internalLinks.Any())
{
return await GetRandomExternalLinkAsync(internalLinks[Random.Next(0, internalLinks.Count)]);
}

return null;
}
catch (HttpRequestException e)
{
Console.WriteLine($"Error requesting: {e.Message}");
return null;
}
}

private static string[] SplitAddress(string address)
{
var addressParts = address.Replace("http://", "").Replace("https://", "").Split("/");
return addressParts;
}

private static async Task<IEnumerable<string>> GetInternalLinksAsync(string htmlSource, string includeUrl)
{
var document = await Parser.ParseAsync(htmlSource);
var links = document.QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(/|.*{includeUrl})").Success)
.Select(x => x.Attributes["href"].Value);
foreach (var link in links)
{
if (!string.IsNullOrEmpty(link) && !InternalLinks.Contains(link))
{
InternalLinks.Add(link);
}
}
return InternalLinks;
}

private static async Task<IEnumerable<string>> GetExternalLinksAsync(string htmlSource, string excludeUrl)
{
var document = await Parser.ParseAsync(htmlSource);

var links = document.QuerySelectorAll("a")
.Where(x => x.HasAttribute("href") && Regex.Match(x.Attributes["href"].Value, $@"^(http|www)((?!{excludeUrl}).)*$").Success)
.Select(x => x.Attributes["href"].Value);
foreach (var link in links)
{
if (!string.IsNullOrEmpty(link) && !ExternalLinks.Contains(link))
{
ExternalLinks.Add(link);
}
}
return ExternalLinks;
}

private static readonly HashSet<string> AllExternalLinks = new HashSet<string>();
private static readonly HashSet<string> AllInternalLinks = new HashSet<string>();

public static async Task GetAllExternalLinksAsync(string siteUrl)
{
try
{
var htmlSource = await HttpClient.GetStringAsync(siteUrl);
var internalLinks = await GetInternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]);
var externalLinks = await GetExternalLinksAsync(htmlSource, SplitAddress(siteUrl)[0]);
foreach (var link in externalLinks)
{
if (!AllExternalLinks.Contains(link))
{
AllExternalLinks.Add(link);
Console.WriteLine(link);
}
}

foreach (var link in internalLinks)
{
if (!AllInternalLinks.Contains(link))
{
Console.WriteLine($"The link is: {link}");
AllInternalLinks.Add(link);
await GetAllExternalLinksAsync(link);
}
}
}
catch (HttpRequestException e)
{
Console.WriteLine(e);
Console.WriteLine($"Request error: {e.Message}");
}
}
}
}

640?wx_fmt=png

640?wx_fmt=png

程序有Bug, 您可以给解决下......

第一部分先到这....主要用的是AngleSharp. AngleSharp不止这些功能, 很强大的, 具体请看文档.

由于该书下一部分使用的是Python的Scrapy, 所以下篇文章我也许应该使用DotNetSpider了, 这是一个国产的库....

项目的代码在: https://github.com/solenovex/Web-Scraping-With-.NET-Core

原文地址:https://www.cnblogs.com/cgzl/p/8970582.html

.NET社区新闻,深度好文,欢迎访问公众号文章汇总 http://www.csharpkit.com 
640?wx_fmt=jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/316106.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ASP.NET Core在Azure Kubernetes Service中的部署和管理

目标部署&#xff1a;掌握将aspnetcore程序成功发布到Azure Kubernetes Service&#xff08;AKS&#xff09;上管理&#xff1a;掌握将AKS上的aspnetcore程序扩容、更新版本准备工作注册 Azure 账户官网免费帐户Azure 免费帐户仅适用于新用户&#xff0c;并且仅限每个客户一个免…

深入研究 Mini ASP.NET Core,看看 ASP.NET Core 内部到底是如何运行的

几年前&#xff0c;Artech 老师写过一个 Mini MVC&#xff0c;用简单的代码告诉读者 ASP.NET MVC 内部到底是如何运行的。当时我研究完以后&#xff0c;受益匪浅&#xff0c;内心充满了对 Artech 老师的感激&#xff0c;然后用我自己理解的 MVC 知识&#xff0c;写了一篇 深入研…

一文读懂Asp.net core 依赖注入(Dependency injection)

一、什么是依赖注入首先在Asp.net core中是支持依赖注入软件设计模式&#xff0c;或者说依赖注入是asp.net core的核心&#xff1b;依赖注入&#xff08;DI&#xff09;和控制反转&#xff08;IOC&#xff09;基本是一个意思&#xff0c;因为说起来谁都离不开谁&#xff1b;或者…

P4619 [SDOI2018]旧试题

P4619 [SDOI2018]旧试题 题意&#xff1a; 求个式子&#xff1a; (∑i1A∑j1B∑k1Cd(i∗j∗k))mod(1097)(\sum_{i1}^{A}\sum_{j1}^{B}\sum_{k1}^{C}d(i*j*k))mod(10^97)(i1∑A​j1∑B​k1∑C​d(i∗j∗k))mod(1097) 题解&#xff1a; 原创博文1k纪念 很明显&#xff0c;莫比…

C#中使用Bogus创建模拟数据

原文&#xff1a;CREATING SAMPLE DATA FOR C#[1] 作者&#xff1a;Bruno Sonnino 译文&#xff1a;C#中使用Bogus创建模拟数据 译者&#xff1a; Lamond Lu背景在我每次写技术类博文的时候&#xff0c;经常做的一件事就是创建模拟数据。在每篇博文中&#xff0c;为了解释某些概…

CF1253E Antenna Coverage

CF1253E Antenna Coverage 题意&#xff1a; 现在有n个点&#xff0c;每个点的坐标为xi&#xff0c;以及一个范围值si&#xff0c;可以覆盖左右范围[xi-si,xisi] 每次操作&#xff0c;可以花费代价1让第i个天线的si增加1&#xff0c;每个天线都可以进行多次操作。现在请问你最…

使用BeetleX的TcpBenchmark工具进行百万设备模拟测试

其实TCP测试的工具有很多&#xff0c;那BeetleX工具所提供的特点又是什么呢&#xff1f;如果你需数十万的请求或模拟上百万的设备连接&#xff0c;那这个工具相信可以满足你的需要&#xff01;工具是基于BeetleX的基础功能扩展&#xff0c;支持多IP绑定可以轻松实现上百万的cli…

.net core Entity Framework 与 EF Core

重点讲 Entity Framework Core &#xff01;&#xff08;一&#xff09;Entity Framework它是适用于.NET 的对象关系映射程序 (ORM)&#xff0c;现在的EF6已经是久经沙场&#xff0c;并经历重重磨难&#xff0c;获得一致认可的数据访问技术&#xff08;原来加 Title 也挺有意思…

CF1253F Cheap Robot

CF1253F Cheap Robot 题意&#xff1a; 给你一张 N 个点的带权无向连通图&#xff0c;其中结点 1,2,…,k 为充电中心。 一个机器人在图中行走&#xff0c;假设机器人的电池容量为 c&#xff0c;则任何时刻&#xff0c;机器人的电量 x 都必须满足 c0≤x≤c。如果机器人沿着一…

asp.net core 3.0 gRPC框架小试

什么是gRPCgRPC是google开源的一个高性能、跨语言的RPC框架&#xff0c;基于HTTP2协议&#xff0c;采用ProtoBuf 定义的IDL。gRPC 的主要优点是&#xff1a;现代高性能轻量级 RPC 框架。协定优先 API 开发&#xff0c;默认使用协议缓冲区&#xff0c;允许与语言无关的实现。可用…

P1131 [ZJOI2007] 时态同步

P1131 [ZJOI2007] 时态同步 题意&#xff1a; 有一颗树&#xff0c;有一个点是激发器&#xff0c;从这个点开始可以产生一个激励电流&#xff0c;通过导线传向每一个它所连接的节点&#xff0c;经过一个边的花费为w[i],你有一个道具&#xff0c;每用一次可以让一个边的花费1&…

.Net开发者必知的技术类RSS订阅指南

作为一个.Net开发者&#xff0c;在如今这个信息大爆炸时代&#xff0c;网络上.net开发方面的信息浩如烟海(获取信息的渠道很多&#xff0c;比如各种 APP、公众号、聚合信息网站、博客园、InfoQ等等)&#xff0c;如何用有限的时间来获取并消化有效信息显得格外重要。虽然我们获取…

又一最大子段和

又一最大子段和&#xff08;牛客小白月赛38 &#xff09; 题意&#xff1a; 我们将一个数列{an}的最大字段和的值记为S(a),现在你可以对进行若干次操作&#xff0c;每次操作&#xff0c;你可以选择数列中的一个数字&#xff0c;将其改为[−10100,10100][-10^{100},10^{100}][…

我的微服务观,surging 2.0将会带来多大的改变

Surging 自2017年6月16日开源以来&#xff0c;已收到不少公司的关注或者使用&#xff0c;其中既有以海克斯康超大型等外企的关注&#xff0c;也不乏深圳泓达康、重庆金翅膀等传统行业的正式使用&#xff0c;自2019年年初&#xff0c;surging2.0 便已正式进入研发阶段&#xff0…

corefx 源码学习:SqlClient 是如何同步建立 Socket 连接的

在昨天的技术周会上发现 EnyimMemcached 中建立 Socket 连接的代码有问题&#xff0c;今天坐车的时候在手机上阅读 .net core 2.2 的 SqlClient 中同步建立 Socket 连接的代码 SNITcpHandle.cs#L180 学习了一下。建立 Socket 连接需要处理2个问题&#xff1a;1&#xff09;处理…

NetCore + SignalR 实现日志消息推送

哈喽大家周一好呀&#xff0c;感觉好久没有写文章了&#xff0c;上周出差了一次&#xff0c;感觉还是比坐办公室好的多&#xff0c;平时在读一本书《时生》&#xff0c;感兴趣的可以看看?......这几天翻看 NetCore 相关知识扩展的时候&#xff0c;发现了久违的一个知识点 ——…

使用Entity Framework Core访问数据库(DB2篇)

上一篇讲了一些EF Core访问Oracle的坑。&#xff08;感兴趣请移步&#xff1a;使用Entity Framework Core访问数据库&#xff08;Oracle篇&#xff09;&#xff09;这篇主要讲一下关于EF Core访问DB2的一揽子~问题。本篇采用DBFirst直接生成实体。关于EF Core DB2 的官方文档&a…

Linux中以单容器部署Nginx+ASP.NET Core

正如前文提到的&#xff0c;强烈推荐在生产环境中使用反向代理服务器转发请求到Kestrel Http服务器&#xff0c;本文将会实践将Nginx --->ASP.NET Core 部署架构容器化的过程。Nginx->ASP.NET Coe部署架构容器化在Docker中部署Nginx--->ASP.NETCore 有两种选择&#x…

领域驱动设计学习之路—DDD的原则与实践

本文是我学习Scott Millett & Nick Tune编著的《领域驱动设计模式、原理与实践》一书的学习笔记&#xff0c;一共会分为4个部分如下&#xff0c;此文为第1部分&#xff1a;领域驱动设计的原则与实践战略模式&#xff1a;在有界上下文之间通信战术模式&#xff1a;创建有效的…

.NET Core中使用Dapper操作Oracle存储过程最佳实践

为什么说是最佳实践呢&#xff1f;因为在实际开发中踩坑了&#xff0c;而且发现网上大多数文章给出的解决方法都不能很好地解决问题。尤其是在获取类型为OracleDbType.RefCursor&#xff0c;输出为&#xff1a;ParameterDirection.Output数据的时候。网上千篇一律的说写一个Ora…