jquery 获取系统默认年份_你没有看错,爬网页数据,C# 也可以像 Jquery 那样

d9d56e744ce139efe1ec2da479fe90ad.gif

一:背景

1. 讲故事

前段时间搞了一个地方性民生资讯号,资讯嘛,都是我抄你的,你抄官媒的,小市民都喜欢奇闻异事,所以就存在一个需求,如何去定向抓取奇闻异事的地方号上的新闻,其实做起来很简单,用逻辑回归即可,这篇主要讨论如何去抓取,在 C# 中大家都知道抓取通用的库是 HtmlAgilityPack,但是这个库主流的做法是采用 xpath 提取网页内容,这就让我很不爽了,毕竟不熟悉莫名的抵抗哈,像我这个年纪的码农,被 Jquery 教育了至少 5-6 年,所以必须用 类Jquery 的方式,在 python 中有 pyquery 做这件事情,那在C# 中有没有类似的方式呢?嘿嘿,万能的 github 上还真有。。。就是本篇介绍的 CSQuery。

二:CSQuery

1. 安装

github的地址:https://github.com/zone117x/CsQuery   然后在vs中 nuget 一下即可:

22b3cff5ab8ceda39063d8f72bbf2d11.png

2. 举几个例子

一切都准备就绪了,那怎么用呢?不着急,我以博客园举两个例子。

1) 将首页中的 友情连接 提取到

289e2cbcd1746250ff364e18adb098ca.png

如上图,要想获取这里的 友情链接几个大字,直接用 text() 肯定是不行的,默认情况它会将所有的子节点的文本也会抓到,如下图:

11e873d8423ad017088c739342c55bb3.png

那怎么处理呢?可以用 jquery 提供的 contents 方法,然后在获取的所有子节点中判断是否有 文本节点,最后获取文本节点的内容即可,如下代码:

64ca8efe56e0f0f8aaf3a8e9f00a918b.png

用js是搞定了,那用 CSQuery 代码怎么搞定呢?模仿呗,如下代码:


        static void Main(string[] args)
        {
            var jquery = CQ.CreateDocument(new WebClient().DownloadString("http://cnblogs.com"));

            var content = jquery["#friend_link"].Contents().Filter((dom) =>
            {
                return dom.NodeType == NodeType.TEXT_NODE;
            }).Text();

            Console.WriteLine(content);
        }

我不知道用 xpath 提取这样的内容麻不麻烦,不过用 jquery 方式不简单,但轻车熟路。

2) 如何将 html 中的某些元素标颜色

有时候为了业务需要将某些 html 标签改一下颜色,比如说将首页的 tabmenu 中 博问 和 专区 改成红色,如下图:

111c29bb92977f14fa46526311990de8.png

那用 CSQuery 怎么处理呢?如果玩过 jquery,一般来说步骤如下:

  • 使用 each 遍历每一个子 li 标签

  • 使用 CSS 方法给 li 中 a 标签赋样式

  • 使用 Render 渲染生成一个新的的html

有了步骤,C#代码如下:


        static void Main(string[] args)
        {
            Config.HtmlEncoder = HtmlEncoders.None;

            var jquery = CQ.CreateDocument(new WebClient().DownloadString("http://cnblogs.com"));

            var html = jquery["#nav_left li"].Each(dom =>
               {
                   var self = jquery[dom];

                   var text = self.Text();

                   if (text == "博问" || text == "专区")
                   {
                       self.Find("a").CssSet(new { color = "red" });
                   }
               }).Render();
        }
        
88807e5fc3458711202a4743cc309f30.png

3) 其他的操作方法

除了上面两个操作方法外,你还可以使用 after,before,replaceAll,IS 等等一百来个实用的方法,这篇肯定也无法一一介绍了,大家有兴趣可以下载下来看一看,捣鼓捣鼓。

三:其他用途

除了抓取html中的元素,我觉得这玩意还可以用在发送邮件时操控邮件模板,毕竟在很久以前大家都是用jquery来绘制 html,所以用 CSQuery 也是可以的,相对使用 xslt 有利有弊吧,接下来做一个例子:

1. 生成一个html模板


html>

<html lang="en" xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta charset="utf-8" />
    <title>title>
head>
<body>
    <ul id="main">ul>
body>
html>

2. 使用 CSQuery 给 ul 追加 li

可以用 Append 将内容追加到  节点内。


    class Program
    {
        static void Main(string[] args)
        {
            Config.HtmlEncoder = HtmlEncoders.None;

            var strlist = new string[2] { "1", "2" };

            var path = Environment.CurrentDirectory + "\\2.html";
            var jquery = CQ.CreateFromFile(path);

            foreach (var str in strlist)
            {
                jquery.Find("#main").Append($"{str}");
            }

            var html = jquery.Render();
        }
    }

a1ca5ef41f39373aef6519e310376d7e.png

3. 部分渲染 RenderSelection

Render方法是将整个Dom渲染成html,但有时候你只需要得到你修改的那部分内容,而不是整个html,这就涉及到了部分渲染,可以用 RenderSelection 方法即可,代码如下:


        static void Main(string[] args)
        {
            Config.HtmlEncoder = HtmlEncoders.None;

            var strlist = new string[2] { "1", "2" };

            var path = Environment.CurrentDirectory + "\\2.html";
            var jquery = CQ.CreateFromFile(path);

            var current = jquery.Find("#main");

            foreach (var str in strlist)
            {
                current.Append($"{str}");
            }

            var html = current.RenderSelection();

            Console.WriteLine(html);
        }

------------- output ----------------

"main">12

四:总结

Jquery 这种操作模式对我个人来说还是比较舒服的,毕竟熟!不过在 html5 中也新增了 querySelector 和 querySelectorAll 支持 css3 选择器,非常强大,可 jquery 不光在选择器的灵活上,还在于对节点的灵活操作上,总的来说不是特别富交互的情况下可以怀旧一把。

38498256e1e7b601811983a40e3ae0d7.png

往期精彩回顾

【推荐】.NET Core开发实战视频课程 ★★★

.NET Core实战项目之CMS 第一章 入门篇-开篇及总体规划

【.NET Core微服务实战-统一身份认证】开篇及目录索引

Redis基本使用及百亿数据量中的使用技巧分享(附视频地址及观看指南)

.NET Core中的一个接口多种实现的依赖注入与动态选择看这篇就够了

10个小技巧助您写出高性能的ASP.NET Core代码

用abp vNext快速开发Quartz.NET定时任务管理界面

在ASP.NET Core中创建基于Quartz.NET托管服务轻松实现作业调度

现身说法:实际业务出发分析百亿数据量下的多表查询优化

关于C#异步编程你应该了解的几点建议

C#异步编程看这篇就够了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/457368.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux下怎么编译运行C语言程序?

linux下的C语言编译器是gcc&#xff0c;C的编译器是g。 linux下编程可以使用编辑器vi或vim&#xff0c;建议使用vim&#xff0c;因为它有语法高亮显示。程序编写好后&#xff0c;假设你的程序名为test.c&#xff0c;可以使用gcc -o test test.c。test就是编译好的可执行程序./t…

undertow 怎么创建线程_为什么很多SpringBoot开发者放弃了Tomcat,选择了Undertow

点击上方“后端技术精选”&#xff0c;选择“置顶公众号”技术文章第一时间送达&#xff01;作者&#xff1a;阿迈达toutiao.com/a6775476659416990212/前言在SpringBoot框架中&#xff0c;我们使用最多的是Tomcat&#xff0c;这是SpringBoot默认的容器技术&#xff0c;而且是内…

一起玩转CoordinatorLayout

作为Material Design风格的重要组件,CoordinatorLayout协调多种组件的联动&#xff0c;实现各种复杂的效果&#xff0c;在实际项目中扮演着越来越重要的角色。本篇博客将由浅到深&#xff0c;带你一起玩转CoordinatorLayout。 官方文档对CoordinatorLayout是这样描述的&#xf…

离散数学图论旅行规划问题_2020年MathorCup高校数学建模挑战赛——C 题 仓内拣货优化问题...

下面的链接是精华版思路&#xff0c;亮点是对第六问的探讨。高度概括一下&#xff1a;第一问曼哈顿&#xff0c;第二问用免疫&#xff0c;三问增加任务单&#xff0c;四问增加拣货员&#xff0c;五问改变复核台&#xff0c;六问亮点来探讨~ 有点皮MathorCup C题 仓内拣货优化问…

Asp.NetWebForm的控件属性

一&#xff1a;GridView&#xff1a; 1.绑定ID 的值&#xff1a;DataKeyNames"Id", 2.自动产生列的意思:AutoGenerateColumns 3.如何注册脚本&#xff1a;ClientScript.RegisterStartupScript(this.GetType(),"text","alert(删除成功)"&#xf…

【VBA编程】10.自定义集合

自定义集合类型&#xff0c;类似于变量声明&#xff0c;只是要将Dim关键字和New collection关键字搭配起来使用&#xff0c;其语法描述如下&#xff1a;其中集合名的命名方式同于标准变量的命名 Dim 集合名 As New collection 对于已经定义的集合对象&#xff0c;可以使用集合的…

git fork clone 区别_Working with Git | Git 与 GitHub

关于各位好&#xff0c;这里是 Chinas Prices Project 项目的知乎专栏。关于 CPP 项目&#xff0c;您可以在这篇文章里了解到更多的信息。若您对这个项目感兴趣&#xff0c;我们非常欢迎您与我们交流您的想法与见解。在一个团队的成员同时为一个项目进行开发工作时&#xff0c;…

舒适的路线(codevs 1001)

题目描述 DescriptionZ小镇是一个景色宜人的地方&#xff0c;吸引来自各地的观光客来此旅游观光。Z小镇附近共有N(1<N≤500)个景点&#xff08;编号为1,2,3,…,N&#xff09;&#xff0c;这些景点被M&#xff08;0<M≤5000&#xff09;条道路连接着&#xff0c;所有道路都…

PHP_Smarty

模板 数据与表现层的标签分离 smarty是PHP 与 HTML代码的分离 小型模板类 $smarty 的工作流程&#xff1a; 把需要显示的全局变量&#xff0c;赋值塞到对象内部的属性上&#xff0c;一个数组中.编译模板&#xff0c;把{$标签},解析成相应的<?php echo 代码引入编译后的PHP文…

读中文_挑战来了!康辉喊你读中文十级绕口令!

文章来源&#xff1a;央视频汉语桥木甬读桶不读涌&#xff0c;月农读脓不读胧。米更读粳不读梗&#xff0c;日青读晴不读睛。米宗读粽不读综&#xff0c;言丁读订不读钉。土竟读境不是镜&#xff0c;土平读坪不是评。耳令读聆不读岭&#xff0c;火登读灯不读澄。言甬读诵不读蛹…

ios 自定义键盘

由于项目需要&#xff0c;需要自定义键盘。ios系统键盘会缓存键盘输入&#xff0c;并保存在系统目录下的文件里&#xff0c;并且是明文存储&#xff0c;存在帐号密码泄漏风险。在别人代码基础上修改了下&#xff0c;美化了下界面&#xff0c;去掉了字符输入&#xff0c;加了点击…

对象入参指定泛型类型_为什么要使用泛型,而不是直接将类型作为参数传递?

其实很多类型系统都是用类型参数的的形式来实现Universal Type的&#xff0c;Parametric Polymorphism 和System F可以了解一下&#xff0c;如果只局限于一两个热门语言的话&#xff0c;可能会有此疑问&#xff0c;但是从type theory的角度来说&#xff0c;高阶类型本身就是typ…

【GOF23设计模式】迭代器模式

【GOF23设计模式】迭代器模式 来源&#xff1a;http://www.bjsxt.com/ 一、【GOF23设计模式】_迭代器模式、JDK内置迭代器、内部类迭代器 1 package com.test.iterator;2 /**3 * 自定义的迭代器接口4 */5 public interface MyIterator {6 void first(); //将游标指向第…

SQLServer 维护脚本分享(08)临时数据库(tempdb)

dbcc sqlperf(logspace) --各数据库日志大小及使用百分比dbcc loginfo --查看当前数据库的虚拟日志文件--临时表Tempdb最近使用情况 SELECT t1.session_id ,t1.internal_objects_alloc_page_count*8.0/1024 as internal_objects_alloc_MB ,t1.internal_objects_dealloc_p…

51单片机50个实例代码_【附代码】51单片机电子密码锁教程

简介大家好&#xff0c;这篇文章的内容是关于如何用51单片机来制作一个电子密码锁的教程&#xff0c;通过这篇教程可以让刚入门的朋友了解矩阵键盘、LCD1602的使用方法&#xff0c;以及密码输入和修改的程序介绍&#xff0c;我会对每个部分进行详细的介绍。首先我们来看一下这个…

旋转的正方体

<!DOCTYPE html><html lang"zh-cmn-Hans"><head><meta charset"utf-8" /><title>backface-visibility_CSS参考手册_web前端开发参考手册系列</title><meta name"author" content"Joy Du(飘零雾雨),…

8数据提供什么掩膜产品_博硕能为你提供什么产品?

自动喷漆设备应用于线条、木门、橱柜、楼梯、套房家具、办公家具、木饰面板、外墙保温装饰一体板板等产品领域&#xff0c;针对NC、PU、UV、水性漆和氟碳漆等不同种类的油漆&#xff0c;进行自动化喷涂和干燥作业。自动喷漆设备有多种规格型号&#xff0c;分为不同的喷涂方式。…

python3 实现对比conf 文件差异

用法&#xff1a; ./conf.py nginx1.conf nginx2.conf > diff.htmlconf.py#!/usr/bin/python import difflib import sys #### Usage: compare_nginx.conf.py filename1 filename2 >diff.html try:textfile1 sys.argv[1]textfile2 sys.argv[2] except Exception as…

mysql----innodb统计信息

对innodb 统计信息的控制可以通过如下几个常用的variables 来实现 1、innodb_stats_persistent&#xff1a; 这个参数控制着innodb的统计信息是否持久化到磁盘&#xff0c;先说明一下持久化到磁盘是什么意思&#xff1b;通常来说统计信息只保存在内存中&#xff0c;也就是说如果…

linux pid t 头文件_linux系统调用相关头文件

Linux C 一些函数 所属的头文件 2011-03-07 10:25:07分类&#xff1a; LINUX在编写程序时&#xff0c;有时总是不记得所使用的函数在哪个库函数中。现在先把自己以前经常用到的函数头文件总结一下。 有不对的地方还请指教。1&#xff0c;系统调用 文件的操作函数#inlclude &…