go 语言爬虫库goQuery 的详细使用(知乎日报详情页解析示例)

上一篇《uniapp小程序开发 | 从零实现一款影视类app 》实现了影视小程序的前端和后台接口,虽然包含了大多数小程序应有的知识,但基本还只是涉及网络接口和vue页面的设计。这里介绍下零一个有趣的练手项目,知乎日报。涉及详情页面的html解析,使用了golang的goquery三方库。

前言

知乎日报这个案例很经典,有比较完整的API,很值得模仿学习。 也很简单,唯一需要注意的是日报详情的设计,因为知乎日报的详情接口,竟返回的是html,这.....

上一篇《uniapp小程序开发 | 从零实现一款影视类app 》链接:uniapp小程序开发 | 从零实现一款影视类app (后台接口实现,go-zero微服务的使用)_uniapp开源影视app-CSDN博客

知乎日报API

启动界面图片

http://news-at.zhihu.com/api/4/start-image/{size}
参数说明
size图片尺寸,格式:宽*高。例如: 768*1024

获取刚进入应用时的显示封面,可以根据传递的尺寸参数来获取适配用户屏幕的封面。

获取最新日报

http://news-at.zhihu.com/api/4/news/latest

返回的数据用于日报的首页列表,首页的结构有上下部分,上部分是图片滑动模块,用于展示热门日报,下部分是首页日报列表,以上接口返回的数据有热门日报和首页日报

获取日报详细api

http://news-at.zhihu.com/api/4/news/{id}

或者直接解析详情页:

https://daily.zhihu.com/story/9773139
参数说明
id日报id

在点击日报列表也的日报项时,需要跳转到日报详情页展示日报的具体信息,这个接口用来获取日报的展示封面和具体内容。

历史日报

http://news.at.zhihu.com/api/4/news/before/{date}
参数说明
date年月日格式时间yyyyMMdd,例如:20150903、20161202

这个接口也是用与首页列表的日报展示,但是不同的是此接口需要传一个日期参数,如20150804格式。获取最新日报接口只能获取当天的日报列表,如果需要获取前天或者更久之前的日报,则需要这个接口单独获取。

日报额外信息

http://news-at.zhihu.com/api/4/story-extra/{id}

参数说明
id日报id

在日报详情页面中,不仅要展示日报的内容,好需要额外获取此日报的评论数目和推荐人数等额外信息。

日报长评

http://news-at.zhihu.com/api/4/story/{id}/long-comments

参数说明
id日报id

日报的评论页面展示长评用到的接口

日报短评

http://news-at.zhihu.com/api/4/story/{id}/short-comments

参数说明
id日报id

日报的评论页面展示段评用到的接口

主题日报栏目列表

http://news-at.zhihu.com/api/4/themes

主页的侧边栏显示有主题日报的列表,需要通过这个接口获取主题日报栏目列表

主题日报具体内容列表

http://news-at.zhihu.com/api/4/theme/{themeId}

参数说明
themeId主题日报栏目id

在主页侧栏点击主题日报进入主题日报的内容页,需要展示此主题日报下的日报列表。

goquery介绍

GoQuery是专为Go(Golang)语言设计的一个强大的HTML解析和查询库。它模仿了jQuery的API风格,使得在Go中处理HTML文档变得简单且直观。

GoQuery主要用于网页抓取(Web Scraping),能够通过CSS选择器来定位、遍历和操作HTML元素。你可以使用它来提取网页中的特定数据、修改DOM结构或进行其他与HTML文档相关的操作。

项目地址:GitHub - PuerkitoBio/goquery: A little like that j-thing, only in Go.

goquery使用

$ go get github.com/PuerkitoBio/goquery

简单示例

package mainimport ("fmt""log""github.com/PuerkitoBio/goquery"
)func main() {if err := run(); err != nil {log.Fatal(err)}
}func run() error {doc, err := goquery.NewDocument("http://example.com")if err != nil {return fmt.Errorf("failed to load document: %w", err)}doc.Find("a").Each(func(i int, s *goquery.Selection) {href, exists := s.Attr("href")if exists {fmt.Println(href)} else {fmt.Println(s.Text())}})return nil
}

知乎详情页解析

知乎日报详情页面:知乎日报 - 知乎 

 页面对应的html代码片段:

<html>
<body><p><strong>语言的疙瘩,就是思想上的疙瘩</strong></p><p>“靠嘴写作”的作家不少,王朔就是其一。去年他出了新书,受访时有个细节,说有段时间嗓子不舒服,便没写。乍一看挺蒙:如今写东西还得比吆喝了?</p>
<p>后来看了他的自序,才知道嗓子的用途。他是“拿口语写作的作者,检查文字也须拿口语来回溜,没磕啵儿,才觉得通顺”。</p><p>言下之意,<strong>朗读修改不只是勘误这么简单,本身就是创作方式。</strong>作家老舍将朗读文章比作拉胡琴定弦,声音不对马上调整,免得一音毁全曲。</p><blockquote>嘴里念,耳朵听,我们会立刻听出文字的毛病来:有的句子太长了,应当改短;有的句子念着绕嘴,必是音节或字眼安排得不对劲,要设法调换修正;有的句子意思好,可是念起来不嘹亮,不干脆,听着不起劲,这必是句子的结构还欠妥当,或某几个字不大现成,应当再加工。一个好句子念起来嘴舒服,耳朵舒服,心里也舒服。<br>——老舍</blockquote><p>叶圣陶说得更直接——<strong>“语言的任何疙瘩,也就是思想上的疙瘩。”</strong>我认为很对,句子写得弯弯绕,归根结底是没有想清楚重点,虽极力表达而不得要领,读之如堕云雾,这就不是改几个错别字那么简单了。</p><figure><img class="content-image" src="https://pic1.zhimg.com/v2-b74ec227f579df9b7e41fd42b02269ee_720w.jpg?source=8673f162" alt=""><figcaption>Photo by Thirdman</figcaption></figure><p><strong>行文优化三步走</strong></p><p>用好"朗读修改法"有很多角度和层次。从对象来说,可以自己读给自己听,自己读给别人听,或者别人读给自己听;从功能来看,能思考立意,检视材料,还能梳理逻辑……</p>
<p>不过,从效果上看,<strong>朗读还是最利于优化行文。</strong>汪曾祺曾说:"写小说就是写语言。"让朗读聚焦于语言自然更直接显著。由浅及深,我们可以通过“读”透三个层次来锤炼字句。</p><p><strong><strong>第一层:文病</strong></strong></p></body>
</html>

如何区分p标签和紧挨着的strong标签? 

区分<p>标签和紧挨着的<strong>标签,可以使用goquery的Each函数来逐个处理每个匹配的元素,并根据需要进行逻辑判断。以下是一个示例,演示如何区分和处理这两种标签:

package mainimport ("fmt""strings""github.com/PuerkitoBio/goquery"
)func main() {html := `<html><body><p><strong>语言的疙瘩,就是思想上的疙瘩</strong></p><p>“靠嘴写作”的作家不少,王朔就是其一。去年他出了新书,受访时有个细节,说有段时间嗓子不舒服,便没写。乍一看挺蒙:如今写东西还得比吆喝了?</p><p>后来看了他的自序,才知道嗓子的用途。他是“拿口语写作的作者,检查文字也须拿口语来回溜,没磕啵儿,才觉得通顺”。</p><p>言下之意,<strong>内容</strong></p></body></html>`doc, err := goquery.NewDocumentFromReader(strings.NewReader(html))if err != nil {fmt.Println("Error loading HTML:", err)return}var prevTag stringdoc.Find("p, strong").Each(func(i int, s *goquery.Selection) {tagName := s.Get(0).Dataif tagName == "p" {prevTag = "p"fmt.Println("p tag:", s.Text())} else if tagName == "strong" && prevTag == "p" {fmt.Println("strong tag:", s.Text())}})
}

在上面的代码中,定义一个prevTag变量来跟踪前一个处理过的标签,然后在Each函数中根据标签类型执行不同的操作。当遍历到<p>标签时,打印出其文本内容并将prevTag设置为"p",然后当遍历到紧挨着的<strong>标签时,检查前一个处理过的标签类型,如果是<p>,则打印出<strong>标签的内容。

完整解析代码:

func (l *ZhiDetailLogic) ZhiDetail(req *types.ZhiDetailReq) (resp *types.ZhiDetailResp, err error) {// todo: add your logic here and delete this lineurl := "https://daily.zhihu.com/story/" + req.Idres, err_ := httpc.Do(l.ctx, http.MethodGet, url, nil)if err_ != nil {l.Error(err_)return nil, err_}defer res.Body.Close()// Load the HTML documentdoc, err := goquery.NewDocumentFromReader(res.Body)if err != nil {l.Error(err)}//var zhi types.CtItemvar responseData []types.CtItemtitle := doc.Find(".DailyHeader-title").Text()image, _ := doc.Find(".DailyHeader-image").Find("img").Attr("src")author := ""avatar := ""bio := ""doc.Find(".meta").Each(func(i int, s *goquery.Selection) {author = s.Find("span[class=author]").Text()l.Debugf("author:", author)bio = s.Find("span[class=bio]").Text()avatar, _ = s.Find("img[class=avatar]").Attr("src")})// 遍历.content下的所有子节点doc.Find(".content *").Each(func(i int, s *goquery.Selection) {var itm types.CtItem// 判断节点类型并相应处理tagName := s.Get(0).DataAtom.String()switch tagName {case "p":// 在p内部查找strong标签strong := s.Find("strong")if strong.Length() == 1 {itm.Types = "strong"itm.Value = s.Text()responseData = append(responseData, itm)} else {itm.Types = "p"itm.Value = s.Text()responseData = append(responseData, itm)}case "li":itm.Types = "li"itm.Value = s.Text()responseData = append(responseData, itm)case "figure":// 在figure内部查找img标签img := s.Find("img")if img.Length() > 0 {src, _ := img.Attr("src")itm.Types = "img"itm.Value = srcresponseData = append(responseData, itm)}}})resp = &types.ZhiDetailResp{Code:    0,Message: res.Status,Content: responseData,Title:   title,Author:  author,Bio:     bio,Avatar:  avatar,Image:   image,}return
}

其他资源

go 语言爬虫库goquery的具体使用_Golang_脚本之家

goquery: 快速高效的HTML解析库-CSDN博客

Golang学习日志 ━━ goQuery 的使用-CSDN博客

https://www.51cto.com/article/785226.html

Go语言colly框架的快速入门_Golang_脚本之家

https://news-at.zhihu.com/api/7/news/9773139

go-zero超强工具goctl的常用命令api,rpc,model及其构建的服务解析-CSDN博客

go-zero 缩短从需求到上线的距离

GitHub - cwuom/MusicHelper: 一个通过Python编写的QQ、网易云音乐无损音乐爬取工具

https://www.cnblogs.com/oopsguy/p/5968447.html

GitHub - oopsguy/wechat-miniprogram-examples: WeChat mini program examples. 微信小程序示例 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/855165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

线性稳压器LDO的基础知识

一、什么是线性稳压器? 线性稳压器的工作原理是&#xff1a;采用一个压控电流源以强制在稳压器输出端上产生一个固定电压。控制电路连续监视&#xff08;检测&#xff09;输出电压&#xff0c;并调节电流源&#xff08;根据负载的需求&#xff09;以把输出电压保持在期望的数值…

【Spine学习12】之 事件帧

1、新建事件帧&#xff1a; 2、选择第8s的攻击帧&#xff0c;点击第一步新建的attack事件帧前面的钥匙 这样每次动作到8s的时候会自动跳出事件帧提示 这个文字实际动画不会显示 事件是动画过程中所发生情况的触发器。 给程序员识别的

分享:2024年(第12届)“泰迪杯”数据挖掘挑战赛省级奖项获奖名单公示

本次竞赛有评选省奖的省份有广东省、广西壮族自治区、河北省、湖北省。各省奖项依据“泰迪杯”全国评审专家组统一评阅的最终成绩区分省份后从高到低依序按比例产生。 广东省 省级奖项获奖名单公示 奖项设置&#xff1a; 一等奖&#xff1a;约占该省份队伍总数的5%&#xff0…

Android开发系列(四)Jetpack Compose之Button

在Jetpack Compose中&#xff0c;Button是一个常用的用户界面组件&#xff0c;用于执行某些操作或触发某些事件。Button控件是可触摸的&#xff0c;并且通常会显示一个文本或图标来表示其功能。 要在Jetpack Compose中创建一个Button&#xff0c;可以使用Button()函数&#xf…

shell学习记录

shell简介 参考博文1 参考博文2——shell语法及应用 参考博文3——vi的使用 在linux中有很多类型的shell&#xff0c;不同的shell具备不同的功能&#xff0c;shell还决定了脚本中函数的语法&#xff0c;Linux中默认的shell是 / b in/ b a s h &#xff0c;流行的shell有as…

B-splines曲线的绘制(Matlab)

虽然在这个链接三次 Bspline(B样条曲线) NURBS曲线的绘制 matlab_三次b样条曲线的绘制-CSDN博客中我们介绍了NURBS曲线&#xff0c;然而有时候我们通过B-spline曲线也能够解决问题。B-spline曲线作为NURBS曲线的一种特例&#xff0c;这里给出均匀B-spline曲线的表达式&#xff…

基于IDEA的Maven简单工程创建及结构分析

目录 一、用 mvn 命令创建项目 二、用 IDEA 的方式来创建 Maven 项目。 &#xff08;1&#xff09;首先在 IDEA 下的 Maven 配置要已经确保完成。 &#xff08;2&#xff09;第二步去 new 一个 project &#xff08;创建一个新工程&#xff09; &#xff08;3&#xff09;…

论文精读——KAN

目录 1.研究背景 2.关键技术 2.1 原始公式 2.2 KAN结构 2.3 缩放定律 3.技术扩展 4.模型效果 5.相关讨论 6.总结 文章标题&#xff1a;《KAN: Kolmogorov–Arnold Networks》 文章地址&#xff1a; KAN: Kolmogorov-Arnold Networks (arxiv.org)https://arxiv.org/a…

再次递表港交所,慧算账能否把握AI+财税SaaS机遇?

5月以来&#xff0c;港股IPO市场日渐兴旺&#xff0c;多家公司实现上市首日“零破发”&#xff0c;平均收涨约30%&#xff0c;6月更是出现了超2500倍超购新股。市场赚钱效应显现&#xff0c;投资者打新随之热情高涨&#xff0c;越来越多国内企业也开始抓紧赴港上市。 近日&…

Android-app自动更新总结(已适配9-0)(1)

} //检查版本号&#xff0c;第一次请求(post)&#xff0c;&#xff0c;&#xff0c;UpdateAppBean根据服务器返回生成 private void requestAppUpdate(int version, final DataRequestListener listener) { OkGo.post(Const.HOST_URL Const.UPDATEAPP).params(“version”, v…

vue element-ui 下拉框 以及 input 限制输入,小数点后保留两位 界面设计案例 和 例子:支持mp4和m3u8视频播放

vue input 限制输入&#xff0c;小数点后保留两位 以及 图片垂直居中显示 和 分享 git 小技巧-CSDN博客文章浏览阅读430次&#xff0c;点赞5次&#xff0c;收藏4次。error:Your local changes to the following files would be overwritten by merge:_error: your local change…

2024.6.18 作业 xyt

今日作业&#xff1a; 1. 完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面 如果…

C++ 64 之 函数模版和普通函数调用规则

#include <iostream> #include <string> using namespace std;template<typename T> void myPrint(T a, T b){cout << "函数模板的调用" << endl; }void myPrint(int a, int b){cout << "普通函数调用" << endl…

C#——只读属性readonly

只读属性readonly 类的字段可以通过一个readonly(只读)表示这个为只读字段&#xff0c;不能被构造函数之外地方进行修改&#xff0c;静态只读字段不能在非静态的构造函数中使用 定义 只读属性的特点&#xff1a; 字段是只读的非静态 只能在非静态方法中进行修改 字段是只读的…

NoSQL-Tidis支持分布式事务,兼容redis协议,使用tikv存储引擎,可水平扩展

项目repo地址 GitHub - yongman/tidis: Distributed transactional NoSQL database, Redis protocol compatible using tikv as backend Tidis是分布式数据库,支持redis协议,多种数据结构支持,编写语言为golang。 Tidis工作角色类似于TIDB,提供协议转换和数据结构计算,底…

RockChip Android12 System之Datetime

一:概述 本文将针对Android12 Settings二级菜单System中Date&time的UI修改进行说明。 二:Date&Time 1、Activity packages/apps/Settings/AndroidManifest.xml <activityandroid:name="Settings$DateTimeSettingsActivity"android:label="@stri…

Unity基础(三)3D场景搭建

目录 简介: 一.下载新手资源 二.创建基本地形 三.添加场景细节 四,添加水 五,其他 六. 总结 简介: 在 Unity 中进行 3D 场景搭建是创建富有立体感和真实感的虚拟环境的关键步骤。 首先&#xff0c;需要导入各种 3D 模型资源&#xff0c;如建筑物、角色、道具等。这些模…

springboot与flowable(9):候选人组

act_id_xxx相关表存储了所有用户和组的数据。 一、维护用户信息 Autowiredprivate IdentityService identityService;/*** 维护用户*/Testvoid createUser() {User user identityService.newUser("zhangsan");user.setEmail("zhangsanqq.com");user.setF…

CHATGPT说这个运算放大器是比较器,我说这是运放典型的同相比例放大器,一个光控电路分析

纠正 图1 光控电路 该电路来自一个问题&#xff0c;链接见文末。 因GPT的分析有误&#xff0c;特此纠正。 引用图片和答案用于分析&#xff0c;如侵权请联系本人。 电路分析&#xff1a; 该电路为光控灯电路&#xff0c;灯光为LED发光二极管 D。 光敏电阻RG的阻值和光线强度关…

6.18作业

完善对话框&#xff0c;点击登录对话框&#xff0c;如果账号和密码匹配&#xff0c;则弹出信息对话框&#xff0c;给出提示”登录成功“&#xff0c;提供一个Ok按钮&#xff0c;用户点击Ok后&#xff0c;关闭登录界面&#xff0c;跳转到其他界面 如果账号和密码不匹配&#xf…