基于golang的文章信息抓取

基于golang的文章信息抓取

学习golang爬虫,实现广度爬取,抓取特定的网页地址:测试站点新笔趣阁(https://www.xsbiquge.com/)

主要学习golang的goroutine和channel之间的协作,无限爬取站点小说的地址仅限书目录地址,不进行文章内容爬取

在学习中遇到了一些问题:例如共享变量map写入竞争、连接提前关闭问题等等

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全

为了解决map类型共享变量竞争问题,封装map类型添加读写锁限制,防止不同的goroutine之间出现写入竞争(虽然只有goroutine比较多的时候才会出现)

package utilimport "sync"//封装一个map结构体,主要用来过滤相同的url地址
type VisitMap struct {sync.RWMutexvisited map[string]bool
}func (vis *VisitMap) ReadMap(url string) bool {vis.RLock()value := vis.visited[url]vis.RUnlock()return value
}func (vis *VisitMap) WriteMap(url string) {vis.Lock()vis.visited[url] = truevis.Unlock()
}//channel封装
type Pool struct {VisitMap *VisitMapqueue    chan string
}func New(size int) *Pool {if size < 1 {size = 1}visitMap := new(VisitMap)visitMap.visited = make(map[string]bool)return &Pool{VisitMap: visitMap,queue:    make(chan string, size),wg:       &sync.WaitGroup{},}
}

接下来是main函数处理

package mainimport ("fmt""github.com/thinkeridea/go-extend/exstrings""golang.org/x/net/html""net/http""net/url""regexp""reptile/demo/queue/dao""reptile/demo/queue/model""reptile/tools""strings""time"
)func main() {//1,初始化Orm_, err := tools.OrmEngine()if err != nil {fmt.Println(err)panic(err)}bookUrl := "https://www.xsbiquge.com/"//bookUrl = "https://www.xsbiquge.com/68_68470/"pool := New(100)pool.queue <- bookUrl//根据主页面爬取子页面u, err := url.Parse(bookUrl)if err != nil {fmt.Println(err)return}hostName := u.Hostname()for uri := range pool.queue {go DownLoad(hostName, uri, pool)fmt.Println("range pool.queue  : " + uri)}fmt.Println("结束啦:" + bookUrl)}

html抓取和信息处理,匹配小说列表链接

/**
下载
*/
func DownLoad(host, bookUrl string, pool *Pool) {showTime("download start")pool.VisitMap.WriteMap(bookUrl)//http 客户端client := http.Client{}//创建请求req, err := http.NewRequest("GET", bookUrl, nil)if err != nil {fmt.Println(err)}//设置请求headerreq.Header.Set("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 11_0_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36")//执行请求showTime("client.Do start")resp, err := client.Do(req)showTime("client.Do end")if err != nil {fmt.Println(err)}//这里判断下,如果响应关闭。则直接返回,实测是存在这种情况的if resp == nil || resp.Close {return}defer resp.Body.Close()showTime("links start")body, err := html.Parse(resp.Body)links := visit(nil, body)showTime("links end")for _, link := range links {absolute := urlJoin(link, bookUrl)//fmt.Println(runtime.NumGoroutine())//匹配是否是文章页面rh, _ := regexp.Compile(host)host := rh.MatchString(absolute)//匹配是否是文章页面r, _ := regexp.Compile(`\.html`)html := r.MatchString(absolute)if bookUrl != " " && host && !html {len := strings.Index(absolute, "#")if len != -1 {absolute = exstrings.SubString(absolute, 0, len)}fmt.Println("current url: " + absolute)if !pool.VisitMap.ReadMap(absolute) {fmt.Println("add url: " + absolute)go urlQueue(absolute, pool)}}}
}func urlQueue(url string, pool *Pool) {pool.queue <- url
}func urlJoin(href, base string) string {uri, err := url.Parse(href)if err != nil {return " "}baseUrl, err := url.Parse(base)if err != nil {return " "}return baseUrl.ResolveReference(uri).String()
}func showTime(action string) {//fmt.Println(fmt.Sprintf("%s :%s", action, time.Now().String()))
}

在页面链接处理过程中遇到了空指针问题:所以在处理之前先判断下 *html.Node指针是否是空指针

//文档链接处理
func visit(links []string, n *html.Node) []string {if n != nil {if n.Type == html.ElementNode && n.Data == "a" {for _, a := range n.Attr {if a.Key == "href" {links = append(links, a.Val)}}}for c := n.FirstChild; c != nil; c = c.NextSibling {links = visit(links, c)}}return links
}

学习收货:
读写锁的使用、不同goroutine之间通过channel通讯、url地址解析、html解析、html内容提去链接地址、通过map进行链接地址去重、go-extend扩展工具包使用

但是有一个问题,通过range来循环通道,如果通道内没有消息了就会处于等待状态,要如果退出?

福利彩蛋:没有好玩的 API 接口?上百款免费接口等你来,免费 API,免费 API 大全

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/40136.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言 | Leetcode C语言题解之第212题单词搜索II

题目&#xff1a; 题解&#xff1a; class Solution { public:struct Node{int id;Node* son[26];Node(){id -1;for(int i 0; i < 26; i) son[i] NULL;}}* root;vector<vector<char>> g;unordered_set<int> ids;vector<string> res;int dx[4] …

Windows编程原理-消息驱动的机制

Windows为每一个输入事件产生一个输入消息&#xff0c;如&#xff1a; 移动鼠标按键…… 从程序角度看待Windows消息处理 Windows使用一个窗口前必须&#xff1a; 填充一个结构&#xff1a;WNDCLASS注册窗口创建窗口使用窗口撤销窗口 从这个机制看&#xff0c;windows操作系统…

前端面试题1

解释一下什么是闭包&#xff08;Closure&#xff09;&#xff0c;并给出一个实际应用场景。 解答: 闭包是指有权访问另一个函数作用域中的变量的函数&#xff0c;创建闭包最常见的方式就是在一个函数内部创建另一个函数。闭包可以让内部函数访问到外部函数的作用域&#xff0c;…

console 报错 之 Uncaught (in promise) RangeError: Maximum call stack size exceeded

1. 背景 demo 环境报错。。。 2. 报错问题 3. 问题原因 vue 报错: “RangeError: Maximum call stack size exceeded” 报错通常是由于无限的递归 导致的。当使用 Vue 路由时&#xff0c;如果设置不当&#xff0c;会导致无限的递归&#xff0c;最终导致栈溢出&#xff0c;即…

yolov8 目标检测快速streamlit可视化界面

参考&#xff1a; https://github.com/ultralytics/ultralytics/blob/2330caa50a8a8e0bb61408df8dca0721fb350dbe/ultralytics/solutions/streamlit_inference.py 版本&#xff1a; ultralytics 8.2.27 # Ultralytics YOLO &#x1f680;, AGPL-3.0 licen…

网络安全--计算机网络安全概述

文章目录 网络信息系统安全的目标网络安全的分支举例P2DR模型信息安全模型访问控制的分类多级安全模型 网络信息系统安全的目标 保密性 保证用户信息的保密性&#xff0c;对于非公开的信息&#xff0c;用户无法访问并且无法进行非授权访问&#xff0c;举例子就是&#xff1a;防…

用StartAI文生图做电商设计 AI服装面料设计教程

AI电商设计需要考虑以下多个问题&#xff0c;面面俱到即可小成本做电商 步骤&#xff1a;电商选品确定文生图关键 理解面料特性&#xff1a;了解不同面料的特性&#xff0c;如透气性、弹性、耐用性等&#xff0c;以便更好地利用AI进行设计。色彩搭配&#xff1a;利用AI分析流…

【特征选择精通指南】在scikit-learn中优化你的机器学习模型

标题&#xff1a;【特征选择精通指南】在scikit-learn中优化你的机器学习模型 特征选择是机器学习中的一个关键步骤&#xff0c;它涉及从原始数据集中选择最相关的特征以提高模型的性能和减少过拟合的风险。scikit-learn&#xff0c;作为Python中一个广泛使用的机器学习库&…

C++编程逻辑讲解step by step:多态

概念 C面向对象中的多态性是指同一种类型的对象在不同的情况下表现出不同的行为。 从代码层面看&#xff0c;实际上“同一种类型”就表明了&#xff0c;这里可以在循环里用相同的代码统一处理不同的功能。这一点很重要。 题目 界面上&#xff0c;拖动鼠标画矩形或者椭圆。 …

自动做市商AMM

自动做市商&#xff08;AMM&#xff09;&#xff1a;重塑去中心化金融的市场机制 1、为什么需要AMM&#xff1f; 在传统金融市场中&#xff0c;做市商通过提供买卖双方的报价来维持市场的流动性和稳定性。然而&#xff0c;在去中心化金融&#xff08;DeFi&#xff09;领域&am…

linux screen

计算机最开始只有黑白界面,我们通过键盘设备输入字符进行编程等行为进行编程, 让计算机完成我们设定的任务. 随着计算机技术及硬件的发展, 黑白屏幕被图形界面替代, 应用程序的 GUI 界面操作成为主流, 只有远程终端由于带宽占用少,实时性高等优点一直存在到现在. 然后有时由于网…

FFmpeg开发笔记(四十三)使用SRS开启SRT协议的视频直播服务

《FFmpeg开发实战&#xff1a;从零基础到短视频上线》一书在第10章介绍了轻量级流媒体服务器MediaMTX&#xff0c;通过该工具可以测试RTSP/RTMP等流媒体协议的推拉流。不过MediaMTX的功能实在是太简单了&#xff0c;无法应用于真实直播的生产环境&#xff0c;真正能用于生产环境…

java项目总结2

3.了解Java的内存分配 4.重载 定义&#xff1a;在一个类中&#xff0c;有相同名的&#xff0c;但是却是不同参数&#xff08;返回类型可以不一样&#xff09; 重载的优点&#xff1a; 1.减少定义方法时使用的单词 2.减少调用方法时候的麻烦&#xff08;比如sum的返回两个数的…

AUTOSAR汽车电子嵌入式编程精讲300篇-智能网联汽车CAN总线-基于迁移学习的驾驶行为评价方法

目录 前言 驾驶行为评价相关研究 系统模型和应用价值 挑战和解决方案 迁移学习在汽车工业中的应用 算法模型 驾驶行为评价模型的设计 驾驶行为数据的收集和预处理 驾驶行为评价模型的搭建 实验环境和数值结果 实验环境 MTL网络性能分析 前言 随着5G、GPS导航、…

《UDS协议从入门到精通》系列——图解0x84:安全数据传输

《UDS协议从入门到精通》系列——图解0x84&#xff1a;安全数据传输 一、简介二、数据包格式2.1 服务请求格式2.2 服务响应格式2.2.1 肯定响应2.2.2 否定响应 Tip&#x1f4cc;&#xff1a;本文描述中但凡涉及到其他UDS服务的&#xff0c;将陆续提供链接跳转方式以便快速了解他…

Python 3 CGI编程

Python 3 CGI编程 引言 CGI(Common Gateway Interface)是一种重要的互联网技术,它允许 web 服务器执行外部程序来处理用户请求,并生成动态内容。尽管现代 web 开发中 CGI 的使用已经不如以前那么普遍,被诸如 PHP、Python 的 WSGI、Java 的 Servlet 等技术所取代,但了解…

以太坊DApp交易量激增83%的背后原因解析

引言 最近&#xff0c;以太坊网络上的去中心化应用程序&#xff08;DApp&#xff09;交易量激增83%&#xff0c;引发了广泛关注和讨论。尽管交易费用高达2.4美元&#xff0c;但以太坊仍在DApp交易量方面遥遥领先于其他区块链网络。本文将深入探讨导致这一现象的主要原因&#…

机器人控制系列教程之Delta机器人奇异性分析

并联机器人奇异性 对于并联机构的奇异性问题比串联机构复杂。某些位形机构会失去自由度&#xff0c;某些位形机构会出现不可控自由度。其分析方法主要有几何法和代数法&#xff0c; 几何法&#xff1a; 即根据高等空间相关知识和机构中角度范围、干涉条件等推导出机构的奇异位…

力扣Hot100-19删除链表的倒数第n个节点(双指针)

给你一个链表&#xff0c;删除链表的倒数第 n 个结点&#xff0c;并且返回链表的头结点。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5], n 2 输出&#xff1a;[1,2,3,5]示例 2&#xff1a; 输入&#xff1a;head [1], n 1 输出&#xff1a;[]示例 3&#xff1a;…

OpenCV 图像最小外包围矩形的绘制及长短边的计算

目录 一、概述 1.1意义 1.2应用 二、代码实现 三、实现效果 3.1原始图像 3.2处理后图像 3.3数据输出 一、概述 最小外包围矩形&#xff08;Minimum Bounding Rectangle, MBR&#xff09;在计算机视觉和图像处理中的意义和应用非常广泛。它是指能够完全包围目标的最小矩…