Golang爬虫入门指南

引言

网络爬虫是一种自动化程序,用于从互联网上收集信息。随着互联网的迅速发展,爬虫技术在各行各业中越来越受欢迎。Golang作为一种高效、并发性好的编程语言,也逐渐成为爬虫开发的首选语言。本文将介绍使用Golang编写爬虫的基础知识和技巧。

一、环境准备

在开始编写Golang爬虫之前,我们需要先准备好开发环境。首先,确保你已经安装了Golang,并配置好了GOPATH。其次,我们需要安装一些必要的库,比如net/http用于发送HTTP请求,golang.org/x/net/html用于解析HTML等。可以使用go get命令来安装这些库。

go get -u golang.org/x/net/html

二、发送HTTP请求

在编写爬虫之前,我们需要先了解如何发送HTTP请求。Golang提供了net/http包,可以方便地发送GET和POST请求。

package mainimport ("fmt""io/ioutil""net/http"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()body, err := ioutil.ReadAll(resp.Body)if err != nil {fmt.Println("读取响应失败:", err)return}fmt.Println(string(body))
}

上面的代码中,我们使用http.Get发送了一个GET请求,并得到了响应。然后我们使用ioutil.ReadAll来读取响应的内容,并将其打印出来。

三、解析HTML

一般来说,我们爬取的数据都是存储在HTML中的。因此,我们需要学会如何解析HTML。Golang提供了golang.org/x/net/html包来帮助我们解析HTML。

package mainimport ("fmt""net/http""golang.org/x/net/html"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()doc, err := html.Parse(resp.Body)if err != nil {fmt.Println("解析HTML失败:", err)return}// 在这里进行HTML解析操作...}

上面的代码中,我们使用html.Parse函数来解析HTML,并得到一个表示整个HTML文档的树状结构。在这个树状结构中,我们可以使用不同的方法来查找和提取我们需要的数据。

package mainimport ("fmt""net/http""golang.org/x/net/html"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()doc, err := html.Parse(resp.Body)if err != nil {fmt.Println("解析HTML失败:", err)return}findLinks(doc)
}func findLinks(n *html.Node) {if n.Type == html.ElementNode && n.Data == "a" {for _, a := range n.Attr {if a.Key == "href" {fmt.Println(a.Val)}}}for c := n.FirstChild; c != nil; c = c.NextSibling {findLinks(c)}
}

上面的代码中,我们定义了一个递归函数findLinks来查找HTML中的所有链接。我们使用html.NodeTypeData属性来判断当前节点是否为<a>标签,并使用Attr属性来获取链接的地址。

四、并发爬虫

并发是Golang的一个重要特性,能够提高爬虫的效率。我们可以使用Golang的并发机制来同时发送多个HTTP请求,加快网页的爬取速度。

package mainimport ("fmt""net/http""golang.org/x/net/html"
)func main() {urls := []string{"https://www.example.com/page1","https://www.example.com/page2","https://www.example.com/page3",}ch := make(chan string)for _, url := range urls {go fetch(url, ch)}for range urls {fmt.Println(<-ch)}
}func fetch(url string, ch chan<- string) {resp, err := http.Get(url)if err != nil {ch <- fmt.Sprintf("请求 %s 发送失败:%v", url, err)return}defer resp.Body.Close()doc, err := html.Parse(resp.Body)if err != nil {ch <- fmt.Sprintf("解析 %s 失败:%v", url, err)return}// 在这里进行HTML解析操作...ch <- fmt.Sprintf("请求 %s 完成", url)
}

上面的代码中,我们定义了一个ch通道用于接收爬虫的结果。然后,我们使用go关键字来开启多个协程,每个协程负责爬取一个网页的内容并进行解析。最后,我们使用<-ch来从通道中获取结果并打印出来。

五、数据存储

爬取到的数据通常需要保存到数据库或者文件中。Golang提供了各种数据库驱动和文件操作函数,可以方便地进行数据存储。

package mainimport ("fmt""net/http""golang.org/x/net/html""os""io"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()file, err := os.Create("output.html")if err != nil {fmt.Println("创建文件失败:", err)return}defer file.Close()_, err = io.Copy(file, resp.Body)if err != nil {fmt.Println("保存文件失败:", err)return}fmt.Println("文件保存成功")
}

上面的代码中,我们使用os.Create函数创建了一个名为output.html的文件,并使用io.Copy函数将HTTP响应的内容保存到文件中。

六、案例

案例一:爬取网页标题

package mainimport ("fmt""net/http""golang.org/x/net/html"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()doc, err := html.Parse(resp.Body)if err != nil {fmt.Println("解析HTML失败:", err)return}title := findTitle(doc)fmt.Println("网页标题:", title)
}func findTitle(n *html.Node) string {if n.Type == html.ElementNode && n.Data == "title" {return n.FirstChild.Data}for c := n.FirstChild; c != nil; c = c.NextSibling {title := findTitle(c)if title != "" {return title}}return ""
}

在上面的例子中,我们使用findTitle函数来查找网页的标题。我们通过递归遍历HTML树,如果遇到<title>标签,我们就返回其内容。

案例二:爬取图片链接

package mainimport ("fmt""net/http""golang.org/x/net/html"
)func main() {resp, err := http.Get("https://www.example.com")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()doc, err := html.Parse(resp.Body)if err != nil {fmt.Println("解析HTML失败:", err)return}images := findImages(doc)fmt.Println("图片链接:")for _, img := range images {fmt.Println(img)}
}func findImages(n *html.Node) []string {var images []stringif n.Type == html.ElementNode && n.Data == "img" {for _, attr := range n.Attr {if attr.Key == "src" {images = append(images, attr.Val)}}}for c := n.FirstChild; c != nil; c = c.NextSibling {images = append(images, findImages(c)...)}return images
}

在上面的例子中,我们使用findImages函数来查找网页中的所有图片链接。我们通过递归遍历HTML树,如果遇到<img>标签,我们就将其src属性的值添加到结果集中。

案例三:爬取动态生成内容

package mainimport ("fmt""net/http""io/ioutil"
)func main() {resp, err := http.Get("https://api.example.com/data")if err != nil {fmt.Println("请求发送失败:", err)return}defer resp.Body.Close()body, err := ioutil.ReadAll(resp.Body)if err != nil {fmt.Println("读取响应失败:", err)return}fmt.Println("动态生成内容:", string(body))
}

在上面的例子中,我们通过发送HTTP请求获取了一个动态生成的内容。这个内容可能是通过API接口返回的,而不是直接通过HTML页面展示的。我们使用ioutil.ReadAll函数来读取响应的内容,并将其打印出来。

以上就是三个使用Golang编写爬虫的案例。通过这些案例,你可以更好地理解和应用Golang爬虫的基础知识和技巧。当然,实际的爬虫开发还需要根据具体的需求和场景进行更复杂的处理和优化。希望这些案例对你有所启发,让你能够更好地掌握Golang爬虫的开发。

结论

通过学习本文介绍的知识和技巧,我们可以使用Golang编写一个简单但功能强大的爬虫。当然,爬虫的开发还有很多其他的技术和工具可以学习和使用,但是本文所介绍的内容已经足够帮助我们入门和实践了。希望本文对你有所帮助,也希望你能够继续深入学习和探索爬虫技术的更多细节。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/114842.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

支付风控规则

支付宝使用基本风控规则 一、 6个规则 1、规则一&#xff1a;30分钟内&#xff0c;不要连续刷3笔&#xff08;包括失败交易&#xff09;&#xff0c;两笔交易时间间隔大于5分钟&#xff0c;交易金额不要一样&#xff0c;不要贴近限额&#xff1b; 2、规则二&#xff1a;非正…

ETL工具对比

ETL开发 ETL是英文Extract-Transform-Load的缩写&#xff0c;表示将数据从来源端&#xff0c;经过抽取&#xff0c;转换&#xff0c;加载到目标数据源的过程。 数据抽取 分为全量抽取和增量抽取&#xff0c;数据量达到百万级别建议用增量抽取&#xff0c;小于百万级别可用增…

matlab中绘制 维诺图(Voronoi Diagram)

1.专业术语&#xff08;相关概念&#xff09;&#xff1a; 基点Site&#xff1a;具有一些几何意义的点 细胞Cell&#xff1a;这个Cell中的任何一个点到Cell中基点中的距离都是最近的&#xff0c;离其他Site比离内部Site的距离都要远。 Cell的划分&#xff1a;基点Site与其它的…

Java中的static关键字

一、static关键字的用途 在《Java编程思想》P86页有这样一段话&#xff1a; “static方法就是没有this的方法。在static方法内部不能调用非静态方法&#xff0c;反过来是可以的。而且可以在没有创建任何对象的前提下&#xff0c;仅仅通过类本身来调用static方法。这实际上正是s…

frida中使用gson打印map对象

Java.openClassFile("/data/local/tmp/r0gson.dex").load();const gson Java.use(com.r0ysue.gson.Gson);var Gson Java.use(‘com.google.gson.Gson’).$new(); console.log("map -> " Gson.toJsonTree(map).getAsJsonObject());

JS小数运算出现00000多位小数怎么解决

JS小数运算出现00000多位小数怎么解决 给大家分享一个经典的前端面试题&#xff1a; 0.10.2 0.3 //false javascript中浮点数的计算是以2进制计算的&#xff0c;所以0.10.2变成&#xff1a;0.30000000000000004 解决方案一 首先最简单的是利用JavaScript 的toFixed(n) 方…

app分发的一些流程

应用分发的流程通常包括以下步骤&#xff1a; 开发应用程序&#xff1a;首先&#xff0c;您需要开发您的应用程序。这包括编写代码、设计用户界面、测试应用程序等等。确保您的应用程序符合各个应用商店的规范和要求&#xff0c;以确保顺利通过审核。 准备应用材料&#xff1a…

Element UI定义方法校验邮箱格式

1. .vue中定义了3个邮箱输入框&#xff0c;前面两个是输入多个邮件地址&#xff0c;最后一个是使用element自带的校验来校验单个邮件地址 <el-row><el-col :span"24"><el-form-item label"收件人" prop"to"><el-input v-mo…

Linux系统管理:虚拟机Kylin OS安装

目录 一、理论 1.Kylin OS 二、实验 1.虚拟机Kylin OS安装准备阶段 2.安装Kylin OS 3.进入系统 一、理论 1.Kylin OS &#xff08;1&#xff09;简介 麒麟操作系统&#xff08;Kylin OS&#xff09;亦称银河麒麟&#xff0c;是由中国国防科技大学、中软公司、联想公司…

oracle rac了解

Oracle RAC 是一种高可用性和高性能的数据库解决方案&#xff0c;它允许多台服务器共享同一个数据库。简而言之&#xff0c;Oracle RAC 允许你将多个计算节点连接到一个共享的数据库实例中&#xff0c;从而提供了以下优势&#xff1a; 高可用性&#xff1a;Oracle RAC 提供了故…

Leetcode 2911. Minimum Changes to Make K Semi-palindromes

Leetcode 2911. Minimum Changes to Make K Semi-palindromes 1. 解题思路2. 代码实现 题目链接&#xff1a;2911. Minimum Changes to Make K Semi-palindromes 1. 解题思路 这一题属实也是把我坑惨了…… 坦率地说&#xff0c;这道题本身并没有啥难度&#xff0c;但是坑爹…

【RS】遥感影像/图片64位、16位(64bit、16bit)的意义和区别

在数字图像处理中&#xff0c;我们常常会听到不同的位数术语&#xff0c;比如64位、16位和8位&#xff08;64bit、16bit、8bit&#xff09;。这些位数指的是图像的深度&#xff0c;也就是图像中每个像素可以显示的颜色数。位数越高&#xff0c;图像可以显示的颜色数就越多&…

【SA8295P 源码分析 (二)】109 - QNX 如何实现显示图片到 Screen 显示屏上

【SA8295P 源码分析】109 - QNX 如何实现显示图片到 Screen 显示屏上 一、Screen 介绍1. Screen Client 创建方法介绍1.1 创建 screen_ctx 上下文1.2 创建一个渲染目标 window 窗口1.3 设置渲染目标 window 窗口的属性1.4 创建渲染目标 window 窗口的Buffer1.5 处理图像,渲染窗…

vue3点击表格某个单元格文本就切换成输入框,其他单元格不变化

<el-table :data"data.tableData" height"60vh" border scrollbar-aways-on><el-table-column label"序号" type"index" width"80" fixed /><el-table-column label"操作" width"120" f…

【c++】简单了解运算符重载

引例 class Integer{ public:Integer(int num):_num(num){}int& getValue(){return _num;} private:int _num; };现在有两个Integer对象a,b。想让a和b相加得到的结果给对象c&#xff0c;现在可以肯定的是cab编译后肯定会报错 请注意这条信息no match for operator (oper…

利用TreeMap来达成离散化的目的

假如有一些奶牛&#xff0c;他们有种类的区别&#xff0c;我们设黑色奶牛的id为1000010000&#xff0c;白色为1&#xff0c;诸如此类以此类推还有红色等各种颜色&#xff0c;接下来给你一群奶牛的颜色id让你统计每种颜色的奶牛有几头。 如过我们使用数组显然1000010000会爆空间…

uniapp 打包小程序体积优化思路、优先排查优化项参考

uni_modules 也采用分包 虽然 uniapp 官方说了 uni_modules 会根据使用用到而决定是否要打包过滤&#xff0c;但分包前后还是有区别的&#xff0c;所以我估计此前是理解错了虽然会过滤没用到的&#xff0c;但用到了的也会打包到主包里去&#xff0c;就导致了主包偏大无法上传的…

【Spring Boot 源码学习】HttpEncodingAutoConfiguration 详解

Spring Boot 源码学习系列 HttpEncodingAutoConfiguration 详解 引言往期内容主要内容1. CharacterEncodingFilter2. HttpEncodingAutoConfiguration2.1 加载自动配置组件2.2 过滤自动配置组件2.2.1 涉及注解2.2.2 characterEncodingFilter 方法2.2.3 localeCharsetMappingsCus…

会声会影2024有哪些新功能?好不好用

比如会声会影视频编辑软件&#xff0c;既加入光影、动态特效的滤镜效果&#xff0c;也提供了与色彩调整相关的LUT配置文件滤镜&#xff0c;可选择性大&#xff0c;运用起来更显灵活。会声会影在用户的陪伴下走过20余载&#xff0c;经过上百个版本的优化迭代&#xff0c;已将操作…

html列表

<!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>列表名称</title> </head> <body> <!--有序列表--> <ol><li>java</li><li>python</li><li…