【Go程序】爬虫获取豆瓣Top250

        之前在网上下载了一个minigame的开源项目,就是电影日历。里面有一项使用了豆瓣的API,获取豆瓣的Top250的电影。但是由于豆瓣的OpenAPI改版了,又不好申请到OpenAPI的资格,想想也不是什么非法的事情,就稍微搞几部电影名字嘛。

        一般来讲,我们经常用Python写爬虫来解析数据,主要是因为request库和beautifulsoup4库过于好用了点,每次都会忘记怎么用,每次看个例子又能用起来了。今天想想要不用Go来实现把,毕竟现在的程序用go写起来也很顺手了。

        这里需要用到一个库,goquery,功能和bs4一样,用于解析获取到的xml,然后net/http方法用于替代python的request库。动手把。

package mainimport ("fmt""log""math/rand""net/http""time""github.com/PuerkitoBio/goquery"
)// randomUserAgent 返回一个随机的 User-Agent 字符串
func randomUserAgent() string {userAgents := []string{"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36","Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.106 Safari/537.36","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:89.0) Gecko/20100101 Firefox/89.0","Mozilla/5.0 (Macintosh; Intel Mac OS X 10.15; rv:89.0) Gecko/20100101 Firefox/89.0",}rand.Seed(time.Now().UnixNano())return userAgents[rand.Intn(len(userAgents))]
}func fetch(url string) (*goquery.Document, error) {req, err := http.NewRequest("GET", url, nil)if err != nil {return nil, err}userAgent := randomUserAgent()req.Header.Set("User-Agent", userAgent)client := &http.Client{}resp, err := client.Do(req)if err != nil {return nil, err}if resp.StatusCode != http.StatusOK {return nil, fmt.Errorf("request failed with status code: %d", resp.StatusCode)}defer resp.Body.Close()doc, err := goquery.NewDocumentFromReader(resp.Body)if err != nil {return nil, err}return doc, nil
}func main() {baseURL := "https://movie.douban.com/top250"for page := 1; page <= 10; page++ { // 假设每页25部电影,共10页url := fmt.Sprintf("%s?start=%d&filter=", baseURL, (page-1)*25)doc, err := fetch(url)if err != nil {log.Fatal(err)}doc.Find(".item").Each(func(i int, s *goquery.Selection) {title := s.Find(".title").First().Text()rating := s.Find(".rating_num").First().Text()votes := s.Find(".star .pl").First().Prev().Text()fmt.Printf("Movie %d: %s, Rating: %s, Votes: %s\n", i+(page-1)*25+1, title, rating, votes)})}
}

得到结果如下

Movie 1: 肖申克的救赎, Rating: 9.7, Votes: 
Movie 2: 霸王别姬, Rating: 9.6, Votes: 
Movie 3: 阿甘正传, Rating: 9.5, Votes: 
Movie 4: 泰坦尼克号, Rating: 9.5, Votes: 
Movie 5: 千与千寻, Rating: 9.4, Votes: 
Movie 6: 这个杀手不太冷, Rating: 9.4, Votes: 
Movie 7: 美丽人生, Rating: 9.5, Votes: 
…………

我们对代码解释一下:

这段 Go 代码是一个简单的网页爬虫,用于抓取豆瓣电影 Top 250 列表中的电影标题、评分和投票数。下面是代码的详细解释:
1. 导入包:
        main:主包。
        fmt, log, math/rand, net/http, time:标准库包,分别用于格式化输出、日志记录、生成随机数、处理 HTTP 请求和时间操作。
        "github.com/PuerkitoBio/goquery":一个用于解析 HTML 文档的第三方库。
2. randomUserAgent 函数:
        定义了一个字符串切片 userAgents,其中包含了多个不同的 User-Agent 字符串。
        使用 rand.Seed(time.Now().UnixNano()) 初始化随机数生成器。
        函数返回 userAgents 切片中的一个随机元素作为 User-Agent。
3. fetch 函数:

  • 创建一个新的 HTTP GET 请求。
  • 设置请求头的 User-Agent 字段为一个随机值。
  • 使用 http.Client 发送请求并获取响应。
  • 检查 HTTP 响应状态码,如果不是 http.StatusOK(即 200 OK),则返回错误。
  • 使用 goquery.NewDocumentFromReader 从响应体创建一个 goquery.Document 对象。
  • 返回文档对象或错误。

4. main 函数:

  • 定义了豆瓣电影 Top 250 的基础 URL。
  • 循环遍历 10 页(假设每页有 25 部电影)。
  • 构造每一页的完整 URL。
  • 调用 fetch 函数获取页面的 goquery.Document。
  • 使用 doc.Find(".item") 查找所有具有类 .item 的元素,这些元素代表单个电影条目。
  • 对于每个找到的电影条目,提取标题、评分和投票数。
  • 打印提取的信息。

代码中使用了 goquery 库来解析和选择 HTML 元素,以及 log.Fatal 来记录并终止程序在遇到错误时的运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/48847.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Mojo模型魔法:动态定制特征转换的艺术

标题&#xff1a;Mojo模型魔法&#xff1a;动态定制特征转换的艺术 在机器学习领域&#xff0c;模型的灵活性和可扩展性是至关重要的。Mojo模型&#xff08;Model-as-a-Service&#xff09;提供了一种将机器学习模型部署为服务的方式&#xff0c;允许开发者和数据科学家轻松地…

一个简单好用安全的开源交互审计系统,支持SSH,Telnet,Kubernetes协议(带私活)

前言 在当今的企业网络环境中&#xff0c;远程访问和交互审计成为了保障网络安-全的重要组成部分。然而&#xff0c;现有的解-决方案往往存在一些痛点&#xff0c;如复杂的配置、有限的协议支持、以及审计功能的不足。这些问题不仅增加了IT管理员的负担&#xff0c;也为企业的…

【大数据专题】Flink题库

1 . 简述什么是Apache Flink &#xff1f; Apache Flink 是一个开源的基于流的有状态计算框架。它是分布式地执行的&#xff0c;具备低延迟、高吞吐的优秀性能&#xff0c;并且非常擅长处理有状态的复杂计算逻辑场景 2 . 简述Flink 的核心概念 &#xff1f; Flink 的核心概念…

基于R语言复杂数据回归与混合效应模型【多水平/分层/嵌套】技术与代码

回归分析是科学研究特别是生态学领域科学研究和数据分析十分重要的统计工具&#xff0c;可以回答众多科学问题&#xff0c;如环境因素对物种、种群、群落及生态系统或气候变化的影响&#xff1b;物种属性和系统发育对物种分布&#xff08;多度&#xff09;的影响等。纵观涉及数…

HarmonyOS NEXT零基础入门到实战-第四部分

自定义组件: 概念: 由框架直接提供的称为 系统组件&#xff0c; 由开发者定义的称为 自定义组件。 源代码&#xff1a; Component struct MyCom { build() { Column() { Text(我是一个自定义组件) } } } Component struct MyHeader { build() { Row(…

路由器ip地址脱机是什么意思?怎么应对

在数字化时代&#xff0c;路由器作为家庭或企业网络连接的核心设备&#xff0c;其稳定性和连通性对于我们的网络体验至关重要。然而&#xff0c;有时我们可能会遇到路由器IP地址显示脱机的情况&#xff0c;这不仅影响了我们的网络访问&#xff0c;还可能对工作和娱乐造成不便。…

【C语言】 约瑟夫环,循环链表实现

1、循环链表实现约瑟夫环&#xff0c;每次经过特定步数删除一个元素 //looplist.h #ifndef LOOPLIST_H #define LOOPLIST_H #include<stdio.h> #include<string.h> #include<stdlib.h>typedef int datatype;typedef struct Node {union {int len;datatype d…

Elasticsearch:Java ECS 日志记录 - log4j2

ECS 记录器是你最喜欢的日志库的格式化程序/编码器插件。它们可让你轻松将日志格式化为与 ECS 兼容的 JSON。ECS 兼容的 JSON 日志记录可以帮我们简化很多分析&#xff0c;可视化及解析的工作。在今天的文章里&#xff0c;我来详述如何在 Java 应用里生成 ECS 相兼容的日志。 …

tensorflow keras Model.fit returning: ValueError: Unrecognized data type

题意&#xff1a;TensorFlow Keras 的 Model.fit 方法返回了一个 ValueError&#xff0c;提示数据类型无法识别 问题背景&#xff1a; Im trying to train a keras model with 2 inputs: an image part thats a tf.data.Dataset and a nor mal part represented by a pd.DataF…

oracle 两行完全相同怎么比较

在Oracle数据库中&#xff0c;要比较两行数据是否完全相同&#xff0c;即比较这两行在所有列上的值是否都相等&#xff0c;可以通过编写SQL查询语句来实现。以下是一些常用的方法&#xff1a; 方法一&#xff1a;使用子查询和EXISTS 这种方法通过子查询来检查是否存在与当前行…

Mojo模型动态批处理:智能预测的终极武器

标题&#xff1a;Mojo模型动态批处理&#xff1a;智能预测的终极武器 在机器学习领域&#xff0c;模型的灵活性和可扩展性是至关重要的。Mojo模型&#xff08;Model-as-a-Service&#xff09;提供了一种将机器学习模型部署为服务的方式&#xff0c;允许开发者和数据科学家轻松…

ActiViz控件解析及C#实践指南

文章目录 1. vtkSliderWidget2. vtkRotateWidget3. vtkButtonWidget4. vtkTextWidget5. vtkImplicitPlaneWidget26. vtkScalarBarWidget7. vtkImageSliceWidget8. vtkHandleWidget9. vtkPointPickerWidget10. vtkSeedWidget1. vtkSliderWidget 功能介绍 vtkSliderWidget是VTK中…

【中项】系统集成项目管理工程师-第4章 信息系统架构-4.5技术架构

前言&#xff1a;系统集成项目管理工程师专业&#xff0c;现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试&#xff0c;全称为“全国计算机与软件专业技术资格&#xff08;水平&#xff09;考试”&…

数据结构之判断平衡二叉树详解与示例(C,C++)

文章目录 AVL树定义节点定义计算高度获取平衡因子判断是否为平衡二叉树完整示例代码结论 在计算机科学中&#xff0c;二叉树是一种非常重要的数据结构。它们被广泛用于多种算法中&#xff0c;如排序、查找等。然而&#xff0c;普通的二叉树在极端情况下可能退化成链表&#xff…

动态特征转换的艺术:在Mojo模型中实现自定义变换的策略

动态特征转换的艺术&#xff1a;在Mojo模型中实现自定义变换的策略 在机器学习中&#xff0c;特征转换是数据预处理的关键步骤&#xff0c;它直接影响模型的性能和结果的准确性。Mojo模型&#xff0c;作为一种高效的模型部署形式&#xff0c;允许在不同环境中运行模型并进行预…

C#基于SkiaSharp实现印章管理(4)

前几篇文章实现了绘制不同外形印章的功能&#xff0c;印章内部一般包含圆形、线条等形状&#xff0c;有些印章内部还有五角星&#xff0c;然后就是各种样式的文字。本文实现在印章内部绘制圆形、线条、矩形、椭圆等四种形状。   定义FigureType枚举记录印章内部形状&#xff…

图像处理 -- ISP调优(tuning)的步骤整理

ISP调优流程培训文档 1. 硬件准备 选择合适的图像传感器&#xff1a;根据项目需求选择合适的传感器型号。搭建测试环境&#xff1a;包括测试板、光源、色彩卡和分辨率卡等。 2. 初始设置 寄存器配置&#xff1a;初始化传感器的寄存器设置&#xff0c;包括曝光、增益、白平衡…

pcie数据传输

一 数据传输通道总体设计 在上传数据时首先将 FPGA 中数据缓存到 DDR3 存储器&#xff0c;然后上位机请求后把数据从DDR3 存储器中取出并通过 PCIE 总线将数据传输到上位机&#xff1b;在下传数据时上位机中的数据首先通过 PCIE 总线下传至 FPGA&#xff0c;FPGA 读取这些数据并…

RabbitMQ+redis+Redisson分布式锁+seata实现订单服务

引言 订单服务涉及许多方面&#xff0c;分布式事务&#xff0c;分布式锁&#xff0c;例如订单超时未支付要取消订单&#xff0c;订单如何防止重复提交&#xff0c;如何防止超卖、这里都会使用到。 开启分布式事务可以保证跨多个服务的数据操作的一致性和完整性&#xff0c;使…

技术文档总结----思维导图

性能调优| ProcessOn免费在线作图,在线流程图,在线思维导图 mysql| ProcessOn免费在线作图,在线流程图,在线思维导图 kafka| ProcessOn免费在线作图,在线流程图,在线思维导图 mybatis缓存| ProcessOn免费在线作图,在线流程图,在线思维导图 java锁| ProcessOn免费在线作图,在…