Go编程:使用 Colly 库下载Reddit网站的图像

亿牛云

概述

Reddit是一个社交新闻网站,用户可以发布各种主题的内容,包括图片。本文将介绍如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。为了避免被目标网站反爬,我们还将使用亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性。

正文

Colly库简介

Colly是一个用Go语言编写的功能强大的爬虫框架。它提供了简洁的API,拥有强劲的性能,可以自动处理cookie和session,还有提供灵活的扩展机制。Colly支持多种数据格式的解析,如HTML、XML、JSON等,还支持分布式爬取、限速、缓存、重试等功能。

亿牛云爬虫代理简介

亿牛云爬虫代理是一种专业的代理服务,通过固定云代理服务地址,建立专线网络链接,代理平台自动实现海量IP池管理及负载均衡,实时无感的毫秒级代理IP切换,提供企业级云服务的网络稳定性及请求响应速度,同时降低了客户端运算负载压力,避免了爬虫客户在代理IP策略优化上投入精力,整体提升了爬虫效率。

爬虫程序设计

我们的爬虫程序主要分为以下几个步骤:

  • 创建一个Colly实例,并设置相关选项和回调函数
  • 登录亿牛云后台,获取代理相关信息(域名、端口、用户名、密码),并设置到Colly实例中
  • 访问Reddit网站,根据指定的主题(subreddit)和过滤条件(filter),获取图片链接
  • 下载图片,并保存到本地文件夹中

爬虫程序代码

package mainimport ("fmt""io""log""net/http""net/url""os""path/filepath""strings""github.com/gocolly/colly/v2"
)// 定义常量
const (subreddit = "pics" // 主题filter    = "top"  // 过滤条件limit     = 10     // 图片数量限制output    = "images" // 输出文件夹// 亿牛云爬虫代理相关信息(需登录后台获取)proxyHost = "www.16yun.cn" // 域名proxyPort = 6443           // 端口proxyUser = "16YUN"        // 用户名proxyPass = "16IP"         // 密码
)func main() {// 创建一个Colly实例c := colly.NewCollector(colly.AllowedDomains("www.reddit.com", "old.reddit.com", "i.redd.it", "i.imgur.com"),)// 设置代理(使用亿牛云爬虫代理服务)err := c.SetProxyFunc(func(r *http.Request) (*url.URL, error) {return url.Parse(fmt.Sprintf("http://%s:%s@%s:%d", proxyUser, proxyPass, proxyHost, proxyPort))})if err != nil {log.Fatal(err)}// 创建一个计数器,用于限制图片数量count := 0// 注册HTML回调函数,用于解析图片链接c.OnHTML("a[href]", func(e *colly.HTMLElement) {// 获取链接地址link := e.Attr("href")// 过滤非图片链接if !strings.HasSuffix(link, ".jpg") && !strings.HasSuffix(link, ".png") {return}// 限制图片数量if count >= limit {return}// 访问图片链接c.Visit(link)})// 注册图片回调函数,用于下载图片c.OnResponse(func(r *colly.Response) {// 获取图片URLurl := r.Request.URL.String()// 获取图片文件名filename := filepath.Base(url)// 创建输出文件夹(如果不存在)if _, err := os.Stat(output); os.IsNotExist(err) {os.Mkdir(output, 0755)}// 创建图片文件file, err := os.Create(filepath.Join(output, filename))if err != nil {log.Fatal(err)}defer file.Close()// 写入图片数据file.Write(r.Body)fmt.Printf("下载图片:%s\n", url)count++})c.OnError(func(r *colly.Response, err error) {fmt.Printf("请求失败:%s\n", r.Request.URL)fmt.Println(err)})c.OnRequest(func(r *colly.Request) {fmt.Printf("请求开始:%s\n", r.URL)})c.OnResponse(func(r *colly.Response) {fmt.Printf("请求完成:%s\n", r.Request.URL)})c.OnScraped(func(r *colly.Response) {fmt.Println("爬取结束")})fmt.Println("爬取开始")c.Visit(fmt.Sprintf("https://old.reddit.com/r/%s/%s/", subreddit, filter))
}

结语

本文介绍了如何使用Go语言和Colly库编写一个简单的爬虫程序,从Reddit网站上下载指定主题的图片,并保存到本地文件夹中。同时,我们还使用了亿牛云爬虫代理服务,通过动态切换代理IP来提高爬取效率和稳定性,希望本文对你有所帮助。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/107165.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++入门篇(3)---引用

1.引用 你有没有被人起过外号?比如身边的朋友,喊他的时候不会叫他的全名,像我很好的朋友,我一般都喜欢叫他"阿威",而不会去称呼全名.我叫他"阿威",他还是他没有什么问题. 这里新登场的引用不是新定义一个变量,而是给已存在变量取了一个别名&am…

多线程使用处理数据库导致锁表解决办法

问题描述: 当使用ON DUPLICATE KEY UPDATE的sql来访问时, 可能会出现多个线程同时写入一个已有的数据里。 解决办法: 使用 REPLACE INTO 原因: 保持更好的并发性:REPLACE INTO 在插入记录时会先删除原有记录&#xf…

数据结构---二叉树

树是一种非线性的数据结构,它是由n(n>0)个有限结点组成一个具有层次关系的集合。把它叫做树是因为它看起来像一棵倒挂的树,也就是说它是根朝上,而叶朝下的。 树形结构中,子树之间不能有交集,…

Ubuntu22常用软件

别存太多重要东西在Ubuntu ,硬盘损坏就麻烦 Tweaks自定义UI sudo apt intall gnome-tweaks为了方便管理和添加,还需添加: sudo apt install gnome-shell-extension-prefs gnome-shell-extension-manager -y1.打开Extension应用,添…

1.Vue-在独立页面实现Vue的增删改查

题记 在独立页面实现Vue的增删改查&#xff0c;以下是具体的代码&#xff0c;和操作流程。 编写index.html页面 index.html文件如下&#xff1a; <!DOCTYPE html> <html> <head><title>Vue CRUD Example</title><!--在线导入vue文件-->&l…

如何在自动化测试中使用MitmProxy获取数据返回?

背景介绍 当我们在接口或UI自动化项目中&#xff0c;常常会出现这种现象——明明是正常请求&#xff0c;却无法获取到想要的数据返回。 比如&#xff1a; 场景A&#xff1a;页面是动态数据&#xff0c;第一次进入页面获取到的数据&#xff0c;和下次进入页面获取到的数据完全…

ASEMI整流桥GBJ2510参数:拆析其关键性能特点

编辑-Z 在众多的电力电子元件中&#xff0c;GBJ2510整流桥以其高效能和可靠性赢得了工业领域的广泛认可。这款设备是在电力系统、直流电源等一系列设备中不可或缺的组件。本文将详细反析GBJ2510整流桥参数的关键性能特点&#xff0c;以帮助用户更加全面地理解和使用这种电子设…

Blender:制作一个变形动画

就是一个球逐渐地变为一个立方体 首先创建一个球和一个立方体 然后把两个物体放在一起&#xff0c;放缩球&#xff0c;让球包含立方体 之后选中球&#xff0c;为其添加修改器&#xff0c;缩裹 在这里选择缩裹对象为立方体 然后在应用下拉箭头中选择“应用为形态键” 下一步选中…

数字格式化

数字格式化 具体实现如下&#xff1a; 定义一个名为 num 的变量&#xff0c;表示需要格式化的数字字符串。使用 replace 函数对 num 变量的值进行替换操作&#xff0c;使用正则表达式 /(?\B(\d{3})$)/g 匹配数字字符串中每个不是开头的三位数字&#xff0c;并在其前面添加一…

尚硅谷Flink(二)DStream API

目录 &#x1f320;不会点 &#x1fa90;DataStream API ​编辑 &#x1f320; 执行环境 创建执行环境 执行模式 触发程序执行 &#x1f320;源算子 准备基础类型 从集合中读取数据 从文件读取数据 从 Socket 读取数据 从 Kafka 读取数据 &#xff08;没学过&#xff09; …

【MATLAB-Retinex图像增强算法的去雾技术】

续&#xff1a;【MATLAB-基于直方图优化的图像去雾技术】 【MATLAB-Retinex图像增强算法的去雾技术】 1 原图2 MATLAB实现代码3 结果图示 参考书籍&#xff1a;计算机视觉与深度学习实战:以MATLAB、Python为工具&#xff0c; 主编&#xff1a;刘衍琦, 詹福宇&#xff0c; 王德建…

【ElasticSearch】使用 Java 客户端 RestClient 实现对文档的查询操作,以及对搜索结果的排序、分页、高亮处理

文章目录 前言&#xff1a;RestClient 查询文档的 RestAPI一、全文检索查询1.1 match_all 查询1.2 match 查询1.3 multi_match 查询 二、精确查询2.1 term 查询2.2 range 查询 三、复合查询&#xff1a;Boolean 查询与 function score 查询的综合案例四、对查询结果的处理4.1 将…

ArcGIS笔记5_生成栅格文件时保存报错怎么办

本文目录 前言Step 1 直接保存到指定文件夹会报错Step 2 先保存到默认位置再数据导出到指定文件夹 前言 有时生成栅格文件时&#xff0c;保存在自定义指定的文件夹内会提示出错&#xff0c;而保存到默认位置则没有问题。因此可以通过先保存到默认位置&#xff0c;再数据导出到…

C++-标准库 std::pair的三种构造函数

std::pair有三种构造函数形式 pair(const T1& x,const T2& y); pair(U&& x, V&& y); template <typename... Args1, typename... Args2> pair(piecewise_construct_t, tuple<Args1...> first_args,tuple<Args2...> second_args);前…

image标签图片变形

官方提供了自己的方法&#xff0c;只需要给image标签添加mode属性即可&#xff0c;在对应上对应的参数即可完美解决。 语法 <image src"http://cdn.duanqinghua.com/duanqinghua/img/65.jpg" mode"aspectFill"></image> mode的合法值 值说…

android 关于admob聚合applovin的坑

//admob嵌入applovinimplementation com.google.ads.mediation:applovin:11.10.1.0<!--applovin广告相关--> <meta-data android:name"applovin.sdk.key"android:value"922wQKbta1GBIrdDsdJQkPza6l1RfGNcc8paoUR1yvs_GcB6WNqMbB4MR7FkV7MGSpsSykXloJUy…

【Eclipse】设置自动提示

前言&#xff1a; eclipse默认有个快捷键&#xff1a;alt /就可以弹出自动提示&#xff0c;但是这样也太麻烦啦&#xff01;每次都需要手动按这个快捷键&#xff0c;下面给大家介绍的是&#xff1a;如何设置敲的过程中就会出现自动提示的教程&#xff01; 先按路线找到需要的页…

来入门一下C语言打印Hello World

&#x1f4da;目录 安装程序官网下载软件启动程序运行代码解决乱码 安装环境&#xff08;必看&#xff09;IntelliJ Clion 环境执行运行的exe出问题了安装MinGW官网&#xff08;太慢了跳过&#xff09;Clion软件的MinGW 在这里插入图片描述 ![在这里插入图片描述](https://img-…

OpenAI开放gpt-3.5turbo微调fine-tuning测试教程

文章目录 openai微调 fine-tuning介绍openai微调地址jsonl格式数据集准备点击上传文件 openai微调 fine-tuning介绍 openai微调地址 网址&#xff1a;https://platform.openai.com/finetune jsonl格式数据集准备 使用Chinese-medical-dialogue-data数据集git clone进行下载 …

18.(开发工具篇Gitlab)Git如何回退到指定版本

首先: 使用git log命令查看提交历史,找到想要回退的版本的commit id. 使用git reset命令 第一步:git reset --hard 命令是强制回到某一个版本。执行后本地工程回退到该版本。 第二步:利用git push -f命令强制推到远程 如下所示: 优点:干净利落,回滚后完全回到最初状态…