【Ruby爬虫01】某吃瓜网站图片数据采集

介绍

由于最近在学习Ruby,写一个爬虫锻炼一下。涉及xml解析、多线程、xpath语法等基础知识。

实现代码

使用说明

使用前请先安装如下gem

gem install  nokogiri http openssl# nokogiri:一个解析xml和html的库,支持css、xpath语法
# http:一个发送http请求的库
源代码
require 'nokogiri'  
require 'openssl'  
require 'time'  
require 'http'  
require 'thread'  # 由于网站涉不良内容,网站已编码,自行研究解码方式  
BASE_URL = 'l5VKR[9`aI10.P;m*LzIh,]@P17&0^F' # AES-128-CBC解密 ,网站图片有加密,需要解密 
def aes_128_cbc_decrypt(encrypted_data, key = 'f5d965df75336270', iv = '97b60394abc2fbe1')  aes = OpenSSL::Cipher.new('aes-128-cbc')  aes.decrypt  aes.key = key  aes.iv = iv  aes.padding = 0  # 禁用填充  aes.update(encrypted_data) + aes.final  
end  # 获取页面  
def get_page_doc(page_url)   begin    # 使用HTTP.follow自动跟随重定向  resp = HTTP.follow.get(page_url)  # 转换为doc  doc = Nokogiri::HTML(resp.body.to_s)  rescue Exception => e  puts e.message  end  doc  
end  # 获取列表页面  
def fetch_list_urls(doc)  page_list = []  urls = []  infos = []  # 获取页面链接地址  doc.xpath('//*[@id="archive"]/article/a/@href').each do |link|  # 添加  urls << BASE_URL + link  end  # 匹配标题及发布时间  doc.xpath('//*[@class="post-card"]/div[2]/div').each do |title|  info = {}  if title.content.gsub(/\s+/,'')!=''  # 获取标题  t = title.xpath('h2[@class="post-card-title"]/text()')[0].content  # 获取发布时间  time_str = title.xpath('div[@class="post-card-info"]/span[2]/@content')[0].content  publish_time = Time.parse(time_str).strftime('%Y/%m/%d')  info['title'] , info['publish_time']= t ,publish_time  infos << info  else  # 内容为空的都为广告  info['title'], info['publish_time'] = '',''  infos << info  end  end  # 转换hash对象  urls.each_with_index do |url, i|  page= {'url' => url,'title'=>infos[i]['title'],'publish_time'=> infos[i]['publish_time']}  page_list << page  end  # 返回page_list  page_list  
end  # 获取某一页的图片  
def fetch_page(title,page_url)   doc = get_page_doc(page_url)  # 去除特殊字符,不然创建目录会失败,windows环境  title = title.gsub(/[“”:、\-*<>?\|\/?!!\s]*/,'')  # filename = "images/#{title}"  filename = File.join(File.dirname($0), "images/#{title}")  unless doc.nil?  # 创建目录  Dir.mkdir(filename) unless Dir.exist?(filename)  # 匹配页面中的图片  urls = doc.xpath('//*[@itemprop="articleBody"]/p/img/@data-xkrkllgl')  # 将url添加进队列  work_queue = Queue.new  urls.each { |img_url| work_queue << img_url }  workers = (1..urls.size).map do |i|  Thread.new(i) do  begin            while (img_url = work_queue.pop(true))  begin  p "下载图片:#{img_url.content}"  # 读取图片数据,设置超时时间为3s  raw_data = HTTP.timeout(3).get(img_url.content).body.to_s  sleep 0.1  # 解密保存  raw_data = aes_128_cbc_decrypt(raw_data)  File.binwrite("#{filename}/image#{i}.jpg", raw_data)  rescue Exception => e  p e.message  next  end            end          rescue ThreadError    end  end    end    workers.map(&:join)  end  
end  def start_crawl  page_index = 1  loop do  begin      url = "#{BASE_URL}category/wpcz/#{page_index}/" # 今日吃瓜页面  p "正在抓取#{page_index}页,地址:#{url}"  doc = get_page_doc(url)  fetch_list_urls(doc).each do |page|  fetch_page(page['title'],page['url'])  end  # 匹配下一页按钮  next_page_xpath = '//*[@class="page-navigator"]/ol/li[@class="btn btn-primary next"]/a/text()'  # 退出抓取的条件  break if  doc.xpath(next_page_xpath)[0].content != "下一页"  # 抓取下一页  page_index += 1  sleep 0.1  rescue Exception => e  p e.message  page_index += 1  next  end  endend  # 执行抓取方法  
if __FILE__==$0  start_crawl  
end

本文由【产品经理不是经理】gzh 同步发布,欢迎关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/28634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文了解Redis

一.什么是Redis 与MySQL一样&#xff0c;Redis也是客户端服务器结构的程序&#xff0c;是基于内存的键值对存储系统&#xff0c;属于NoSQL的一种。与很多键值对数据库不同的是&#xff0c;Redis 中的值可以是由 string&#xff08;字符串&#xff09;、hash&#xff08;哈希&a…

高速缓存是怎么让CPU找到地址内容的?

这个场景在性能优化下&#xff0c;应该很少会用到。但是还是总结一下。 Input: CPU给的一个地址&#xff0c;例如 0xffads1233423 Out: 这个地址上的值。 WORKFLOW CPU 问高速缓存&#xff0c;高速缓存会拿这个地址的中间几个位置&#xff0c;组成一个key高速缓存拿着这个ke…

数学中的虚数单位 i 和电学中的虚数单位 j

什么是虚数&#xff1f; 虚数是扩展实数概念的一类数&#xff0c;能够解决某些在实数范围内无法解决的问题。虚数的基本单位是 (i)&#xff0c;定义为&#xff1a; i − 1 i \sqrt{-1} i−1 ​ 这意味着 (i) 的平方是 -1&#xff1a; i 2 − 1 i^2 -1 i2−1 为什么需要虚…

【算法专题--链表】删除排序链表中的重复元素II -- 高频面试题(图文详解,小白一看就懂!!)

目录 一、前言 二、题目描述 三、解题方法 ⭐ 双指针 -- 采用 哨兵位头节点 &#x1f95d; 什么是哨兵位头节点&#xff1f; &#x1f34d; 解题思路 &#x1f34d; 案例图解 四、总结与提炼 五、共勉 一、前言 删除排序链表中的重复元素II元素这道题&#xff0c…

【JKI SMO】框架讲解(二)

JKI State Machine 讲解 将JKI State Machine 模板拖曳到程序框图中&#xff0c; 如下图&#xff0c; 此模板会默认放置一个OK按钮在前面板中&#xff0c;用于提示用户如何增加一个简单的用户事件去使用此框架。 “Event Structure”&#xff0c;Idle&#xff1a;此分支可以设…

【JS重点17】原型链(面试重点)

一&#xff1a;原型链底层原理 以下面一段代码为例&#xff0c;基于原型对象&#xff08;Star构造函数的原型对象&#xff09;的继承使得不同构造函数的原型对象关联在一起&#xff08;此处是最大的构造函数Object原型对象&#xff09;&#xff0c;并且这种关联的关系是一种链…

C#联合Halcon机器视觉框架源码—升级版

相较于之前的NxtVision&#xff0c;本软件代码架构更加合理&#xff0c;且新增ui设计器、原来的vb脚本改为C#脚本&#xff0c;并尝试将视觉与运动控制相结合&#xff0c;是一体化的框架。 对源码有需求的&#xff0c;订阅本专栏后&#xff0c;私信我领取。

活动集锦 | 英码科技积极参与行业盛会,AI赋能城市数字化转型

在当今数字经济时代&#xff0c;城市全域数字化转型已经成为提升城市管理效能、优化资源配置、推动经济发展的重要手段。英码科技始终致力于为企业打造高效、低成本的行业应用方案&#xff0c;助力企业实现数字化转型。近日&#xff0c;英码科技受邀参加了多场行业展示活动&…

华为OD刷题C卷 - 每日刷题 23(提取字符串中的最长表达式,模拟目录管理功能 - 完整实现)

1、提取字符串中的最长表达式 目标是从一个给定的字符串中提取出最长的合法简单数学表达式&#xff0c;并计算该表达式的值。如果存在多个同样长度的合法表达式&#xff0c;则选择第一个出现的表达式进行计算。 简单数学表达式的规则&#xff1a; 只包含0-9的数字和、-、*三种…

操作系统复习-线程同步

互斥量 两个线程的指令交叉执行互斥量可以保证先后执行称为原子性 原子性是指一系列操作不可被中断的特性这一系列操作要么全部执行完成&#xff0c;要么全部没有执行不存在部分执行部分未执行的情况 互斥锁 互斥量是最简单的线程同步的方法互斥锁&#xff0c;处于两态之一的…

01 飞行器设计 —— 一门独立的学科

01 飞行器设计 —— 一门独立的学科 01 引言02 飞机设计概述2-1 什么是飞机设计&#xff1f;2-1 飞机设计是从哪里开始的&#xff1f;2-2 如何成为一名飞机设计师&#xff1f;2-4 本书的组织 参考文献 说明&#xff1a;关于Raymer的《Aircraft Design》的读书笔记&#xff1b; …

解读ROS功能包模块的步骤

系列文章目录 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 TODO:写完再整理 文章目录 系列文章目录前言解读ROS功能包模块的步骤前言 认知有限,望大家多多包涵,有什么问题也希望能够与大家多交流,共同成长! 推荐开发经验及方法博客专栏: [https:/…

哇塞,超好吃的麻辣片,一口就爱上

最近&#xff0c;我发现了一款让人欲罢不能的美食——食家巷麻辣片&#xff01;&#x1f60d; 一打开包装&#xff0c;那浓郁的麻辣香气就扑鼻而来&#xff0c;瞬间刺激着我的嗅觉神经。&#x1f603;食家巷麻辣片的外观色泽鲜艳&#xff0c;红通通的一片&#xff0c;看着就特…

扩展动态数据统计

以下是三种主要的方式来实现您的需求&#xff0c;分别使用原生的HTML/JavaScript、Vue.js框架和React框架。 1. 使用原生HTML/JavaScript 添加复杂度类型选择 <div class"complexity-type-select"><label>选择复杂度类型&#xff1a;</label>&l…

Android断点续传原理及实现

常见两种网络请求方式 一、 HttpURLConnection HttpURLConnection的setRequestProperty()方法&#xff0c;对我们要读取的字节部分进行控制&#xff0c;比如: 1.Range0-100代表只读取前100个字节。 2.Range100-500代表读取从第100个字节开始&#xff0c;读到第500个字节为止。…

常见的宽基指数基金

指数基金投资指南 ❝ 这篇博客里面的内容主要来自于银行螺丝钉的《定投十年&#xff0c;财务自由》和《指数基金投资指南》这两本书中章“常见的宽基指数”&#xff0c;最近第三次读这本书&#xff0c;打算做一点笔记加深自己的印象。 博客中很多内容是从书中摘抄的&#xff0c…

【git使用三】git工作机制与命令用法

目录 git工作机制和相关概念 四个重要区域 分支的概念 上传代码到远程分支的基本流程 克隆代码 仓库同步 开发者如何提交代码到远程仓库分支 1.初始化本地仓库 2.关联本地仓库和远程仓库 创建关联 查看关联情况 如何解除关联 3.推送代码到远程仓库 3.1先下拉远程…

PyTorch计算机视觉入门:测试模型与评估,对单帧图片进行推理

在完成模型的训练之后&#xff0c;对模型进行测试与评估是至关重要的一步&#xff0c;它能帮助我们理解模型在未知数据上的泛化能力。本篇指南将带您了解如何使用PyTorch进行模型测试&#xff0c;并对测试结果进行分析。我们将基于之前训练好的模型&#xff0c;演示如何加载数据…

解决老毛子路由器自带微信提示功能无法触发问题

新买了一个二手的RM AC2100&#xff0c;刷了老毛子后&#xff0c;发现自带的上下线微信提示无法使用(方糖公众号无信息) 经我开启SSH&#xff0c;将上下线部分代码拿出来调试发现&#xff0c;发不出来的原因是原版信息发送长度过长&#xff0c;需要截取一部分才能发送成功。 …

【Android面试八股文】说一说JVM、DVM(Dalvik VM)和ART的区别

文章目录 1. JVM(Java Virtual Machine):2. DVM(Dalvik Virtual Machine):与JVM区别基于的架构不同执行的字节码不同3. ART(Android Runtime):与DVM的区别4. 什么是JIT?4.1 什么是JIT4.2 JIT 编译的优势包括:4.3 对于 DVM 和 ART,它们在 JIT(Just-In-Time)编译方…