Node.js meitulu图片批量下载爬虫1.051

原有1.05版程序没有断点续传模式,现在在最近程序基础上改写一版1.051.

复制代码
//======================================================
// meitulu图片批量下载爬虫1.051
// 用最近的断点续传框架改写原有1.05版程序
// 2017年11月21日
//======================================================// 内置https模块
var https=require("https");// 内置http模块
var http=require("http");// 用于解析gzip网页(ungzip,https得到的网页是用gzip进行压缩的)
var zlib = require('zlib'); // 内置文件处理模块,用于创建目录和图片文件
var fs=require('fs');// 用于转码。非Utf8的网页如gb2132会有乱码问题,需要iconv将其转码
var iconv = require('iconv-lite');// cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
var cheerio = require("cheerio");// 请求参数JSON。http和https都有使用
var options;// request请求
var req;// 图片数组,找到的图片地址会放到这里
var pictures=[];// 存放图片的目录
var folder="";//--------------------------------------
// 爬取网页,找图片地址,再爬
// pageUrl sample:https://www.meitulu.com/item/12161.html
// pageUrl sample:
//--------------------------------------
function crawl(pageUrl){console.log("Current page="+pageUrl);// 得到hostname和pathvar currUrl=pageUrl.replace("https://","");var pos=currUrl.indexOf("/");var hostname=currUrl.slice(0,pos);        var path=currUrl.slice(pos);    //console.log("hostname="+hostname);//console.log("path="+path);// 初始化options  options={hostname:hostname,port:443,path:path,// 子路径method:'GET',        };req=https.request(options,function(resp){var html = [];resp.on("data", function(data) {html.push(data);})resp.on("end", function() {var buffer = Buffer.concat(html);//var body = buffer.toString();//console.log(body);
zlib.gunzip(buffer, function(err, decoded) {if(err){console.log("[findPageUrls]不能得到页面:"+batchPageUrl+"对应的html文本,错误是:"+err);console.log(err);}else{var body=decoded.toString();   //console.log(body);var $ = cheerio.load(body);        var picCount=0;// 找图片放入数组$(".content  img").each(function(index,element){var picUrl=$(element).attr("src");console.log(picUrl);if(picUrl.indexOf('.jpg')!=-1){pictures.push(picUrl); picCount++;} })   console.log("找到图片"+picCount+"张.");                var nextPageUrl=null;// 找下一页$("#pages a").each(function(index,element){var text=$(element).text();if(text.indexOf('下一页')!=-1){nextPageUrl=$(element).attr("href");  nextPageUrl="https://www.meitulu.com"+nextPageUrl;console.log("找到下一页="+nextPageUrl);}         })if(nextPageUrl==null || nextPageUrl==pageUrl){console.log(pageUrl+"已经是最后一页了.\n");saveFile(pageUrl,pictures);// 保存
                        download(pictures);}else{console.log("继续下一页");crawl(nextPageUrl);}               }    })}).on("error", function() {saveFile(pageUrl,pictures);// 保存console.log("crawl函数失败,请进入断点续传模式继续进行");})});// 超时处理req.setTimeout(7500,function(){req.abort();});// 出错处理req.on('error',function(err){console.log('请求发生错误'+err);  saveFile(pageUrl,pictures);// 保存console.log("crawl函数失败,请进入断点续传模式继续进行");});// 请求结束
    req.end();
}//--------------------------------------
// 下载图片
//--------------------------------------
function download(pictures){var total=0;total=pictures.length;console.log("总计有"+total+"张图片将被下载.");appendToLogfile(folder,"总计有"+total+"张图片将被下载.\n");for(var i=0;i<pictures.length;i++){var picUrl=pictures[i];downloadPic(picUrl,folder);}
}//--------------------------------------
// 写log文件
//--------------------------------------
function appendToLogfile(folder,text){fs.appendFile('./'+folder+'/log.txt', text, function (err) {if(err){console.log("不能书写log文件");console.log(err);}});
}//--------------------------------------
// 取得当前时间
//--------------------------------------
function getNowFormatDate() {var date = new Date();var seperator1 = "-";var seperator2 = "_";var month = date.getMonth() + 1;var strDate = date.getDate();if (month >= 1 && month <= 9) {month = "0" + month;}if (strDate >= 0 && strDate <= 9) {strDate = "0" + strDate;}var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate+ " " + date.getHours() + seperator2 + date.getMinutes()+ seperator2 + date.getSeconds();return currentdate;
}//--------------------------------------
// 下载单张图片
// picUrl sample:http://mtl.ttsqgs.com/images/img/12161/41.jpg
//--------------------------------------
function downloadPic(picUrl,folder){console.log("图片:"+picUrl+"下载开始");// 得到hostname,path和portvar currUrl=picUrl.replace("http://","");var pos=currUrl.indexOf("/");var hostname=currUrl.slice(0,pos);        var path=currUrl.slice(pos);// 有端口加端口,没有端口默认80var port=80;//console.log("hostname="+hostname);//console.log("path="+path);//console.log("port="+port);var picName=currUrl.slice(currUrl.lastIndexOf("/"));// 初始化options  options={hostname:hostname,port:port,path:path,method:'GET',/* headers:{'Referer':'https://www.meitulu.com',},*/};req=http.request(options,function(resp){var imgData = "";resp.setEncoding("binary"); resp.on('data',function(chunk){imgData+=chunk;            });resp.on('end',function(){        // 创建文件var fileName="./"+folder+picName;fs.writeFile(fileName, imgData, "binary", function(err){if(err){console.log("[downloadPic]文件   "+fileName+"  下载失败.");console.log(err);appendToLogfile(folder,"文件  "+picUrl+"  下载失败.\n");}else{appendToLogfile(folder,"文件  "+picUrl+"  下载成功.\n");console.log("文件"+fileName+"下载成功");}});    });});// 超时处理req.setTimeout(7500,function(){req.abort();});// 出错处理req.on('error',function(err){if(err){console.log('[downloadPic]文件   '+picUrl+"  下载失败,"+'因为'+err);appendToLogfile(folder,"文件"+picUrl+"下载失败.\n");}});// 请求结束
    req.end();
}//--------------------------------------
// 程序入口 
//--------------------------------------
function getInput(){process.stdin.resume();    process.stdout.write("\033[33m 新建模式输入第一页URL,断点续传模式输入0,请输入: \033[39m");// 草黄色process.stdin.setEncoding('utf8');process.stdin.on('data',function(text){var input=text.trim();process.stdin.end();// 退出输入状态    if(text.trim()=='0'){process.stdout.write("\033[36m 进入断点续传模式. \033[39m");    // 蓝绿色// Read Filefs.readFile('./save.dat','utf8',function(err,data){if(err){console.log('读取文件save.dat失败,因为'+err);}else{//console.log(data);var obj=JSON.parse(data);pictures=obj.pictures;console.log('提取图片'+pictures.length+'张');folder=obj.folder;// 创建目录fs.mkdir('./'+folder,function(err){if(err){console.log("目录"+folder+"已经存在");}});crawl(obj.url);        }});// Resume crawl}else{process.stdout.write("\033[35m 进入新建模式. \033[039m");    //紫色
folder='pictures('+getNowFormatDate()+")";// 创建目录fs.mkdir('./'+folder,function(err){if(err){console.log("目录"+folder+"已经存在");}});crawl(input);            }});    
}//--------------------------------------
// 将爬行中信息存入数据文件
//--------------------------------------
function saveFile(url,pictures){var obj=new Object;obj.url=url;obj.pictures=pictures;obj.folder=folder;var text=JSON.stringify(obj);fs.writeFile('./save.dat',text,function(err){if(err){console.log('写入文件save.dat失败,因为'+err);}});
}// 调用getInput函数,程序开始
getInput();
复制代码















本文转自张昺华-sky博客园博客,原文链接:http://www.cnblogs.com/xiandedanteng/p/7871903.html,如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/540166.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql 5.6.4以上版本innodb支持全文索引的测试

对于mysql 5.6.4以上版本innodb支持全文索引的测试 在mysql官网&#xff0c;innodb引擎在5.6.4版本提供了对全文索引的支持&#xff0c;笔者对此做了测试&#xff0c;发现对中文全文检索的支持依然不理想&#xff0c;但却确实提供了对英文的全文支持。 12.9.5 Full-Text Restri…

EMC VMAX的磁盘构成,fast policy(重要)

首先是流程&#xff0c; 不同种类的磁盘&#xff08;sata&#xff0c;fc&#xff0c;flah&#xff09;->disk group->raid->DATA volume->thin pool->TDEV and BCVDEV (lun) 然后细看&#xff1a; 1&#xff09; 不同种类的磁盘叫做disk&#xff0c;这是可见的物…

[精讲-3]Offline Domain Join

从windows 2008 ,windows 7开始起就具备脱机加入域的功能,就是它们在未连接DC的情况下,也可以加入域. 假如环境lab.com ,一台已加入域的PC (WIN7Client) 和即将加入域的PC(win7-2) 在win7client上run下面这个命令 DC已作了一次预先的动作:创建了computer object 在win7-2上,用本…

搭建iscsi存储系统

搭建iscsi存储系统 NAS和SAN服务器概述 NAS网络附属存储&#xff1a; NAS&#xff08;Network Attached Storage)&#xff0c;NAS服务器是连接在网络上&#xff0c;具备资料存储功能的服务器&#xff0c;一种与用数据存储服务器。网络附属存储基于标准网络协议&#xff08;Tcp/…

在Microsoft System Center中利用您的现有投资管理VMware--Veeam MP v6.5

在 Microsoft System Center 中利用您的现有投资管理 VMware VeeamManagement Pack (MP) v6.5 适用于物理、虚拟和备份基础架构的单一的虚拟管理平台 前段时间介绍了Veeam Management Pack (MP) v6.0产品&#xff0c;昨天发布了新版本VeeamManagement Pack (MP) v6.5&#xff0…

SpringMVC注解HelloWorld

今天整理一下SpringMVC注解 欢迎拍砖 RequestMapping RequestMapping是一个用来处理请求地址映射的注解&#xff0c;可用于类或方法上。用于类上&#xff0c;表示类中的所有响应请求的方法都是以该地址作为父路径。 RequestMapping注解有六个属性&#xff0c;下面我们把她分成三…

自制 移动端 纯原生 Slider滑动插件

在Google搜关键字“slider”或“swiper”能找到一大堆相关插件&#xff0c;自己造轮子是为了能更好的理解其中的原理。 给这个插件取名为“veSlider”是指“very easy slider”非常简单的一个滑动插件。 这只是个半成品&#xff0c;仅仅实现了手指滑动、自动轮播、跳转等基本功…

ISA Server 2006 部署步骤

ISA Server 2006 部署步骤 Posted by 尹揆 在这里先把ISA2006的安装步骤给大家贴出来,后面陆续会有一些配置及日常的应用,希望大家多多指教!呵呵.ISA功能的强大自然不用多说了,一句话只要能想到它就能做到!放入光盘出现在我们面前还是其人性化的界面点默认的下一步吧接受协议序…

mysql将查询数据另存

1.查询mysql的存储执行目录&#xff08;secure-file-priv是指定文件夹作为导出文件存放的地方&#xff09;所以需要查询以下&#xff0c;不然会报1290错误 show variables like %secure%;2.查询并转存 SELECT * into outfile C:\ProgramData\MySQL\MySQL Server 5.7\Uploads\zo…

重新捡起flask(三)

记一次bug调试。 本来以为模板这一章可以很快的过掉的&#xff0c;刚刚写完的2其实只剩下个flask-moment时间库了&#xff0c;之前早就做过&#xff0c;记得很简单&#xff0c;本来说只要敲一下代码就结束&#xff0c;没想到&#xff0c;踩坑里去了。 调试bug吗&#xff0c;我想…

远程服务器部署spring boot 项目(centos7为例)

1.打包项目&#xff08;可以是jar包&#xff0c;也可以是war包&#xff09;以jar包为例&#xff08;用eclipse打包&#xff09;&#xff1a;1.项目目录右击--debug as&#xff08;run as&#xff09;--maven build&#xff0c;然后输入package&#xff0c;点击debug&#xff0c…

SIN的服务器配置

统计了新加坡服务器中IBM XIV存储挂载的主机列表。 对于vmware虚拟机来说&#xff0c;是这么组成的&#xff1a; 存储分了多个lun&#xff0c;在os侧叫做data store&#xff0c;多个datastore挂给多个物理机&#xff0c;物理机(安装了esxi软件)称为ESXI主机&#xff0c;多个ESX…

sklearn机器学习实例

原创网址&#xff1a;https://blog.csdn.net/qq_27150893/article/details/80169736 sklearn是非常流行的机器学习库&#xff0c;实现了很多的机器学习模型。官网&#xff1a;http://scikit-learn.org/stable/ 里面有全面的实例和模型参数讲解&#xff0c;用到哪个模型就去官…

CSVDE批量导入域用户

CSVDE批量导入用户 你可以使用Csvde格式的文件在活动目录中创建用户帐号和其他类型的帐号。但你不能使用Csvde删除活动目录中的对象。 使用Csvde命令行工具创建用户帐号&#xff0c;采用下列步骤&#xff1a; 1. 创建Csvde输入文件。文件应包含下列信息。 属性行&#xff1a;这…

【转载】细聊冗余表数据一致性(架构师之路)

本文主要讨论四个问题&#xff1a; &#xff08;1&#xff09;为什么会有冗余表的需求 &#xff08;2&#xff09;如何实现冗余表 &#xff08;3&#xff09;正反冗余表谁先执行 &#xff08;4&#xff09;冗余表如何保证数据的一致性 一、需求缘起 互联网很多业务场景的数据量…

ethtool如何让接口闪灯_如何解决专业家庭影院与卡拉OK的声学问题?

现在越来越多的专业家庭影院走进人们的家中&#xff0c;享受体验娱乐氛围的空间。在实际的生活中&#xff0c;许多人都把这个空间设计为多功能的影音娱乐室&#xff0c;集看电影、听音乐、卡拉OK、游戏娱乐等于一体&#xff0c;在这其中看电影与卡拉OK将这两个功能组合在同一个…

关于MapReduce单词统计的例子:

要统计的文件的文件名为hello hello中的内容如下 hello  you hello  me 通过MapReduce程序统计出文件中的各个单词出现了几次.(两个单词之间通过tab键进行的分割) 1 import java.io.IOException;2 3 import mapreduce.WordCountApp.WordCountMapper.WordCountReducer;4 5 i…

朵朵糖故事机器人怎么更新_“故事贩卖机”专栏创始人温酒的新作,奇幻世界的暖心物语很治愈...

我有酒&#xff0c;你有故事吗&#xff1f;2015年&#xff0c;知乎上一个叫“故事贩卖机”的专栏横空出世&#xff0c;凭着一个个脑洞大开的故事&#xff0c;这个温吞而又温暖的专栏很快得到了读者的认可。而其中的创始人兼主打写手温酒&#xff0c;更是被粉丝们亲切地称呼为“…

使用dropwizard(3)-加入DI-dagger2

前言 习惯了Spring全家桶&#xff0c;对spring的容器爱不释手。使用dropwizard&#xff0c;看起来确实很轻&#xff0c;然而&#xff0c;真正使用的时候不得不面临一个问题。我们不可能一个resource就能把所有的业务逻辑囊括&#xff01;那么&#xff0c;必然就要有负责处理逻辑…

日历对象导哪个包_微信新表情瞬间炸裂,文物表情包永恒萌呆!

11月18日晚微信上架了6个全新表情瞬间炸裂网友一天时间阅读达16.2亿&#xff0c;讨论15.8万次#微信新表情#话题翻白眼、666、让我看看叹气、苦涩、裂开微信新表情虽然666但文物表情包的呆萌也能让人瞬间裂开更能完全诠释我的各(bu)种(wen ding)情绪先对比一下最新的6个表情[翻白…