Node.js umei图片批量下载Node.js爬虫1.00

这个爬虫在abaike爬虫的基础上改改图片路径和下一页路径就出来了,代码如下:

//======================================================
// umei图片批量下载Node.js爬虫1.00
// 2017年11月13日
//======================================================// 内置http模块
var http=require("http");// 内置文件处理模块,用于创建目录和图片文件
var fs=require('fs');// cheerio模块,提供了类似jQuery的功能,用于从HTML code中查找图片地址和下一页
var cheerio = require("cheerio");// 请求参数JSON。http和https都有使用
var options;// request请求
var req;// 图片数组,找到的图片地址会放到这里
var pictures=[];//--------------------------------------
// 爬取网页,找图片地址,再爬
// pageUrl sample:http://www.umei.cc/meinvtupian/waiguomeinv/12667.htm
// pageUrl sample:http://www.umei.cc/meinvtupian/waiguomeinv/12667_3.htm
//--------------------------------------
function crawl(pageUrl){console.log("Current page="+pageUrl);// 得到hostname和pathvar currUrl=pageUrl.replace("http://","");var pos=currUrl.indexOf("/");var hostname=currUrl.slice(0,pos);        var path=currUrl.slice(pos);    //console.log("hostname="+hostname);//console.log("path="+path);// 初始化options  options={hostname:hostname,port:80,path:path,// 子路径method:'GET',};req=http.request(options,function(resp){resp.setEncoding('utf8');var body="";resp.on('data',function(chunk){body+=chunk;            });resp.on('end',function(){//console.log("body="+body);var $ = cheerio.load(body);        var picCount=0;// 找图片放入数组$(".ImageBody p img").each(function(index,element){var picUrl=$(element).attr("src");//console.log(picUrl);if(picUrl.indexOf('.jpg')!=-1){pictures.push(picUrl); picCount++;} })   console.log("找到图片"+picCount+"张.");var nextPageUrl=null;// 找下一页$(".NewPages ul li a").each(function(index,element){var text=$(element).text();if(text.indexOf('下一页')!=-1){nextPageUrl=$(element).attr("href");nextPageUrl="http://www.umei.cc/"+nextPageUrl;// 把省略部分加上console.log("找到下一页.");}        })if(nextPageUrl==null){console.log(pageUrl+"已经是最后一页了.");download(pictures);}else{//console.log("下一页是"+nextPageUrl);
                crawl(nextPageUrl);}});});// 超时处理req.setTimeout(10000,function(){req.abort();});// 出错处理req.on('error',function(err){if(err.code=="ECONNRESET"){console.log('[crawl]socket端口连接超时。');console.log(err);}else{console.log('请求发生错误,err.code:'+err.code);console.log(err);}});// 请求结束
    req.end();
}var total=0;
var succeed=0;
var failed=0;//--------------------------------------
// 下载图片
//--------------------------------------
function download(pictures){var folder='pictures('+getNowFormatDate()+")";// 创建目录fs.mkdir('./'+folder,function(err){if(err){console.log("目录"+folder+"已经存在");}});total=pictures.length;console.log("总计有"+total+"张图片将被下载.");appendToLogfile(folder,"总计有"+total+"张图片将被下载.\n");for(var i=0;i<pictures.length;i++){var picUrl=pictures[i];downloadPic(picUrl,folder);}
}//--------------------------------------
// 写log文件
//--------------------------------------
function appendToLogfile(folder,text){fs.appendFile('./'+folder+'/log.txt', text, function (err) {if(err){console.log("不能书写log文件");console.log(err);}});
}//--------------------------------------
// 取得当前时间
//--------------------------------------
function getNowFormatDate() {var date = new Date();var seperator1 = "-";var seperator2 = "_";var month = date.getMonth() + 1;var strDate = date.getDate();if (month >= 1 && month <= 9) {month = "0" + month;}if (strDate >= 0 && strDate <= 9) {strDate = "0" + strDate;}var currentdate =date.getFullYear() + seperator1 + month + seperator1 + strDate+ " " + date.getHours() + seperator2 + date.getMinutes()+ seperator2 + date.getSeconds();return currentdate;
}//--------------------------------------
// 下载单张图片
// picUrl sample:http://www.avbaike.net/wp-content/uploads/2016/08/108.jpg
//--------------------------------------
function downloadPic(picUrl,folder){console.log("图片:"+picUrl+"下载开始");// 得到hostname和pathvar currUrl=picUrl.replace("http://","");var pos=currUrl.indexOf("/");var hostname=currUrl.slice(0,pos);        var path=currUrl.slice(pos);    //console.log("hostname="+hostname);//console.log("path="+path);var picName=currUrl.slice(currUrl.lastIndexOf("/"));// 初始化options  options={hostname:hostname,port:80,path:path,// 子路径method:'GET',};req=http.request(options,function(resp){var imgData = "";resp.setEncoding("binary"); resp.on('data',function(chunk){imgData+=chunk;            });resp.on('end',function(){        // 创建文件var fileName="./"+folder+picName;fs.writeFile(fileName, imgData, "binary", function(err){if(err){console.log("[downloadPic]文件"+fileName+"下载失败.");console.log(err);appendToLogfile(folder,"文件"+fileName+"下载失败.\n");failed++;}else{console.log("文件"+fileName+"下载成功");succeed++;}});    });});// 超时处理req.setTimeout(7500,function(){req.abort();});// 出错处理req.on('error',function(err){if(err){console.log('[downloadPic]文件'+picUrl+"下载失败,"+'因为'+err);appendToLogfile(folder,"文件"+picUrl+"下载失败.\n");}failed++;});// 请求结束
    req.end();
}//--------------------------------------
// 程序入口 
//--------------------------------------
function getInput(){process.stdout.write("\033[35m 请输入第一页URL:\033[039m");    //紫色
    process.stdin.resume();process.stdin.setEncoding('utf8');    process.stdin.on('data',function(text){process.stdin.end();// 退出输入状态        crawl(text.trim());// trim()是必须的!        
    });    
}// 调用getInput函数,程序开始
getInput();

2017年11月13日20:05:44

转载于:https://www.cnblogs.com/xiandedanteng/p/7827890.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/390831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

交通银行信息技术管理部副总经理张漫丽:交通银行“大数据+人工智能”应用研究...

文 | 交通银行信息技术管理部副总经理张漫丽 大数据隐含着巨大的社会、经济、科研价值&#xff0c;已引起了各行各业的高度重视。如果能通过人工智能技术有效地组织和使用大数据&#xff0c;将对社会经济和科学研究发展产生巨大的推动作用&#xff0c;同时也孕育着前所未有的机…

安软件一劳永逸_如何克服一劳永逸地公开演讲的恐惧

安软件一劳永逸If you’re like most people, the idea of public speaking terrifies you (it terrifies me too). So how do you get over those jitters, get up on stage, and give an amazing talk? First, a disclaimer: this article is purely about your stage prese…

Go语言实战 : API服务器 (8) 中间件

为什么需要中间件 我们可能需要对每个请求/返回做一些特定的操作&#xff0c;比如 记录请求的 log 信息在返回中插入一个 Header部分接口进行鉴权 这些都需要一个统一的入口。这个功能可以通过引入 middleware 中间件来解决。Go 的 net/http 设计的一大特点是特别容易构建中间…

缺失值和异常值的识别与处理_识别异常值-第一部分

缺失值和异常值的识别与处理&#x1f4c8;Python金融系列 (&#x1f4c8;Python for finance series) Warning: There is no magical formula or Holy Grail here, though a new world might open the door for you.警告 &#xff1a; 这里没有神奇的配方或圣杯&#xff0c;尽管…

SQL Server 常用分页SQL

今天无聊和朋友讨论分页&#xff0c;发现网上好多都是错的。网上经常查到的那个Top Not in 或者Max 大部分都不实用&#xff0c;很多都忽略了Order和性能问题。为此上网查了查&#xff0c;顺带把2000和2012版本的也补上了。 先说说网上常见SQL的错误或者说局限问题 12345select…

Word中摘要和正文同时分栏后,正文跑到下一页,怎么办?或Word分栏后第一页明明有空位后面的文字却自动跳到第二页了,怎么办?...

问题1&#xff1a;Word中摘要和正文同时分栏后&#xff0c;正文跑到下一页&#xff0c;怎么办&#xff1f;或Word分栏后第一页明明有空位后面的文字却自动跳到第二页了&#xff0c;怎么办&#xff1f; 答&#xff1a;在word2010中&#xff0c;菜单栏中最左侧选“文件”->“选…

leetcode 664. 奇怪的打印机(dp)

题目 有台奇怪的打印机有以下两个特殊要求&#xff1a; 打印机每次只能打印由 同一个字符 组成的序列。 每次可以在任意起始和结束位置打印新字符&#xff0c;并且会覆盖掉原来已有的字符。 给你一个字符串 s &#xff0c;你的任务是计算这个打印机打印它需要的最少打印次数。…

SQL数据类型说明和MySQL语法示例

SQL数据类型 (SQL Data Types) Each column in a database table is required to have a name and a data type. 数据库表中的每一列都必须具有名称和数据类型。 An SQL developer must decide what type of data that will be stored inside each column when creating a tab…

PHP7.2 redis

为什么80%的码农都做不了架构师&#xff1f;>>> PHP7.2 的redis安装方法&#xff1a; 顺便说一下PHP7.2的安装&#xff1a; wget http://cn2.php.net/distributions/php-7.2.4.tar.gz tar -zxvf php-7.2.4.tar.gz cd php-7.2.4./configure --prefix/usr/local/php…

leetcode 1787. 使所有区间的异或结果为零

题目 给你一个整数数组 nums​​​ 和一个整数 k​​​​​ 。区间 [left, right]&#xff08;left < right&#xff09;的 异或结果 是对下标位于 left 和 right&#xff08;包括 left 和 right &#xff09;之间所有元素进行 XOR 运算的结果&#xff1a;nums[left] XOR n…

【JavaScript】网站源码防止被人另存为

1、禁示查看源代码 从"查看"菜单下的"源文件"中同样可以看到源代码&#xff0c;下面我们就来解决这个问题&#xff1a; 其实这只要使用一个含有<frame></frame>标记的网页便可以达到目的。 <frameset> <frame src"你要保密的文件…

梯度 cv2.sobel_TensorFlow 2.0中连续策略梯度的最小工作示例

梯度 cv2.sobelAt the root of all the sophisticated actor-critic algorithms that are designed and applied these days is the vanilla policy gradient algorithm, which essentially is an actor-only algorithm. Nowadays, the actor that learns the decision-making …

共享语义 unix语义_语义UI按钮

共享语义 unix语义什么是语义UI按钮&#xff1f; (What are Semantic UI Buttons?) A button indicates a possible user action. Semantic UI provides an easy-to-use syntax that simplifies not only the styling of a button, but also the natural language semantics.按…

垃圾回收算法优缺点对比

image.pngGC之前 说明&#xff1a;该文中的GC算法讲解不仅仅局限于某种具体开发语言。 mutator mutator 是 Edsger Dijkstra 、 琢磨出来的词&#xff0c;有“改变某物”的意思。说到要改变什么&#xff0c;那就是 GC 对象间的引用关系。不过光这么说可能大家还是不能理解&…

标准C程序设计七---77

Linux应用 编程深入 语言编程标准C程序设计七---经典C11程序设计 以下内容为阅读&#xff1a; 《标准C程序设计》&#xff08;第7版&#xff09; 作者&#xff1a;E. Balagurusamy&#xff08;印&#xff09;&#xff0c; 李周芳译 清华大学出版社…

leetcode 1190. 反转每对括号间的子串

题目 给出一个字符串 s&#xff08;仅含有小写英文字母和括号&#xff09;。 请你按照从括号内到外的顺序&#xff0c;逐层反转每对匹配括号中的字符串&#xff0c;并返回最终的结果。 注意&#xff0c;您的结果中 不应 包含任何括号。 示例 1&#xff1a; 输入&#xff1a…

yolo人脸检测数据集_自定义数据集上的Yolo-V5对象检测

yolo人脸检测数据集计算机视觉 (Computer Vision) Step by step instructions to train Yolo-v5 & do Inference(from ultralytics) to count the blood cells and localize them.循序渐进的说明来训练Yolo-v5和进行推理(来自Ultralytics )以对血细胞进行计数并将其定位。 …

oauth2-server-php-docs 授权类型

授权码 概观 在Authorization Code交付式时使用的客户端想要请求访问受保护资源代表其他用户&#xff08;即第三方&#xff09;。这是最常与OAuth关联的授予类型。 详细了解授权码 用例 代表第三方来电履行 创建一个实例OAuth2\GrantType\AuthorizationCode并将其添加到您的服务…

flask框架视图和路由_角度视图,路由和NgModule的解释

flask框架视图和路由Angular vs AngularJS (Angular vs AngularJS) AngularJS (versions 1.x) is a JavaScript-based open source framework. It is cross platform and is used to develop Single Page Web Application (SPWA). AngularJS(版本1.x)是一个基于JavaScript的开源…

NGUI EventDelagate事件委托

using System.Collections; using System.Collections.Generic; using UnityEngine;public class BUttonClick : MonoBehaviour {public UIButton button_01;void Start(){if (button_01 null){Debug.Log("button组件丢失了");}else{//首先将脚本中的ClicktheButton…