nodejs 30行代码爬豆瓣电影数据

nodejs 30行代码爬豆瓣电影数据

news/2025/4/4 11:37:02/文章来源:https://blog.csdn.net/weixin_33730836/article/details/91473604

##用nodejs 写爬虫关键模块：cheerio、http，request。 consonl.log() 出来的数据

首先安装相关的模块：

//我用了某宝的镜像安装     原来是  npm,-g 可以根据自己情况是全局按装还是局域安装
cnpm install -g jquerycnpm install -g cheeriocnpm install requestcnpm install http
......复制代码

根据你需要用的的模块安装代码如下：


// 新建一个对象
var MyUtil = function () {
};
// var $ = require('../node_modules/jQuery');
var request = require('request');
// 用于 保存body的html数据
var bodtTemp;
MyUtil.prototype.get=function(url,callback){// console.log("MyUtil.prototype") // 打印request(url, function (error, response, body) {if (!error && response.statusCode == 200) {// console.log(body) // 打印目标页面console.log("request ");// 用临时变量保存起来请求回来的body数据bodtTemp=body;var movie={}  // movie.name = $(body).find('span[property="v:itemreviewed"]').text();// movie.director = $(body).find('#info span:nth-child(1) a').text();}})
}
// console.log(movie);
//获取目标网页的数据
var temp = new MyUtil();
var httpUrl='https://movie.douban.com/subject/25921812/?tag=%E7%83%AD%E9%97%A8&from=gaia_video';
// var httpUrl='http://movie.douban.com/subject/1152952';
temp.get(httpUrl);
console.log('bodtTemp is '+bodtTemp);
// 开启自己的http服务器
var http = require('http')
http.createServer(function(req,res){res.writeHead(200,{'Content-Type':'text/html'});// res.write(bodtTemp);let cheerio = require('cheerio')let $ = cheerio.load(bodtTemp)// $('h2.title').text('Hello there!')// $('h2').addClass('welcome')// $('#db-nav-movie .nav-logo a').text("哈哈")// $("#dale_movie_subject_bottom_super_banner_frame").remove();// 移除  id 里面的内容// $("#footer").remove();console.log($('#info').text());// $.html()// console.log($.html());res.write($.html());// res.end('<p>结束</p>');res.end();
}).listen(5858);复制代码

保存为index.js 文件，切换到你的文件路径，用node 命令打开：如：

node index.js
复制代码

浏览器打开

http://127.0.0.1:5858/
复制代码

**记得要打开浏览器访问地址才能看到控制台的数据。 ###本文为了更好阅读以及新手可以直接执行，提高新手兴趣，故把所有可执行代码直接放一个文件，详细以及一些测试也有备注。尝试去修改一下要爬的链接以及代码吧，一切都是实践中的出效果。

转载于:https://juejin.im/post/5a3217baf265da4310486603

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/278851.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

html5结构与表现分离原则,网页简单布局之结构与表现原则分享

html5结构与表现分离原则,网页简单布局之结构与表现原则分享

一般来说html结构 css表现 javascrip行为，网页布局要考虑到结构，表现，行为分离原则，首先重点放在结构和语义化上面，再考虑CSS，JS等，便于后期维护和分析。结构与表现相关内容简介html结构 css表现…

阅读更多...

如何在Firefox 3中重新启用about：config警告消息

如何在Firefox 3中重新启用about：config警告消息

If you’ve spent any time tweaking Firefox 3, you’ve probably seen the warning message telling you that you probably shouldn’t be changing any settings. Thankfully you can remove the checkbox and make the message go away… but what if you wanted it back?…

阅读更多...

iaas层次化结构--从业务需求到设计需求

iaas层次化结构--从业务需求到设计需求

转载于:https://www.cnblogs.com/anc-ox/p/10004571.html

阅读更多...

清华经管计算机金融专业,非量化背景拿下MIT MFin的清华经管学姐，详解MIT金融项目优劣和职业方向...

清华经管计算机金融专业,非量化背景拿下MIT MFin的清华经管学姐，详解MIT金融项目优劣和职业方向...

学员背景清华大学经管学院主要获录Offer麻省理工大学金融硕士MIT MFin哥伦比亚大学公共管理硕士Columbia MPA来自清华经管F学姐，以非量化背景成功斩获MIT金融和哥大MPA项目。她与大家分享了MIT金融项目的特色、优劣势、录取信息和未来的职业方向，同时也…

阅读更多...

保存页面供以后使用Firefox的阅读列表扩展

保存页面供以后使用Firefox的阅读列表扩展

I spend an enormous amount of time browsing the web looking for new ideas to write about, so one of the biggest problems for me is tagging articles for more careful reading later. Also, I’m sure any moment I’m going to reach a page that says “You’ve re…

阅读更多...

使用EHCache需要注意的几个问题(转)

使用EHCache需要注意的几个问题(转)

最近做一个小项目，需要对一批数据进行缓存，且要求持久化到磁盘。使用ehcache非常简单和直观，一般来说只需要配置ehcache.xml文件，接着直接使用Cacheable, Cacheput, CacheEvict即可。三个注解的意思也很简单，这里就不…

阅读更多...

MySQL的常见存储引擎介绍与参数设置调优（转载）

MySQL的常见存储引擎介绍与参数设置调优（转载）

原文地址：http://www.cnblogs.com/demon89/p/8490229.htmlMySQL常用存储引擎之MyISAM特性：1、并发性与锁级别2、表损坏修复check table tablenamerepair table tablename3、MyISAM表支持的索引类型①、全文索引②、前缀索引4、MyISAM表支持数据压缩myisa…

阅读更多...

计算机网络udp实验时间戳请求报文与应答报文的表格填写,自考计算机网络管理历年(2007.1-2013.1)试题及答案(标有页码)...

计算机网络udp实验时间戳请求报文与应答报文的表格填写,自考计算机网络管理历年(2007.1-2013.1)试题及答案(标有页码)...

33.假设某RMON MONTIOR矩阵组的matrixSDTable和matrixDSTable的内容如下表1和表2所示。表1. matrixSDTbalematirxSDSourceAddress matrixSDDestAddress matrixSDPkts m,atrixSDOctests matrixSDError 008000AB1258 00A0C5BA9C02 1274 1697133 11 ……………表2. matrixDSTablem…

阅读更多...

如何在Twitter上阻止令人讨厌的“今日热门新闻@yourname”垃圾邮件

如何在Twitter上阻止令人讨厌的“今日热门新闻@yourname”垃圾邮件

Lately I’ve noticed an annoying trend on Twitter—people constantly spamming your replies feed with these posts saying that you were the top story on somebody’s feed. Very irritating, but here’s how to get rid of it. 最近，我注意到Twitter上有一…

阅读更多...

蕾丝的选购和保养秘诀

蕾丝的选购和保养秘诀

维秘柔情内裤性感/舒适/健康/透气复制代码维秘柔情不仅仅是商品质材料和考究的设计，更是一个坚守生活美学的理念，总有一款维秘柔情告诉你的身体密码。从此之前所用，皆为将就。从此之前所见，皆为平常。在内裤不再是遮掩的这个时…

阅读更多...

Python -bs4介绍

Python -bs4介绍

https://cuiqingcai.com/1319.html Python -BS4详细介绍Python 在处理html方面有很多的优势,一般情况下是要先学习正则表达式的.在应用过程中有很多模块是非常方便的,先尝试使用BeautifulSoup和Urllib进行网页的处理,仅供学习.首先列举所需要导入的模块:from bs4 import Beauti…

阅读更多...

广东工业大学计算机学院书记,计算机学院召开2018年工作总结大会

广东工业大学计算机学院书记,计算机学院召开2018年工作总结大会

单位：计算机学院2019年1月8日上午，计算机学院在工学一号馆216会议室召开了学年工作总结大会。会议由学院陈平华副院长主持。会上，郭维喜书记对过去一学年学院各项工作给予了肯定，并从党的建设、意识形态工作、思想宣传工作、师德…

阅读更多...

Numpy的常用方法

Numpy的常用方法

NumPy是用Python进行科学计算的基本软件包。它包含以下内容： 一个强大的N维数组对象复杂的（广播）功能用于集成C / C 和Fortran代码的工具有用的线性代数，傅里叶变换和随机数能力除了明显的科学用途外，NumPy还可以用作通…

阅读更多...

vista任务栏透明_增加Windows Vista任务栏预览大小的赏金（付费！）

vista任务栏透明_增加Windows Vista任务栏预览大小的赏金（付费！）

vista任务栏透明Ever since Windows Vista came out, I’ve been trying to figure out how to increase the size of the tiny Windows Vista taskbar preview windows. I’ve scoured the registry, used process monitor to try and find hidden registry keys, and looked …

阅读更多...

Netty原理分析

Netty原理分析

Netty是一个高性能、异步事件驱动的NIO框架，它提供了对TCP、UDP和文件传输的支持，作为一个异步NIO框架，Netty的所有IO操作都是异步非阻塞的，通过Future-Listener机制，用户可以方便的主动获取或者通过通知机制获得IO操作…

阅读更多...

福州大学计算机学院董晨老师,福州大学代表队高分斩获第三届福建省高校网络空间安全大赛冠军...

福州大学计算机学院董晨老师,福州大学代表队高分斩获第三届福建省高校网络空间安全大赛冠军...

新闻中心讯/10月27日，由福建省教育厅、福建省网络与信息安全协调小组办公室主办的“百越杯”第三届福建省高校网络空间安全大赛在福州圆满落幕，福州大学三支代表队揽获本届大赛的冠军暨特等奖、二等奖和三等奖。本次省赛福州大学派出的代表队由数学与计算…

阅读更多...

用uid分库，uname上的查询怎么办？

用uid分库，uname上的查询怎么办？

2019独角兽企业重金招聘Python工程师标准>>> 【缘起】用户中心是几乎每一个公司必备的基础服务，用户注册、登录、信息查询与修改都离不开用户中心。当数据量越来越大时，需要多用户中心进行水平切分。最常见的水平切分方式，按照u…

阅读更多...

python 新闻摘要_每日新闻摘要：运营商承诺他们不再出售您的位置…

python 新闻摘要_每日新闻摘要：运营商承诺他们不再出售您的位置…

python 新闻摘要Last year it was discovered that Verizon, Sprint, AT&T, and T-Mobile were all selling your real-time location data to third-party companies. They offered no oversight of what the companies did with the data whatsoever, and if that’s not…

阅读更多...

Jquery中的this是什么类型

Jquery中的this是什么类型

var city $("#city"); //这个city是dom还是jq if(city instanceof jQuery) alert(11); else alert(this.tagName); 总结： 1 如果是一个节点的某个事件…

阅读更多...

计算机复试比重低的学校,又有985院校发布调剂信息，这个34所降低复试比重！...

计算机复试比重低的学校,又有985院校发布调剂信息，这个34所降低复试比重！...

原标题：又有985院校发布调剂信息，这个34所降低复试比重！01985院校调剂01.清华大学昨天，清华大学发布一则调剂信息：临床医学交叉人才培养项目接受调剂。接收调剂专业如下：据其官网介绍，该项目为推…

阅读更多...

最新文章