node.js简单爬虫

这里假设你已经安装好node.js和npm,如果没有安装,请参阅其他教程安装。

  • 配置
    首先是来配置package.json文件,这里使用express,request和cheerio。

package.json如下:

{"name": "node-scrape","version": "0.0.1","description": "Scrape","main": "server.js","dependencies": {"express" : "latest","request" : "latest","cheerio" : "latest"}
}
  • npm 安装
    把package.json文件放到一个你自己定义的文件夹(nodejs_scrape)下,然后在命令行下执行

cd nodejs_scrape
npm install
  • 抓取内容
    在nodejs_scrape目录下新建一个server.js文件,先定义如下变量的和方法

var express = require('express');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');
var app = express();app.get('/',function (req,res) {//抓取内容的方法
});app.listen('8081'); //使用8081端口console.log('Magic happens on port 8081');exports = module.exports = app;

下面我们就来完善get方法的内容
首先定义要抓取的url,这里以segmentfault为例

url  = 'https://segmentfault.com/news';

页面如下面所示,点击F12查看,我们就提取最简单的 class="mr10" 这个标签
图片描述

抓取内容的方法如下

 request(url, function (err,res,html) {if (!err){ var $ = cheerio.load(html);var title;$('.mr10').filter(function () {var data = $(this);title = data.text(); //获取标签的内容console.log('title is ' + title); //控制台打印});}});

server.js完整代码如下

/*** Created by Administrator on 2017/3/1.*/
var express = require('express');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');
var app = express();app.get('/',function (req,res) {//all scrape magic will happen hereurl  = 'https://segmentfault.com/news';request(url, function (err,res,html) {if (!err){var $ = cheerio.load(html);var title;$('.mr10').filter(function () {var data = $(this);title = data.text();console.log('title is ' + title);});}});});app.listen('8081');console.log('Magic happens on port 8081');exports = module.exports = app;
  • 运行
    在nodejs_scrape目录下运行 node server ,可以看到如下所示

图片描述

在浏览器运行http://127.0.0.1:8081/,可以看到抓取的内容如下:

抓取的标题

这样我们就完成了一个简单到不能再简单的node.js爬虫。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/457084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day11-递归性能测试

import time time.clock() sum 0 for i in range (1000000000):sumi print(time.clock()) 慎用 慎用 慎用

关于在新建的package中用SetContentView()函数时无法找到已创建的R.layout的布局文件的的问题的解决办法

问题描述如下: 解决途径:是在导入包的过程中,错误的将系统自动将Android.R这个包导入最终导致用setContenView()加载布局时只能显示系统自带的布局,无法显示自己已经创建的布局。只需将相应活动中导入的Android.R包删除&#xff0…

Struts2入门(二)——配置拦截器

一、前言 之前便了解过,Struts 2的核心控制器是一个Filter过滤器,负责拦截所有的用户请求,当用户请求发送过来时,会去检测struts.xml是否存在这个action,如果存在,服务器便会自动帮我们跳转到指定的处理类中…

linux固态机械分区吗,不再疑惑!实测数据后才知道固态硬盘究竟要不要分区

不再疑惑!实测数据后才知道固态硬盘究竟要不要分区2019-12-10 20:52:00162点赞594收藏177评论前几年的固态硬盘价格昂贵,一般用户会选择128G或256G的固态作为系统盘,由于单盘空间不大,一般都会配合机械硬盘使用,无需考…

关于无法加载已创建的布局文件的问题的解决方案以及已布局在对应的R文件中未生成相应ID的问题的解决

先来说下创建后的Layout布局文件在对应的R文件中不能生成相应的ID问题,一般情况下之所以出现这种问题是应为自己的res文件中有错误的文件:对应的是错误的文件格式名称,以及错误的文件内容等。博主就遇到过为drawable文件起了一个非法的名称&a…

安卓手机的后门控制工具SPADE

SPADE,一款安卓手机的后门控制工具,安全研究人员可以以此了解和研究安卓后门原理。 首先,我们从网站www.apk4fun.com下载apk文件,如ccleaner。然后,我们安装spade git clone https://github.com/suraj-root/spade.git …

Day12-date time

import datetimedatetime比time高级了不少,可以理解为datetime基于time进行了封装,提供了, 更为实用的函数,并且datetime模块的接口更直观更容易调用模块中的类: datetime 同时又时间和日期 imedelta 主…

MySQL案例-open too many files,MyISAM与partition

-------------------------------------------------------------------------------------------------短文---------------------------------------------------------------------------------------------------------------长话短说~现象: error log中批量刷错误日志, 形…

关于异常:HttpURLConnectionImpl cannot be cast to javax.net.ssl.HttpsURLConnection的解决办法

<span style"font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);"><span style"font-size:18px;">今天在写一个app时&#xff0c;当实现从网络上获取图片资源&#xff0c;发送HTTPURLConnection的时候抛出这样…

linux网卡有很多error,教你设置win7系统虚拟机安装linux提示network error的解决方法...

很多朋友在使用电脑的过程中&#xff0c;会发现win7系统虚拟机安装linux提示network error的现象&#xff0c;当遇到win7系统虚拟机安装linux提示network error的问题&#xff0c;我们要怎么解决呢&#xff1f;如今还有很多用户不知道如何处理win7系统虚拟机安装linux提示netwo…

codevs2171 棋盘覆盖

题目描述 Description给出一张n*n(n<100)的国际象棋棋盘&#xff0c;其中被删除了一些点&#xff0c;问可以使用多少1*2的多米诺骨牌进行掩盖。 输入描述 Input Description第一行为n&#xff0c;m&#xff08;表示有m个删除的格子&#xff09;第二行到m1行为x,y&#xff0c…

Day13-日历模块

import calendar日历模块 #使用#返回制定殁年某月日历 print(calendar.month(2019,3)) #返回指定年份的日历 print(calendar.calendar(2019)) #判断闰年返回True 或者Flase print(calendar.isleap(2000)) #返回某个月的weekd的第一天和这个月所有的天数 print(calendar.monthra…

关于eclipse项目红色感叹号的解决办法

在网上找到了解决办法&#xff0c;详见&#xff1a;http://jingyan.baidu.com/article/ea24bc3986f7b0da62b33188.html

linux模拟网络延迟,使用Nistnet搭建网络延迟模拟设备 (network delay simulator)

mknod /dev/hitbox c 62 0mknod /dev/nistnet c 62 1chown root /dev/hitboxchown root /dev/nistnetmknod /dev/mungebox c 63 0chown root /dev/mungeboxmknod /dev/spybox c 64 0chown root /dev/spyboxmodprobe nistnet可以将这个放到/etc/rc.local中&#xff0c;以便重启后…

MyBatis - MyBatis Generator 生成的example 如何使用 and or 简单混合查询

简单介绍&#xff1a; Criteria&#xff0c;包含一个Cretiron的集合,每一个Criteria对象内包含的Cretiron之间是由AND连接的,是逻辑与的关系。oredCriteria&#xff0c;Example内有一个成员叫oredCriteria,是Criteria的集合,就想其名字所预示的一样&#xff0c;这个集合中的Cri…

将本地Blog部署到GitHub上,有自己的博客页面!

前言 上一篇文章我们已经把本地的hexo环境搭建好了&#xff0c;并且在本地成功预览&#xff0c;但是本地预览也意味着自己的博文只能自己看的到&#xff0c;其他人根本看不到&#xff0c;这篇文章将接上文说一说如何把本地Blog部署到GitHub上&#xff0c;好让小伙伴可以来访问我…

Linux下安装配置JDK

本人使用的VM虚拟机&#xff0c;在VM上安装了Linux&#xff0c;版本是CentOS-6.7-i386-bin-DVD1.iso。 一、下载JDK 在进入JDK官网&#xff0c;找到要下载的JDK版本&#xff0c;将下载地址复制下来&#xff0c;放到迅雷中下载&#xff0c;我下载的是&#xff1a;http://downloa…

新手使用GitHub客户端提交项目的步骤

1.下载https://windows.github.com/ github客户端 2.安装完github&#xff0c;会出现 点击GitHub&#xff0c;Git Shell是命令行指令&#xff0c;暂时用不上 3.点击进入之后 输入你在https://github.com上面注册的用户名和密码点击log in 4.登录之后新建项目 点击左上角…

linux的命令uname n,Linux下uname命令及其选项

Linux下uname命令及其选项2017-03-15 23:22:26晓得了Linux系统的用户信息后&#xff0c;你也可能想晓得所登录的系统信息&#xff0c;今日就绍介获取系统本身信息的命令uname,这搭u应当是UNIX的缩写&#xff0c;操作如次&#xff1a;uname使役uname还可以得到其它相关系统的信息…