node工程默认url_node 爬虫入门实例,简单易懂

49fee5131d378de5f9c39f177f0b1764.png

前言

本文介绍一个 koa 的爬虫项目,受众对象为初学前端不久的小伙伴,通过这个项目能对 node 爬虫有一个简单的认识,也能自己动手写一些简单的爬虫。项目地址:

Fe-Icy/firm-spider​github.com
1b2cbee2a102ed5c2aa2a530cab65410.png

启动 koa 服务

Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架​koa.bootcss.com
2e031a08899f4f5920648b774370e5e0.png

koa 是基于 nodejs 平台的新一代 web 开发框架,使用 koa 启动 node 服务也非常简单,三行代码就能启动一个 http 服务

const Koa = require('koa')
const app = new Koa()
app.listen(8080)

怎么样,是不是看一眼就会,关于 koa 的更多内容可以学习[官方文档](Koa (koajs) -- 基于 Node.js 平台的下一代 web 开发框架),只要你能灵活运用 nodejs,koa 也能分分钟上手。

爬虫分析

️爬虫的目的是什么?其实爬虫的目的很简单,就是需要在一个站点中抓取到我们想要的数据。不管用什么方式,用什么语言,只要能把数据抓回来,就达到我们的目的了。但是通过分析站点我们发现,有些网站是静态的,前端无法查看网站中的 api 请求,所以只能通过分析页面去提取数据,这种叫静态抓取。有的页面是前端请求接口渲染数据的,这种我们可以直接拿到 api 地址,而在爬虫中去模拟请求,这种叫动态抓取,基于此,我简单设计了一个通用的爬虫。

全局配置

为了方便,我在全局配置了一些参数方法

const path = require('path')
const base = require('app-root-dir')// 全局的 require 方式
global.r = (p = base.get(), m = '') => require(path.join(p, m))// 全局的路径配置
global.APP = {R: base.get(),C: path.resolve(base.get(), 'config.js'),P: path.resolve(base.get(), 'package.json'),A: path.resolve(base.get(), 'apis'),L: path.resolve(base.get(), 'lib'),S: path.resolve(base.get(), 'src'),D: path.resolve(base.get(), 'data'),M: path.resolve(base.get(), 'model')
}

为了统一管理,我把所有要抓取的页面地址写到一个配置文件中:

// 所有目标
const targets = {// 技术社区juejinFront: {url: 'https://web-api.juejin.im/query',method: 'POST',options: {headers: {'X-Agent': 'Juejin/Web','X-Legacy-Device-Id': '1559199715822','X-Legacy-Token': 'eyJhY2Nlc3NfdG9rZW4iOiJoZ01va0dVNnhLV1U0VGtqIiwicmVmcmVzaF90b2tlbiI6IkczSk81TU9QRjd3WFozY2IiLCJ0b2tlbl90eXBlIjoibWFjIiwiZXhwaXJlX2luIjoyNTkyMDAwfQ==','X-Legacy-Uid': '5c9449c15188252d9179ce68'}}},// 图片网站pixabay:  {url: 'https://pixabay.com'}
}

如上所示,有的抓取静态页面,有的抓取动态 api,而模拟后者请求的时候,需要设置额外的请求头,post 请求还需要传递 json,都在这里统一配置。

通用类库

分析静态页面我采用了 cheerio 库

cheerio 类似于 node 环境中的 jquery,它能解析页面并提取页面中的相关信息,它暴露出的 api 与 jquery 大同小异,可以理解为 服务端的 jq,如下进行了简单的封装

const cheerio = require('cheerio')const $ = html => cheerio.load(html, {ignoreWhitespace: true,xmlMode: true
})const $select = (html, selector) => $(html)(selector)// 节点属性
const $attr = (html, attr) => $(html).attr(attr)module.exports = {$,$select,$attr
}

superagent 是一个功能完善的 服务端 http 库,它可以把静态页面抓回来提供给 cheerio 来分析,也能抓取动态 api 返回数据,基于此我进行了简单的封装

// 封装 superagent 库
const superagent = require('superagent')
const { isEmpty } = require('lodash')// 页面需要转码 例如 utf-8
const charset = require('superagent-charset')
const debug = require('debug')('superAgent')charset(superagent)const allowMethods = ['GET', 'POST']const errPromise = new Promise((resolve, reject) => {return reject('no url or method is not supported')
}).catch(err => err)/** options 包含 post 数据 和 headers, 如* {*    json: { a: 1 },*    headers: { accept: 'json' }* }*/// mode 区分动态还是静态抓取, unicode 为页面编码方式,静态页面中使用
const superAgent = (url, {method = 'GET', options = {}} = {}, mode = 'dynamic', unicode = 'gbk') => {if(!url || !allowMethods.includes(method)) return errPromiseconst {headers} = optionslet postPromise if(method === 'GET') {postPromise = superagent.get(url)if(mode === 'static') {// 抓取的静态页面需要根据编码模式解码postPromise = postPromise.charset(unicode)}}if(method === 'POST') {const {json} = options
// post 请求要求发送一个 jsonpostPromise = superagent.post(url).send(json)}// 需要请求头的话这里设置请求头if(headers && !isEmpty(headers)) {postPromise = postPromise.set(headers)}return new Promise(resolve => {return postPromise.end((err, res) => {if(err) {console.log('err', err)// 不抛错return resolve(`There is a ${err.status} error has not been resolved`)}// 静态页面,返回 text 页面内容if(mode === 'static') {debug('output html in static mode')return resolve(res.text)}// api 返回 body 的内容return resolve(res.body)})})
}module.exports = superAgent

另外抓回来的数据我们需要读写:

const fs = require('fs')
const path = require('path')
const debug = require('debug')('readFile')// 默认读取 data 文件夹下的文件
module.exports = (filename, filepath = APP.D) => {const file = path.join(filepath, filename)if(fs.existsSync(file)) {return fs.readFileSync(file, 'utf8')} else {debug(`Error: the file is not exist`)}
}
const fs = require('fs')
const path = require('path')
const debug = require('debug')('writeFile')// 默认都写入 data 文件夹下的对应文件
module.exports = (filename, data, filepath) => {const writeData = JSON.stringify(data, '', 't')const lastPath = path.join(filepath || APP.D, filename)if(!fs.existsSync(path.join(filepath || APP.D))) {fs.mkdirSync(path.join(filepath || APP.D))}fs.writeFileSync(lastPath, writeData, function(err) {if(err) {debug(`Error: some error occured, the status is ${err.status}`)}})
}

一切准备就绪之后开始抓取页面

抓取动态 api

以掘金社区为例,需要分析并模拟请求

之前的图片发上来违规,感兴趣的可以围观github

掘金社区的文章的 feed 流是这样实现的,上一页的返回数据中有一个标记`after`,请求下一页时需要把这个 after 值放在 post 的 json 中,其他的参数是一些静态的,抓取的时候可以先写死

const { get } = require('lodash')
const superAgent = r(APP.L, 'superagent')
const { targets } = r(APP.C)
const writeFile = r(APP.L, 'writeFile')
const { juejinFront } = targetslet totalPage = 10 // 只抓取十页const getPostJson = ({after = ''}) => {return {extensions: {query: {id: '653b587c5c7c8a00ddf67fc66f989d42'}},operationName: '',query: '',variables: {limit: 10, category: '5562b415e4b00c57d9b94ac8', after, order: 'POPULAR', first: 20}}
}// 保存所有文章数据
let data = []
let paging = {}const fetchData = async (params = {}) => {const {method, options: {headers}} = juejinFrontconst options = {method, options: {headers, json: getPostJson(params)}}// 发起请求const res = await superAgent(juejinFront.url, options)const resItems = get(res, 'data.articleFeed.items', {})data = data.concat(resItems.edges)paging = {total: data.length,...resItems.pageInfo}pageInfo = resItems.pageInfoif(resItems.pageInfo.hasNextPage && totalPage > 1) {fetchData({after: resItems.pageInfo.endCursor})totalPage--} else {// 请求玩之后写入 data 文件夹writeFile('juejinFront.json', {paging, data})}
}module.exports = fetchData

抓取静态 html

以某电影网站为例

分析该网站的页面,有列表页和详情页,要想拿到磁力链接需要进入详情页,而详情页的链接要从列表页进入,因此我们先请求列表页,拿到详情页 url 之后进入详情页解析页面拿到磁力链接。

可以看到列表页中的 url 可以解析 .co_content8 ul table 下的 a 标签,通过 cheerio 拿到的 dom 节点是一个类数组,它的 each() api 相当于 数组的 forEach 方法,我们通过这种方式来抓取链接。进入详情页之后抓取磁力链接和这个类似。这里面涉及到 es7 的 async await 语法,是异步获取数据的一种有效方式。

const path = require('path')
const debug = require('debug')('fetchMovie')
const superAgent = r(APP.L, 'superagent')
const { targets } = r(APP.C)
const writeFile = r(APP.L, 'writeFile')
const {$, $select} = r(APP.L, 'cheerio')const { movie } = targets// 各种电影类型,分析网站得到的
const movieTypes = {0: 'drama', 1: 'comedy', 2: 'action', 3: 'love', 4: 'sciFi', 5: 'cartoon', 7: 'thriller',8: 'horror', 14: 'war',15: 'crime',
}const typeIndex = Object.keys(movieTypes)// 分析页面,得到页面节点选择器,'.co_content8 ul table'
const fetchMovieList = async (type = 0) => {debug(`fetch ${movieTypes[type]} movie`)// 存电影数据,title,磁力链接let data = []let paging = {}let currentPage = 1const totalPage = 30 // 抓取页while(currentPage <= totalPage) {const url = movie.url + `/${type}/index${currentPage > 1 ? '_' + currentPage : ''}.html`const res = await superAgent(url, {}, 'static')// 拿到一个节点的数组const $ele = $select(res, '.co_content8 ul table')// 遍历$ele.each((index, ele) => {const li = $(ele).html()$select(li, 'td b .ulink').last().each(async (idx, e) => {const link = movie.url + e.attribs.href// 这里去请求详情页const { magneto, score } = await fetchMoreInfo(link)const info = {title: $(e).text(), link, magneto, score}data.push(info)// 按评分倒序data.sort((a, b) => b.score - a.score)paging = { total: data.length }})})writeFile(`${movieTypes[type]}Movie.json`, { paging, data }, path.join(APP.D, `movie`))currentPage++}
}// 获取磁力链接 '.bd2 #Zoom table a'
const fetchMoreInfo = async link => {if(!link) return nulllet magneto = []let score = 0const res = await superAgent(link, {}, 'static')$select(res, '.bd2 #Zoom table a').each((index, ele) => {// 不做这个限制了,有些电影没有 magnet 链接// if(/^magnet/.test(ele.attribs.href)) {}magneto.push(ele.attribs.href)})$select(res, '.position .rank').each((index, ele) => {score = Math.min(Number($(ele).text()), 10).toFixed(1)})return { magneto, score }
}// 获取所有类型电影,并发
const fetchAllMovies = () => {typeIndex.map(index => {fetchMovieList(index)})
}module.exports = fetchAllMovies

数据处理

抓取回来的数据可以存数据库,我目前写在本地,本地的数据也可以作为 api 的数据源,例如电影的数据我可以写一个本地的 api 作为本地开发的 server 来用

const path = require('path')
const router = require('koa-router')()
const readFile = r(APP.L, 'readFile')
const formatPaging = r(APP.M, 'formatPaging')// router.prefix('/api');
router.get('/movie/:type', async ctx => {const {type} = ctx.paramsconst totalData = readFile(`${type}Movie.json`, path.join(APP.D, 'movie'))const formatData = await formatPaging(ctx, totalData)ctx.body = formatData
})module.exports = router.routes()

其中我手动维护了一个分页列表,方便数据给到前端时也实现 feed 流:

// 手动生成分页数据
const {getQuery, addQuery} = r(APP.L, 'url')
const {isEmpty} = require('lodash')module.exports = (ctx, originData) => {return new Promise((resolve) => {const {url, header: {host}} = ctxif(!url || isEmpty(originData)) {return resolve({data: [],paging: {}})}const {data, paging} = JSON.parse(originData)const query = getQuery(url)const limit = parseInt(query.limit) || 10const offset = parseInt(query.offset) || 0const isEnd = offset + limit >= data.lengthconst prev = addQuery(`http://${host}${url}`, {limit, offset: Math.max(offset - limit, 0)})const next = addQuery(`http://${host}${url}`, {limit, offset: Math.max(offset + limit, 0)})const formatData = {data: data.slice(offset, offset + limit),paging: Object.assign({}, paging, {prev, next, isEnd})}return resolve(formatData)})
}

方便的话大家可以把数据写入数据库,这样就能实现爬虫-后端-前端一条龙了哈哈

运行 npm run start 启动 web 服务可以就看到接口啦

✨✨✨

当然,关于爬虫能展开讲的东西太多了,有些站点做了爬虫限制,需要构建 ip 池不定时换 ip,有些需要模拟登录,要学习的东西还有很多,喜欢的小伙伴可以提一些 issue 一起交流一起学习

Fe-Icy/firm-spider

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/560134.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

xshell6 不更新无法使用_世纪金花商联卡无法正常使用 客服:因门店面临改造,涉及品牌、规则每天都在更新...

有效期10年、无消费限制的世纪金花商联卡在半年前开始无法正常使用&#xff0c;11月22日&#xff0c;世纪金花赛高店内200多个零售品牌&#xff0c;只有一个品牌可以无金额限制地正常使用商联卡&#xff0c;世纪金花各门店每日可使用的品牌数量、规则都在变化&#xff0c;什么时…

linux ls 中文乱码_每天一个linux命令:Linux文件类型与扩展名

Linux文件类型和Linux文件的文件名所代表的意义是两个不同的概念。我们通过一般应用程序而创建的比如file.txt、file.tar.gz &#xff0c;这些文件虽然要用不同的程序来打开&#xff0c;但放在Linux文件类型中衡量的话&#xff0c;大多是常规文件&#xff08;也被称为普通文件&…

linux中cooy命令_Linux:CentOS 7中常用的基础命令

对于学习Linux系统来说&#xff0c;命令是必须熟练掌握的第一个部分。Linux系统中的命令有600多个&#xff0c;但常用的基础命令并不多。虽然不同版本的Linux系统的命令稍有不同&#xff0c;但命令的语法与使用方法基本相同&#xff0c;因此读者只要掌握了CentOS 7中常用的基础…

730阵列卡支持多大硬盘_3分钟告诉你:OPPO Reno普通版和旗舰版的差距到底有多大...

昨天OPPO正式发布了Reno系列手机&#xff1a;分为标准版和旗舰版两款。宣传普通版的售价和旗舰版的卖点是手机厂商一贯的传统。为了搞清楚普通版和旗舰版的差距到底有多大&#xff0c;今天我和大家一起扒一扒这两款手机之间的区别到底有多大&#xff0c;供大家在选机时做一个参…

查看list的形状_用Wordcloud生成指定形状的词云图

wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式&#xff0c;通过词云生成的图片&#xff0c;我们可以更加直观的看出某篇文章的故事梗概。首先贴出一张词云图(以哈利波特小说为例)&#xff1a;在生成词云图之前&#xff0c;首先要做一些准备工作1.安装结巴分词库…

oc引导win方法_[OC更新]机械革命8代、9代标压稳定版更新

加关注这种话银家怎么好意思说出口嘛更新机型机械革命Z2G机械革命Z2AIRG机械革命X3(9th ver)机械革命umi air(1080p ver)机械革命X9TI机械革命X8TI-R机械革命X8TI-G机械革命Z2机械革命Z2AIR机械革命X8TI机械革命X8TI PLUS机械革命X3(8th ver)机械革命S1PLUS(8750H)机械革命X2更…

有机晶体数据库_Cambridge Structural Database 2017 晶体结构分析软件分享

文 / 利刃君微信ID / ziyuanliren666全文共2024字&#xff0c;推荐阅读时间6分钟。剑桥结构数据库系统(The Cambridge Structural Database System&#xff0c;简写为CSDS)是基于X光和中子衍射实验唯一的小分子及金属有机分子晶体的结构数据库&#xff0c;收录了全世界范围内所…

win ftp 指定的密码无效。请键入新密码。_重设OS X (macOS)系统帐户密码的5种方法...

为了保护自己的隐私安全&#xff0c;不少 Mac 用户都会选择给自己的设备设置密码&#xff0c;但是时不时的会出现忘掉密码的情况。分享找回&#xff08;重设&#xff09;OS X &#xff08;macOS&#xff09;系统账号密码的5种方法。如果你忘记了 OS X &#xff08;macOS&#x…

滑动翻页效果_Flutter实现3D效果,一个字,炫!

老孟的博客地址&#xff1a;http://laomengit.com/Flutter 中3D效果是通过Transform组件实现的&#xff0c;没有变换效果的实现&#xff1a;class TransformDemo extends StatelessWidget {overrideWidget build(BuildContext context) {return Scaffold( appBar: AppBar(…

MySQL8怎么设置时区为东八区_mysql时区设置为东八区

场景:后台返回给页面的时间统一差8小时。 分析:差八小时,应该是时区问题。具体的是哪一层出的问题呢,mybatis?mysql?系统时间? 解析: 1.查询mysql时区(正常) 输入show variables like "%time_zone%";,显示当前时区 全局参数system_time_zone 系统时区,在My…

mysql网络异常_mysql运行过程中因网络或者数据库原因导致的异常

1、异常信息:The driver has not received any packets from the server异常栈&#xff1a;原因&#xff1a;此异常为jdbc自身的超时限制&#xff0c;一般为应用调用jdbc的API设置了queryTimeout超时限制&#xff0c;当成功获取数据库连接执行sql的时候与mysql服务端断开&#…

js清空文本框的值_一个Vue.js实例控制字变大变小,含样式操作,flex布局。「603」...

这是一个用vue.js对css操作完成的实例。当然用了flex简单布局。一、先创建一个html文件&#xff0c;记得添加vue库文件。二、创建一盒容器vmdiv&#xff0c;用vue绑定它&#xff0c;测试vue绑定后的插入值text1效果。三、加入文本框和两个按钮。四、通过flex排序&#xff0c;让…

mysql mybatis 工具类_我肝了一个星期,为你们整理出了mybatis程序配置教程

1、搭建实验数据库我们创建一个mybatis实验数据库&#xff0c;并创建一个user表为后续实验准备2、IDEA新建项目&#xff0c;连接数据库新建一个普通的maven项目删除src目录&#xff0c;作为父工程pom.xml中导入相关的maven依赖1、 MySQL驱动2、 MyBatis驱动3、 junit驱动连接我…

mysql gt resource_实用干货,MYSQL这么用就对啦

本文主要梳理了 SQL 的基础用法&#xff0c;会涉及到以下方面内容&#xff1a;SQL大小写的规范数据库的类型以及适用场景SELECT 的执行过程WHERE 使用规范MySQL 中常见函数子查询分类如何选择合适的 EXISTS 和 IN子查询了解 SQLSQL 是我们用来和数据打交道的方式之一&#xff0…

python 查看当前目录_Python学习第156课--ls的运用、环境变量以及PATH

【每天几分钟&#xff0c;从零入门python编程的世界&#xff01;】之前简单的介绍了Linux中几个简单的命令。这节再深入一点介绍下 ls 的运用。lsls相当于是list的简写&#xff0c;它的作用是把我们当前目录中的文件列举出来。ls -l把当前目录下的文件以及它的具体信息列举出来…

python对数组的操作_Python对数组的基本操作

# codingutf-8Created on 2014-3-29author: Administrator创建并打印数组arr ["aex", "bfe", "mpilgrim", "zddd", "example"];print(arr);#[aex, bfe, mpilgrim, zddd, example]print(arr[2]);#mpilgrim数组的负索引li[-n…

莫烦python博客_《莫烦Python》笔记 -- numpy部分

个人感觉&#xff0c;在numpy里&#xff0c;从说法上&#xff0c;数组与矩阵可以互换1.1 numpy & pandas有什么用&#xff1f;1.2 numpy & pandas的安装安装Anaconda2.1 numpy属性import numpy as np# 将一个列表转化为矩阵array np.array([[1,2,3],[2,3,4]])# 查看矩…

java 内存情况_java查看jvm内存使用情况

java查看jvm内存使用情况(2012-03-22 15:50:54)标签&#xff1a;jvm内存虚拟机分配itjava.lang.Runtime类提供了查看当前JVM内存的使用情况。每个java实例(即虚拟机实例)只有一个Runtime的实例&#xff0c;通过Runtime.getRuntime()可以得到当前虚拟机中的Runtime实例对象。Run…

java 密码生成器_Java课程设计-随机密码生成器

1.团队课程设计博客链接2.个人负责模板设计程序运行界面&#xff0c;数据的输入&#xff0c;判断数据输入类型的错误&#xff0c;判断密码类型是否选择。3.自己的代码提交记录截图4自己负责模块或任务详细说明(一)总体设计1.系统主要功能(1)输入生成密码长度&#xff1b;(2)判断…

pyecharts本地文件_python数据可视化-pyecharts插件使用文档

pyecharts是百度开源的可视化插件&#xff0c;可以将设计的可视化图表以html格式保存&#xff0c;配合jupyter可以一键生成动态的html数据分析报告。pyecharts和matplotlib的区别在于&#xff0c;pyecharts有更加强大交互的可视化和嵌入html的功能&#xff0c;pyecharts缺点在于…