Puppeteer入门初探

本文来自网易云社区

作者:唐钊


最近在看 node 爬虫相关的一些东西,我记得还是很久以前常用的 node 爬虫工具还是 superagengt+cherrio,他们的思路是通过发起 http 请求然后截取 respone 的内容,但是随着前端mvvm等框架的盛行,现在更多的内容是异步加载了,所以通过这种传统的爬虫方式已经很难抓取到我们想要的内容了,那么Puppeteer又有什么亮点呢?接下来我们详细介绍一下这个由 google 官方团队维护的大杀器!

Puppeteer是一个Node库,由Chrome官方团队进行维护,提供接口来控制headless Chrome。Headless Chrome是一种不使用Chrome来运行Chrome浏览器的方式。简单的来说就是一个运行在命令行中的 chrome,我们可以通过代码来实现我们常规的浏览器浏览网页的功能。这样就能保证我们拿到的内容和正常通过浏览器查看的是一毛一样的!


Puppeteer 核心功能

  • 利用网页生成PDF、图片

  • 爬取SPA应用,并生成预渲染内容(即“SSR” 服务端渲染)

  • 可以从网站抓取内容

  • 自动化表单提交、UI测试、键盘输入等

  • 帮你创建一个最新的自动化测试环境(chrome),可以直接在此运行测试用例

  • 捕获站点的时间线,以便追踪你的网站,帮助分析网站性能问题

接下来我们通过一些简单的示例来看一下它的使用


安装

安装还是常规的流程,通过yarn或npm来完成。只需运行下面的命令:

yarn add pupeeter//ornpm i -S puppeteer


DEMO

demo-截屏

const puppeteer = require("puppeteer");   //引入 puppeteer(async() => {    /*通过 launch 生成一个’浏览器‘实例,option 中的 headless 是个布尔值,如果是 false 的话你就会看到一个浏览器从打开,到完成你整个任务的全过程,默认是 true,也就是在后台自动完成你的任务*/const browser = await puppeteer.launch({ headless: false });  //打开一个新的标签页const page = await browser.newPage();    //跳转到我们想要的地址去await page.goto("http://www.hockor.com/");    //默认打开的视口大小是800X600 ,我们可以通过如下代码来设置窗口的大小,await page.setViewport({width:1920,height:1080})    //通过screenshot方法完成截屏,并且保存在指定的 path 中await page.screenshot({ path: "nba.png" });    //最后关闭整个‘浏览器‘browser.close();
})();

过程如下:

201809271032469bff2b5a-df02-4570-9830-886a72158f24.gif


demo-通过搜索引擎拉取图片

上面我们展示了 puppeteer一个基础的 demo 完整实例,但是它更强大的地方还有很多,不仅支持在网页上点击,还可以填写表单,读取数据。大家可以去官方 api 查看,传送链接

接下来开始我们下一个 demo,这个示例我们完成一个在搜索引擎中爬取我们想要的图片并保存到本地的功能。来更进一步的了解这个强大的工具。

  • 我们的任务是在搜狗图片中爬取关键词为“NBA”的图片,并且保存在我们当前的 imgs 目录下。

那么核心的关键点就在于输入我们的关键词并且跳转到对应的列表页面,然后爬取内容中所有的 img 标签,并将其保存在我们制定的目录中。接下来我们详细剖析。

通过查看Puppeteer API,可以找到定义点击的函数和聚焦的函数:

page.click(selector[, options])
page.focus(selector);

以上selector 一个选择器来指定要点击的元素。如果多个元素满足,那么默认选择第一个。 这不正好满足了我们前面的逻辑,输入框聚焦和点击,那么怎么输入关键词呢?

For finer control, you can use keyboard.down, 
keyboard.up, and keyboard.sendCharacter to manually 
fire events as if they were generated from a real keyboard.

可以看到我们可以通过 page.keyboard.sendCharacter 来输入我们自己的文字

正好,这样子我们就满足了我们前期的条件,那么完整的代码如下

const puppeteer = require("puppeteer");
(async ()=>{    const brower = await puppeteer.launch();    const page = await brower.newPage();await page.goto("http://pic.sogou.com/");await page.setViewport({width:1920,height:1080})    //上面的代码和之前是一样的,不同是下面几句//await page.focus("#form_querytext");await page.keyboard.sendCharacter("nba");await page.click("#searchBtn")await page.waitFor(1000);    //监听页面 load 完成page.on('load',async ()=>{        console.log("page loaded");        const srcs = await page.evaluate(()=> {            const images = document.querySelectorAll("img.img-hover");            return Array.prototype.map.call(images,img=>img.src)})        //遍历图片并且保存srcs.forEach(async (src)=> {            console.log(src)            const ext = path.extname(src) ? path.extname(src):".jpg";            const file = path.join('./imgs',`${Date.now()}${ext}`)http.get(src,res=>{res.pipe(fs.createWriteStream(file)).on('finish',(err)=>{                    if(err){                        console.log(err)} else {                        console.log("done")}})})})await brower.close()})
})()

我们可以看到上面的流程就像我们正常浏览网页一样,而不是以前那种在 http response 中去抓取内容,这样子对于现在的很多懒加载页面或者前端渲染来讲我们都能成功的爬取到我们想要的内容。

更多的官方 demo 例子我们可以去https://try-puppeteer.appspot.com/编辑查看。

目前 puppeteer在爬虫和前端自动化测试上使用也日益增大,大家可以去官方 API 文档查看它的更多功能!大家也可以结合自己的需求/业务场景,充分挖掘Puppeteer功能。


网易云免费体验馆,0成本体验20+款云产品! 

更多网易研发、产品、运营经验分享请访问网易云社区


相关文章:
【推荐】 分布式存储系统可靠性系列一:如何估算
【推荐】 常用数据清洗方法大盘点
【推荐】 【你离硅谷只差一步】网易中国创业家大赛项目火热征集中

转载于:https://www.cnblogs.com/zyfd/p/9711947.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/367196.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

访问量大如何增加服务器,服务器流量过大原因及解决方法

造成网站服务器流量过大的原因:1.网站规模较大(比如门户网站、网络商城等),即网站本身访问量需求大,查看网站的Page View值、Hits值、日流量都很高。2.网站页面设计不合理,页面中包含大图片或音频、视频文件等文件,导致…

关于VUE项目地图开发中大量点标记绘制一些总结

问题说明 在地图开发中,当地图中绘制大量的标记点后,无论是拖动或者缩放,都会感觉到明显的卡顿现象。(一般超过800个点后就比较明显了).在平时的工作业务中,由于公司的实时监控页面需要展现5000-20000车辆…

如何使用Java 5 Executor框架创建线程池

Java 5以Executor框架的形式在Java中引入了线程池,它允许Java程序员将任务提交与任务执行分离。 如果要使用Java进行服务器端编程,则线程池是维护系统可伸缩性,鲁棒性和稳定性的重要概念。 对于那些不熟悉Java中的线程池或这里的线程池的概念…

fedora python3-mysql_fedora 安装python mysql

如果你服务器环境允许yum,安装MySQL-python模块就很简单了。如果直接安装不行,先安装MySQL-devel后正常运行yum install mysql-develyum install MySQL-python -y1yum install MySQL–python–y当然也可以源码安装该模块首先安装 setuptools,…

var let 区别

var a 5; var b 10;if (a 5) {let a 4; // if 块级作用域var b 1; // 函数级作用域console.log(a); // 4console.log(b); // 1 } console.log(a); // 5 console.log(b); // 1var声明的变量是函数级的或者是全局的,而let用于声明块级作用域。 在函数或程序顶层…

服务器如何返回429状态,Instagram远程服务器返回一个错误:(429)UNKNOWN STATUS CODE...

我正在使用我自己的instagram api开发一些新程序。 一切都与我工作正常,除了以下的用户脚本 我想按照我的用户ID 的名单,所以我用这个代码Instagram远程服务器返回一个错误:(429)UNKNOWN STATUS CODEforeach (var item in listBox1.Items){We…

使用NetBeans 7.4 beta提示进行更好的基于JUnit的单元测试

在上一篇文章中 ,我写了NetBeans 7.4 beta中提供的提示 ,这些提示提高了开发人员避免Java异常处理带来的讨厌的运行时问题的能力。 在本文中,我将研究如何使用NetBeans 7.4 beta提供的另外两个提示使单元测试在执行单元测试期间更加正确和清晰…

yum 和 rpm安装mysql彻底删除

1、yum方式安装的MySQL $ yum remove mysql mysql-server mysql-libs compat-mysql51 $ rm -rf /var/lib/mysq $ rm /etc/my.cnf 查看是否还有mysql软件: $ rpm -qa|grep mysql 如果存在的话,继续删除即可,删除方式:yum remove 【…

Web 开发中 Blob 与 FileAPI 使用简述

本文节选自 Awesome CheatSheet/DOM CheatSheet,主要是对 DOM 操作中常见的 Blob、File API 相关概念进行简要描述。 Web 开发中 Blob 与 FileAPI 使用简述 Blob 是 JavaScript 中的对象,表示不可变的类文件对象,里面可以存储大量的二进制编…

django1.5 连接mysql_django1.5.5使用mysql

pythn3.3下实现django1.5.5连接mysqldjango1.5.5发布有一段时间了,最大的亮点在于支持python3.在版本上跟进了python3的各种应用。而在数据库方面,django1.5.5的mysqldb却还停止不前。幸在有mysql自发布的connector python连接器对python3的支持。准备工…

Thread部分总结以及小例子

Thread总结:一直以来用thread比较多,一般会在同步以及ui中用到.以下对于经常用作为简单介绍.一 实现方法: 一种直接new thread,另外一种是实现Runnable接口,在创建thread的时候将Runnable直接丢…

服务器e系列和l的区别,i.e.和 e.g.的区别和使用方法

举例说明在很多文章中都有使用过,我想这个对大家应该并不陌生,但是大家知道ie和eg的区别吗,他们两个都是举例子的缩写词,但是他们之间的区别大家知道吗,今天我们就来介绍下这两个举例说明的缩写词到底有什么不一样。一…

django QuerySet对象转换成字典对象

今天做一个添加购物车的模块,在添加商品之前要先验证用户是否处于登录状态,前台用ajax异步发送请求,后台在接收到请求后从session中取出用户登录信息。 根据登录信息从用户表中查询出对应用户,再将状态码和用户信息返回到前台&…

通过基于JDBC的用户存储部署Identity Server

在这篇文章中,我将演示如何使用JDBC用户存储配置WSO2 Identity Server。 为了演示,我使用的是MySQL用户存储,但是相同的过程也适用于任何其他JDBC用户存储。 我的环境是 操作系统– Ubuntu 12.10 Java – 1.6 WSO2是4.5.0 设置MySQL数据库…

前端路由实现原理(history)

前端路由实现(history) 了解: HTML5 history新增了两个API:history.pushState和history.replaceState 两个api都接受三个参数 状态对象(state object):一个JavaScript对象,与用pushState()方法…

mysql中临时表的特点_解析Mysql临时表及特点

临时表是当连接没有断开时存在,一旦断开就不会存在,临时表的数据和结构都在内存中,可以做个测验,你创建一个临时表,但是到响应的数据目录下并不会找到.frm文件mysql> CREATE TEMPORARY TABLE tmp_table (->->…

原生js实现一个连连看小游戏(三)-----------点击列表获取索引

需求&#xff1a;当点击一个列表时&#xff0c;我们要知道它在列表的第几项&#xff0c;即索引&#xff0c;代码实现如下&#xff1a; <!DOCTYPE html> <html> <head><title></title> </head> <body><ul id"myUl">&…

3、数组和集合

数组 ------------------------------------------------------------------ 一维数组 object Demo2 {def main(args: Array[String]): Unit {//定义数组&#xff0c;并指定长度val arr1 new Array[Int](5)arr1(0) 1arr1(2) 4printarr(arr1)//初始化并赋值val arr2 Array[…

unity 删除服务器项目,在吗?有个支持批量构建项目的好东西推荐给你

Unity Build Server是一种全新的项目构建辅助工具&#xff0c;它可以指定硬件设备&#xff0c;专门用于构建项目版本&#xff0c;帮助工作室大规模构建项目&#xff0c;提高团队生产力。很多人在选择Unity时并不会首先考虑到项目构建问题&#xff0c;而随着项目变得更大、更复杂…

使用WSO2 ESB构建制造服务总线(MSB)

在开始讨论本主题之前&#xff0c;我想介绍一些制造业中常用的术语。 术语制造执行系统&#xff08;MES&#xff09;由AMR Research于1990年提出&#xff0c;从先进的制造计算机信息系统的发展&#xff0c;MES概念已经发展了近三十年。 以下是制造执行系统协会&#xff08;MES…