使用Puppeteer进行数据抓取(一)——安装和使用

Puppeteer 是 Google Chrome 团队官方的Chrome 自动化工具。它本身是基于Chrome Dev Protocol协议实现的,但它提供了更高层次API封装,使用起来更加方便快捷。加上google这个大咖加官方的背景,更使得其地位更是提升了不少。

我之前在文章使用Chrome快速实现数据的抓取(五)—— puppeteer中简单的介绍过一下它,之前准备写一系列文章来详细介绍下它的,但由于种种原因一直耽搁了,这篇文章其实在电脑里已经存了不少时间了,今天抽空整理了下,将其发表出来。

 

安装NodeJS

Puppeteer是一个NodeJS的开发包,因此需要安装Node环境的,它本身依赖的最低版本是Node v6.4。但由于里面的大量异步调用,因此最好使用支持async/await的 v7.6或更高版本。

关于NodeJS的安装这里就不介绍了,我这里使用的是windows环境,基本上是一路next就好了。

 

安装puppeteer

建立Node工程后,首先需要引入puppeteer包,使用npm命令即可:

    npm install puppeteer

但这儿有一个需要注意的地方是,这个包会下载一个Chromium,由于网络原因,这个过程是非常慢的,并且也会造成重复下载,每个工程都要下载一个,费时费力。

这个问题的解决方法是,安装时添加--ignore-scripts命令跳过Chromium的下载,

    npm install puppeteer --ignore-scripts

然后指定我们安装的Chrome或Chromium启动。具体方法后面再介绍

 

示例:

首先还是来一个简单的示例。

const puppeteer = require('puppeteer');

async function run () {
    const browser = await puppeteer.launch({
        headlessfalse,
        executablePath"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe"
    });
    const page = await browser.newPage();
    await page.goto('https://tianfang.cnblogs.com');
    await page.screenshot({ path'screen.png' });
    await browser.close();
};

run();

代码很简单,运行后就会启动一个chrome,然后访问我的博客,并且截图保存。

 

启动参数:

首先我们来看前面代码的启动参数:

const browser = await puppeteer.launch({
    headlessfalse,
    executablePath"C:\\Program Files (x86)\\Google\\Chrome\\Application\\chrome.exe"
});

这里我设置了两个参数:

  1. 是否开启界面: headless

如果把它设为true的话,则不显示界面,理论上也有更好的性能。这里将其设置为false,主要是为了调试方便。

  1. Chrome路径: executablePath

因为我安装的时候跳过了Chromium的下载,因此这里显式指定了chrome的路径。

在日常使用中,往往还有些其它参数要设置的。

  1. 用户数据路径: userDataDir

用户数据路径,这样chrome可以使用你的一些设置和缓存

注意: 如果用户数据路径中包含中文,记得将js保存为utf8格式,以免不认识

  1. 其它参数: args

默认情况下,chrome是不加载扩展的,可以在args中启用扩展

args: [
    `--disable-extensions-except=${ext}`,
    `--load-extension=${ext}`
]

 

设置浏览器大小:

默认浏览器大小是1024*768,可以通过page.setViewport设置其大小。

page.setViewport({ width: 1024, height: 768 }); 

 

有了上面基础后,前面代码就改为如下所示了:

const puppeteer = require('puppeteer');

const chrome_exe = String.raw`${process.env["ProgramFiles(x86)"]}\Google\Chrome\Application\chrome.exe`;
const user_data_path = String.raw`${process.env.LocalAppData}\Google\Chrome\User Data\Default`;
async function run() {
    const browser = await puppeteer.launch({
        headlessfalse,
        userDataDiruser_data_path,
        executablePathchrome_exe
    });
    const page = await browser.newPage();
    page.setViewport({ width: 1600, height: 800 });
    await page.goto('https://tianfang.cnblogs.com');
    await page.screenshot({ path'screen.png' });
    await browser.close();
};

run();

 

小结:

由于篇幅所限,本文就简单的介绍到这里。具体进一步使用方法待下一篇文章中继续介绍。感兴趣的朋友可以看看这两篇文章。(实际是同一篇文章,中文的那个是译文)

  1. https://github.com/emadehsan/thal
  2. http://csbun.github.io/blog/2017/09/puppeteer/

另外,虽然有Puppeteer珠玉在前,也还是有Chromeless这样1w多start的受欢迎的第三方社区版本出现,感兴趣的朋友可以了解一下。

 

转载于:https://www.cnblogs.com/TianFang/p/9027187.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/250295.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

读书笔记 --- [基础知识点] 小结1

1. TCP,UDP区别 TCPUDP基于有连接基于无连接对系统资源要求较多对系统资源要求少程序比较复杂程序结构比较简单流模式数据报模式保证数据的准确性不保证数据的准确性保证数据的顺序不保证数据的顺序 2. OSI七层模型以及tcp/ip四层模型 OSI七层模型tcp/ip四层模型常用的5层模型…

连读

一、辅音元音的连读 单词的音标以辅音结尾,下一个单词以元音开头。 1、/n/ /ə/ 连读后就饿会发出“呢” 这个音; 2、/v/ /ə/ son of a bitch 3、/t/ // 4、/t/ /ɔ:/ 差不多是 tall 这个音 not at all 5、/l/ /ɪ/ call it a day // 今天就到…

读书笔记 --- [基础知识点] 小结2

1. TCP和UDP的区别 \TCPUDP是否连接面向连接无连接是否可靠可靠不可靠连接对象个数1对11对1 或1 对多传输方式面向字节面向报文首部开销20字节8字节使用场景可靠传输,如: 文件传输实时应用(IP电话、视频会议、直播等) 2. WebSocket (1)什么是WebSocket? WebSocket是HTML5中的…

Spring差缺补漏

Spring差缺补漏 Spring4.0新特性 1&#xff1a;全面支持java1.8 2&#xff1a;空指针 RequestMapping("/user") public User getUser(String id,Option<String> userName){} 3&#xff1a;泛型依赖注入 public abstract class BaseService<M extends Serial…

tar压缩/解压用法

格式&#xff1a;tar zcvf 压缩后的路径及包名 你要压缩的文件 z:gzip压缩 c:创建压缩包 v:显示打包压缩解压过程 f:接着压缩 t:查看压缩包内容 x:解压 X:指定文件列表形式排除不需要打包压缩的文件或目录 -exclude:指定排除文件或目录不需要打包压缩的文件或目录&#xff08;也…

读书笔记 --- [基础知识点] 小结3

1. cookie与session的区别 参考 cookie机制 Cookie是服务器在本地机器上存储的小段文本,并随每一次发送至同一个服务器。网络服务器用HTTP头向客户端发送cookies,在客户端中,浏览器解析这些cookies并将它们保存为一个本地文件,它会自动将同一服务器的任何请求束缚上这些cook…

SPI接口比IIC速度快的理解

http://bbs.21ic.com/icview-279512-1-1.html I2C 的长处是超级低廉&#xff0c;而且是协议简单的总线。spi是端口&#xff0c;不是总线。 USB协议复杂。I2C因为跨电平的标准&#xff0c;所以是OC 上拉的&#xff0c;上拉高电平驱动能力很弱&#xff0c;所以决定了他跑不快。但…

运维基础测试题

运维基础测试题 一、选择题 1、管道符 ”|” 的作用是 A 将前一个命令的标准输入作为后一个命令的标准输出 B 将前一个命令的标准输出作为后一个命令的标准输入 2、终止一个后台进程需要用到哪个命令 A cp B kill C ctrlc D mv 3.Linux查看文件的命令&#xff0c;若希望…

解决phpmyadmin 遇见的问题

1、phpmyadmin4.8.3 上传到网站目录后提示解决phpmyadmin mysqli_real_connect(): (HY000/2002): No such file or directory的错误&#xff0c; 解决方法把phpmyadmin目录中的配置文件config.sample.inc.php改成config.inc.php&#xff0c;并把 $cfg[Servers][$i][host] loc…

javascript --- 对象属性的深层次获取

现有对象如下 let obj {a: {b:{c:{d:Marron}}} }想通过一个方法,输入该对象和路径a.b.c.d获取Marron的值 【思路】: 首先使用split数据,将a.b.c.d变为[a, b, c, d]然后使用shift()方法每次取出最前面的属性名,存放在prop中新建一个res对象,让res res[prop] 现假设有一函数…

浅谈mysql

因为本地mysql服务的命名是mysql57&#xff0c;所以在终端启动和关闭mysql的时候&#xff0c;我们这么写&#xff0c; net stop mysql57 ;net start mysql57;如图所示 接着输入mysql -u -root -p&#xff1b; 然后输入自己的密码&#xff1b; 查看有多少个库 show database…

HTTP --- HTTP2小结

参考 HTTP发展史 HTTP/0.9 - 单行协议 问世于1990年,那时的HTTP非常简单: 只支持GET方法; 没有首部; 只能获取纯文本 HTTP/1.0 - 搭建协议的框架 1996年,HTTP正式被作为标准公布,版本为HTTP/1.0。1.0版本增加了首部、状态码、权限、缓存、长连接(默认短连接)等规范,可以说搭建…

藤条生长为字母的动画

https://www.youtube.com/watch?vLshPEGiHsqc Blender Tutorial: Vine Animation Text 需要使用插件Add Curve: IvyGen, 进入用户设置,找到并沟选该插件. 建模:立体文字, [Alt C] 转换为网格mesh;选中网格文字,新建藤蔓:[Shift A], Curve\Add Ivy to Mesh左边工具栏下方的IvyG…

RDS Mysql中binlog日志查看

1、在阿里云下载下载的binlog 文件 如&#xff1a;mysql-bin.000217 2、想在本机解析出来&#xff0c;在本机安装mysql5.7版本&#xff08;注意系统版本要比RDS mysql 版本高才行&#xff09; 3、 cmd进入本机mysql\bin目录 e: cd E:\mysql5.7\bin mysqlbinlog -vv --base64-o…

读书笔记 --- 再次阅读回流与重绘

参考 - 强烈推荐看看,这个作者写了很多特别好的文章. 浏览器渲染过程 解析HTML,生成DOM树; 解析CSS生成CSSOM树将DOM树和CSSOM树合并,生成渲染(Render)树Layout(回流): 根据生成的渲染树,视口(viewport),得到节点的几何信息(位置、大小)Painting(重绘): 根据渲染树和几何信息…

2017-2018 ACM-ICPC, Asia Daejeon Regional Contest

C 有n个节点和m边条&#xff0c;求一条最长的路径&#xff0c;该路径(c1,c2,c3...cn)满足 不出现重复的节点&#xff0c;ci 和ci1是邻居节点&#xff0c;且 ci 的邻居节点数量小于ci1的邻居节点数量。 记忆DFS遍历&#xff0c;每次递归计算的值都保存在数组里&#xff0c;这样复…

javascript --- 将DOM结构转换成虚拟DOM 虚拟DOM转换成真实的DOM结构

虚拟DOM的实现 使用虚拟DOM的原因: 减少回流与重绘 将DOM结构转换成对象保存到内存中 <img /> > { tag: img} 文本节点 > { tag: undefined, value: 文本节点 } <img title"1" class"c" /> > { tag: img, data: { title "1&q…

swap(a,b)值交换的4种方法

方法一&#xff1a;int tmp 0; tmp b;b a; a tmp; 方法二&#xff1a;a ab; b a-b; a a-b;方法三&#xff1a;a ^ b ^ a^ b;方法四&#xff1a;a ab-(ba);转载于:https://www.cnblogs.com/vocaloid01/p/9514126.html

装系统工具

安装如果失败,注意是不是工具的版本太老导致 系统分区工具: DiskGeniusPortable 刻录工具: UlraISO rufus https://rufus.ie/ win32diskimager 转载于:https://www.cnblogs.com/jiangfeilong/p/9937164.html

小程序WXML基本使用

数据绑定 <!--wxml--> <view> {{message}} </view> // page.js Page({data: {message: Hello MINA!} }) 列表渲染 <!--wxml--> <view wx:for"{{array}}"> {{item}} </view> // page.js Page({data: {array: [1, 2, 3, 4, 5]} })…