如何使用Puppeteer进行新闻网站数据抓取和聚合

亿牛云代理

导语

Puppeteer是一个基于Node.js的库,它提供了一个高级的API来控制Chrome或Chromium浏览器。通过Puppeteer,我们可以实现各种自动化任务,如网页截图、PDF生成、表单填写、网络监控等。本文将介绍如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。

概述

数据抓取是指从网页中提取所需的数据,如标题、正文、图片、链接等。数据聚合是指将多个来源的数据整合在一起,形成一个统一的视图或报告。数据抓取和聚合是爬虫技术的常见应用场景,它可以帮助我们获取最新的信息,分析舆情,发现趋势等。
使用Puppeteer进行数据抓取和聚合的基本步骤如下:

  1. 安装Puppeteer库和相关依赖
  2. 创建一个Puppeteer实例,并启动一个浏览器
  3. 打开一个新的页面,并设置代理IP和请求头
  4. 访问目标网站,并等待页面加载完成
  5. 使用选择器或XPath定位元素,并获取元素的属性或文本
  6. 将获取的数据存储到本地文件或数据库中
  7. 关闭页面和浏览器

正文

安装Puppeteer库和相关依赖

要使用Puppeteer,我们首先需要安装Node.js环境,以及Puppeteer库和相关依赖。我们可以使用npm命令来安装,如下所示:

// 在命令行中执行以下命令,安装Puppeteer库
npm install puppeteer// 安装http-proxy-agent模块,用于设置代理IP
npm install http-proxy-agent// 安装cheerio模块,用于解析HTML文档
npm install cheerio

创建一个Puppeteer实例,并启动一个浏览器

接下来,我们需要创建一个Puppeteer实例,并启动一个浏览器。我们可以使用puppeteer.launch方法来实现,该方法接受一个可选的配置对象作为参数,其中可以设置浏览器的各种选项,如是否显示界面、是否启用沙盒模式、是否忽略HTTPS错误等。例如:

// 引入puppeteer模块
const puppeteer = require('puppeteer');// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });
})();

打开一个新的页面,并设置代理IP和请求头

然后,我们需要打开一个新的页面,并设置代理IP和请求头。我们可以使用browser.newPage方法来创建一个新的页面对象,该对象提供了与页面交互的各种方法和事件。我们可以使用page.setExtraHTTPHeaders方法来设置请求头,以模拟正常的浏览器行为。我们还可以使用page.authenticate方法来设置代理IP,以避免被目标网站屏蔽或限制。例如:

// 引入http-proxy-agent模块,用于创建代理对象
const HttpProxyAgent = require('http-proxy-agent');// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码await page.authenticate({username: '16YUN',password: '16IP',agent: new HttpProxyAgent('http://www.16yun.cn:9020'),});
})();

访问目标网站,并等待页面加载完成

接下来,我们需要访问目标网站,并等待页面加载完成。我们可以使用page.goto方法来访问一个URL,该方法返回一个Promise对象,表示页面导航的结果。我们可以使用await关键字来等待Promise对象的解决,或者使用then方法来添加回调函数。我们还可以使用page.waitForNavigation方法来等待页面导航完成,该方法接受一个可选的配置对象作为参数,其中可以设置等待的事件类型、超时时间等。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码await page.authenticate({username: '16YUN',password: '16IP',agent: new HttpProxyAgent('http://www.16yun.cn:9020'),});// 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发await page.goto('https://news.163.com/', {waitUntil: 'networkidle2',});
})();

使用选择器或XPath定位元素,并获取元素的属性或文本

然后,我们需要使用选择器或XPath定位元素,并获取元素的属性或文本。我们可以使用page.$方法来获取多个元素。这些方法接受一个字符串作为参数,表示选择器或XPath表达式。我们还可以使用page.evaluate方法来在页面上执行JavaScript代码,并返回执行结果。我们可以使用这个方法来获取元素的属性或文本,或者进行其他操作。例如:

// 创建一个异步函数,用于执行爬虫任务
(async () => {// 创建一个Puppeteer实例,并启动一个浏览器,设置headless为false表示显示界面const browser = await puppeteer.launch({ headless: false });// 打开一个新的页面const page = await browser.newPage();// 设置请求头,模拟正常的浏览器行为await page.setExtraHTTPHeaders({'Accept-Language': 'zh-CN,zh;q=0.9,en;q=0.8','User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.159 Safari/537.36',});// 设置代理IP,使用亿牛云爬虫代理的域名、端口、用户名、密码 await page.authenticate({ username: ‘yiniu’, password: ‘yiniu123’, agent: new HttpProxyAgent(‘http://http-dyn.abuyun.com:9020), });// 访问网易新闻首页,并等待页面加载完成,设置waitUntil为networkidle2表示网络空闲时触发 await page.goto(‘https://news.163.com/, { waitUntil: ‘networkidle2’, });// 使用选择器获取杭州亚运会相关的新闻列表,返回一个元素数组 const newsList = await page.$$(.news_title h3 a’);// 创建一个空数组,用于存储新闻数据 const newsData = [];// 遍历新闻列表,获取每个新闻的标题、链接、时间和来源 for (let news of newsList) { // 获取新闻的标题,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果 const title = await page.evaluate((el) => el.innerText, news);// 获取新闻的链接,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果    const link = await page.evaluate((el) => el.href, news);// 获取新闻的时间和来源,使用page.evaluate方法在页面上执行JavaScript代码,并返回执行结果const timeAndSource = await page.evaluate((el) => el.parentElement.nextElementSibling.innerText,news);// 将新闻数据添加到数组中newsData.push({title,link,timeAndSource,});}// 打印新闻数据 console.log(newsData); })();                                                                                        

案例

运行上述代码,我们可以得到如下输出:

[{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'},{title: '杭州亚运会倒计时200天 火炬接力将于5月15日启动',link: 'https://news.163.com/21/0829/17/GTQ1H7F60001899O.html',timeAndSource: '2021-08-29 17:41:00 来源:中国新闻网'}
]

这样,我们就成功地使用Puppeteer进行了新闻网站数据抓取和聚合。

结语

本文介绍了如何使用Puppeteer进行新闻网站数据抓取和聚合,以网易新闻和杭州亚运会为例。Puppeteer是一个强大的库,它可以让我们轻松地控制浏览器,实现各种自动化任务。通过使用代理IP,我们可以提高爬虫的效果,避免被目标网站屏蔽或限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/64139.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开展自动化方案时,需要考虑哪些内容,开展实施前需要做哪些准备呢?

在开展软件自动化测试方案时,需要考虑以下方面: 选择合适的自动化测试工具:根据项目的需求和技术栈选择适合的自动化测试工具,如Selenium、Appium、Jenkins等。确定自动化测试范围:明确需要自动化的功能模块和业务场景…

PostgreSQL 查询语句大全

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

划分字母区间【贪心算法】

划分字母区间 给你一个字符串 s 。我们要把这个字符串划分为尽可能多的片段,同一字母最多出现在一个片段中。 注意,划分结果需要满足:将所有划分结果按顺序连接,得到的字符串仍然是 s 。返回一个表示每个字符串片段的长度的列表。…

vue3全局事务总线mitt

vue3中$on,$off 和 $once 实例方法已被移除,组件实例不再实现事件触发接口。可以使用Mitt库(其实就是发布订阅模式的设计) 安装 $ npm install --save mitt 内置方法 发布事件 mybus.emit(自定义事件名称,数据);使用方法通过…

python -- 实现路径的匹配,剔除掉指定路径,并保存路径

python – 实现路径的匹配,剔除掉指定路径,并保存路径 在处理nc数据时,由于部分数据在插值的过程中,存在过多的0值,使得在制作标签时该时刻的数据出现报错,但是对于一年的数据量来说,无关紧要&…

HTTP 协议

目录 ​编辑一、HTTP 协议是什么 二、抓包工具的使用 三、HTTP 请求 1、认识 URL 2、认识方法 3、认识请求 “报头” HOST : Content-Length 和 Content-Type​编辑 User-Agent Referer Cookie 四、HTTP 响应 1、认识状态码 2、通过 form 表单构造 H…

38、springboot为 spring mvc 提供的静态资源管理,覆盖和添加静态资源目录

springboot为 spring mvc 提供的静态资源管理 ★ Spring Boot为Spring MVC提供了默认的静态资源管理: ▲ 默认的四个静态资源目录: /META-INF/resources > /resources > /static > /public ▲ ResourceProperties.java类的源代码&#xff0…

iOS开发Swift-6-深色模式,类与对象,MVC模式,弹出框,闭包-趣味问答App

1.创建趣味问答App项目 2.创建一个问题文本,水平居中约束。 创建蓝、红两个按钮,放入Stack View中,给StackView水平居中约束,下边约束,设置两按钮间距为20. 设置进度条view与safe View关系为equal width。设置他们的比…

安装sentry-cli问题

安装sentry-cli问题 1 使用brew install sentry-cli 安装的时候 有时候会报 Error: Xcode alone is not sufficient on Monterey. 2 使用 curl -sL https://sentry.io/get-cli/ | sh 安装成功 Installed sentry-cli 2.20.5 Done! 查看 sentry-cli --version sentry-cli 2.20.…

设计模式—外观模式(Facade)

目录 一、什么是外观模式? 二、外观模式具有什么优点吗? 三、外观模式具有什么缺点呢? 四、什么时候使用外观模式? 五、代码展示 ①、股民炒股代码 ②、投资基金代码 ③外观模式 思维导图 一、什么是外观模式?…

vue3实现日历日期选择(不使用任何插件,纯javaScript实现)

个人项目地址: SubTopH前端开发个人站 (自己开发的前端功能和UI组件,一些有趣的小功能,感兴趣的伙伴可以访问,欢迎提出更好的想法,私信沟通,网站属于静态页面) SubTopH前端开发个人…

中东 Shopify 如何使用 Bytebase 构建一站式数据库开发工作流

公司简介 Salla 是一家 2016 年成立,位于沙特麦加的自建站电商平台。 作为中东 Shopify,其最大的特点是支持阿拉伯语建站,并且提供更多适应中东地区特点的本地化服务。截止目前,已有 47,000 家店铺入驻 Salla,商品销售…

【前端demo】将二进制数转换为十进制数 原生实现

https://github.com/florinpop17/app-ideas 总结 文章目录 效果JavaScript实现进制转换原生代码遇到的问题 效果 二进制转换为十进制若输入为空或不是二进制,提示清空 https://codepen.io/karshey/pen/dywXZYQ JavaScript实现进制转换 parseInt parseInt(111,…

虚拟交换缓存不足导致qt编译失败

qt pro make 失败: virtual memory exhausted: Cannot allocate memory Makefile:9155: recipe for target qrc_myimages.o failed make: *** [qrc_myimages.o] Error 1 make: *** Waiting for unfinished jobs....virtual memory exhausted: Cannot allocate memo…

数据仓库_维度表的两大分类

最近看一篇文章对维度表进行了分类,记录一下。 维度表主要分为两类高基数维度表和低基数维度表。 高基数维度数据 一般是用户资料表、商品资料表类似的资料表。数据量可能是千万级或者上亿级别。 低基数维度数据 一般是配置表,比如枚举值对应的中文含…

2309C++连接宏

枚 哈哈型{啊啊,哈哈};整 哈哈啊(整 i){中 2*i; } #define 新啊(i) \整 新##i(i##型 k){ \整 ji##啊(k);中 j; \}新啊(哈哈);空 主(){整 k新哈哈(啊啊);打印(k); }

图神经网络教程之GAT(pyG)

图神经网络-pyG-GAT 在上一章节介绍了pyG-GCN的使用,除了GCN,还有一些像GAT、GraphSage等等一些,本文将介绍GAT模型的构建 实现了一个使用Graph Attention Network(GAT)的节点分类模型,该模型在Cora数据集上…

《Kali渗透基础》15. WEB 渗透

kali渗透 1:WEB 技术1.1:WEB 攻击面1.2:HTTP 协议基础1.3:AJAX1.4:WEB Service 2:扫描工具2.1:HTTrack2.2:Nikto2.3:Skipfish2.4:Arachni2.5:OWAS…

前端面试必备 | uni-app 篇(P1-15)

文章目录 1. 请简述一下uni-app的定义和特点。2. uni-app兼容哪些前端框架?请列举几个。3. 请简述一下uni-app的跨平台工作原理。4. 什么是条件编译?在uni-app中如何实现条件编译?5. uni-app中的页面生命周期有哪些?请简要介绍。6…

UG\NX CAM二次开发 插入工序 UF_OPER_create

文章作者:代工 来源网站:NX CAM二次开发专栏 简介: UG\NX CAM二次开发 插入工序 UF_OPER_create 效果: 代码: void MyClass::do_it() {tag_t setup_tag=NULL_TAG;UF_SETUP_ask_setup(&setup_tag);if (setup_tag==NULL_TAG){uc1601("请先初始化加工环境…