PHP爬虫类的并发与多线程处理技巧

php爬虫类的并发与多线程处理技巧

PHP爬虫类的并发与多线程处理技巧

引言:
随着互联网的快速发展,大量的数据信息存储在各种网站上,获取这些数据已经成为很多业务场景下的需求。而爬虫作为一种自动化获取网络信息的工具,被广泛应用于数据采集、搜索引擎、舆情分析等领域。本文将介绍一种基于PHP的爬虫类的并发与多线程处理技巧,并通过代码示例来说明其实现方式。

一、爬虫类的基本结构
在实现爬虫类的并发与多线程处理前,我们先来看一下一个基本的爬虫类的结构。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

class Crawler {

    private $startUrl;

    public function __construct($startUrl) {

        $this->startUrl = $startUrl;

    }

    public function crawl() {

        // 获取初始页面的内容

        $content = $this->getContent($this->startUrl);

        // 解析页面内容,获取需要的信息

        $data = $this->parseContent($content);

        // 处理获取到的信息,进行业务逻辑处理或存储

        $this->processData($data);

        // 获取页面中的链接,并递归抓取

        $urls = $this->getUrls($content);

        foreach ($urls as $url) {

            $content = $this->getContent($url);

            $data = $this->parseContent($content);

            $this->processData($data);

        }

    }

    private function getContent($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        return $content;

    }

    private function parseContent($content) {

        // 解析页面内容,提取需要的信息

        // ...

        return $data;

    }

    private function processData($data) {

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

    private function getUrls($content) {

        // 获取页面中的链接

        // ...

        return $urls;

    }

}

上述代码中,我们首先定义一个Crawler类,通过构造函数传入一个起始URL。在crawl()方法中,我们首先获取起始页面的内容,然后解析页面内容,提取需要的信息。之后,我们可以对获取到的信息进行处理,比如存储到数据库中。最后,我们获取页面中的链接,并递归抓取其他页面。

二、并发处理
通常情况下,爬虫需要处理大量的URL,而网络请求的IO操作非常耗时。如果我们采用顺序执行的方式,一个请求完毕后再请求下一个,会极大地降低我们的抓取效率。为了提高并发处理能力,我们可以采用PHP的多进程扩展来实现。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

class ConcurrentCrawler {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function crawl() {

        $workers = [];

        $urlsNum = count($this->urls);

        $maxWorkersNum = 10; // 最大进程数

        for ($i = 0; $i < $maxWorkersNum; $i++) {

            $pid = pcntl_fork();

            if ($pid == -1) {

                die('fork failed');

            } else if ($pid == 0) {

                for ($j = $i; $j < $urlsNum; $j += $maxWorkersNum) {

                    $this->processUrl($this->urls[$j]);

                }

                exit();

            } else {

                $workers[$pid] = true;

            }

        }

        while (count($workers)) {

            $pid = pcntl_wait($status, WUNTRACED);

            if ($status == 0) {

                unset($workers[$pid]);

            } else {

                $workers[$pid] = false;

            }

        }

    }

    private function processUrl($url) {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

上述代码中,我们首先定义了一个ConcurrentCrawler类,通过构造函数传入一组需要抓取的URL。在crawl()方法中,我们使用了多进程的方式来进行并发处理。通过使用pcntl_fork()函数,在每个子进程中处理一部分URL,而父进程负责管理子进程。最后,通过pcntl_wait()函数等待所有子进程的结束。

三、多线程处理
除了使用多进程进行并发处理,我们还可以利用PHP的Thread扩展实现多线程处理。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

class MultithreadCrawler extends Thread {

    private $url;

    public function __construct($url) {

        $this->url = $url;

    }

    public function run() {

        // 发起HTTP请求,获取页面内容

        // ...

        // 解析页面内容,获取需要的信息

        // ...

        // 处理获取到的信息,进行逻辑处理或存储

        // ...

    }

}

class Executor {

    private $urls;

    public function __construct($urls) {

        $this->urls = $urls;

    }

    public function execute() {

        $threads = [];

        foreach ($this->urls as $url) {

            $thread = new MultithreadCrawler($url);

            $thread->start();

            $threads[] = $thread;

        }

        foreach ($threads as $thread) {

            $thread->join();

        }

    }

}

上述代码中,我们首先定义了一个MultithreadCrawler类,继承自Thread类,并重写了run()方法作为线程的主体逻辑。在Executor类中,我们通过循环创建多个线程,并启动它们执行。最后,通过join()方法等待所有线程的结束。

结语:
通过对PHP爬虫类的并发与多线程处理技巧的介绍,我们可以发现并发处理和多线程处理都能够大大提高爬虫的抓取效率。不过,在实际开发过程中,我们需要根据具体的情况选择合适的处理方式。同时,为了保证多线程或多进程的安全性,我们还需要在处理过程中进行适当的同步操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37380.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

关于组织赴俄罗斯(莫斯科)第 28 届国际汽车零部件、汽车维修设备和商品展览会商务考察的通知

关于组织赴俄罗斯&#xff08;莫斯科&#xff09; 第 28 届国际汽车零部件、汽车维修设备和商品展览会商务考察的通知 展会名称&#xff1a;俄罗斯&#xff08;莫斯科&#xff09;第 28 届国际汽车零部件、汽车零部件、汽车维修设备和商品展览会 时间&#xff1a;2024 年 8 月…

Python | Leetcode Python题解之第204题计数质数

题目&#xff1a; 题解&#xff1a; MX5000000 is_prime [1] * MX is_prime[0]is_prime[1]0 for i in range(2, MX):if is_prime[i]:for j in range(i * i, MX, i):#循环每次增加iis_prime[j] 0 class Solution:def countPrimes(self, n: int) -> int:return sum(is_prim…

【MongoDB】分布式数据库入门级学习

SueWakeup 个人主页&#xff1a;SueWakeup 系列专栏&#xff1a;为祖国的科技进步添砖Java 个性签名&#xff1a;保留赤子之心也许是种幸运吧 本文封面由 凯楠&#x1f4f8;友情提供 凯楠&#x1f4f8; - 不夜长安 目录 MongoDB 相关 数据库排行榜单 MongoDB 中文官网 菜鸟…

如何把mkv转成mp4?介绍一下将mkv转成MP4的几种方法

如何把mkv转成mp4&#xff1f;如果你有一个MKV格式的视频文件&#xff0c;但是需要将其转换为MP4格式以便更广泛地在各种设备和平台上播放和共享&#xff0c;你可以通过进行简单的文件格式转换来实现。转换MKV到MP4格式可以提供更好的兼容性&#xff0c;并确保你的视频文件能够…

在预训练语言模型主流架构

文章目录 编码器-解码器架构因果解码器架构前缀解码器架构在预训练语言模型时代,自然语言处理领域广泛采用了预训练 + 微调的范式,并诞生了以 BERT 为代表的编码器(Encoder-only)架构、以 GPT 为代表的解码器(Decoder-only)架构和以 T5 为代表的编码器-解码器(Encoder-d…

React:tabs或标签页自定义右击菜单内容,支持内嵌iframe关闭菜单方案

React&#xff1a;tabs或标签页自定义右击菜单内容&#xff0c;支持内嵌iframe关闭菜单方案 不管是react、vue还是原生js&#xff0c;原理是一样的。 注意如果内嵌iframe情况下&#xff0c;iframe无法使用事件监听&#xff0c;但是可以使用iframe的任何点击行为都会往父级wind…

入门Java爬虫:认识其基本概念和应用方法

Java爬虫初探&#xff1a;了解它的基本概念与用途&#xff0c;需要具体代码示例 随着互联网的快速发展&#xff0c;获取并处理大量的数据成为企业和个人不可或缺的一项任务。而爬虫&#xff08;Web Scraping&#xff09;作为一种自动化的数据获取方法&#xff0c;不仅能够快速…

vue2(vue-cli3x[vue.config.js])使用cesium新版(1.117.0)配置过程

看来很多解决方法都没有办法&#xff0c;最后终于。呜呜呜呜 这里我用的是vue-cli去搭建的项目的vue2 项目&#xff0c;其实不建议用vue2搭配cesium。因为目前cesium停止了对vue2的版本更新&#xff0c;现在默认安装都是vue3版本&#xff0c;因此需要控制版本&#xff0c;否则…

Node.js简介

一&#xff1a;Node.js简介 Node.js是一个跨平台的JavaScript运行环境&#xff0c;使开发者可以搭建服务器端的JavaScript应用程序 作用&#xff1a;使用Node.js编写服务器端程序 编写数据接口&#xff0c;提供网页资源浏览功能有利于前端工程化&#xff0c;可以集成各种开发…

【力扣高频题】011. 盛最多水的容器

前面的算法文章&#xff0c;更新了许多 专题系列 。包括&#xff1a;滑动窗口、动态规划、加强堆、二叉树递归套路 等。 还没读过的小伙伴可以关注一下&#xff0c;在主页中点击对应链接查看哦~ 接下来的一段时间&#xff0c;将持续 「力扣高频题」 系列文章&#xff0c;想刷 …

idea2024使用springboot3.x系列新建java项目,使用jdk17,启动项目报错

身为一名开发人员&#xff0c;敲代码无数&#xff0c;竟被一个小小启动给我卡了大半天&#xff0c;太丢脸了 报错一&#xff1a;Field infoSysRepository in com.erectile.Impl.PersonalInfoServiceImpl required a bean of type ‘com.erectile.jpa.repository.InfoSysReposit…

IP地址与在线教育平台资源分配优化

IP地址的资源分配与优化策略可以帮助在线教育平台提供更高质量、稳定且个性化的教育服务。 IP地址作为网络设备的标识符&#xff0c;能够为在线教育平台提供有关学生地理位置和网络环境信息。通过对学生IP地址的分析&#xff0c;平台可以初步了解学生所在的地区、网络服务提供商…

回收站的照片删除了怎么找回?

大家在日常使用电脑的过程中&#xff0c;难免会遇到不小心删除重要文件的情况&#xff0c;尤其是珍贵的照片。当我们意识到误删照片时&#xff0c;第一反应通常是去回收站找回。然而&#xff0c;如果连回收站的照片都被删除了&#xff0c;该如何恢复呢&#xff1f;本文将详细探…

【MySQL】事务的快照生成时间点和薛定谔的猫相关?

概述 最近因为工作需要&#xff0c;对MySQL的事务处理进行了一系列测试验证&#xff0c;其中&#xff0c;对于MySQL的事务到底时什么时候生成了数据的快照&#xff0c;结果似乎跟薛定谔的猫理念很像&#xff0c;很有意思&#xff1b;过程我贴出来&#xff0c;有兴趣的朋友可以一…

simulink开发stm32,使用中断模块,无法产生中断,其中包括使用timer模块,以及ADC都无法产生中断,需要注意的地方

1&#xff0c;其中包括使用timer模块&#xff0c;以及ADC都无法产生中断&#xff0c;需要注意的地方 原来是需要在配置文件里开启一下timer的中断&#xff0c;其他模块自动加载ioc就可以了&#xff0c;这个timer需要注意力&#xff0c;需要自己勾选一下 如下图&#xff1a; 看…

致敬经典:在国产开源操作系统 RT-Thread 重温 UNIX 彩色终端

引言 上篇文章里我们向大家介绍了 RT-Thread v5.1.0 的一些新特性。其中包括了终端环境的进一步完善。终端是人机交互的重要接口。实用的终端工具可以显著地提升系统使用者的幸福指数。举例来说&#xff0c;当我们想要修改一些系统配置&#xff0c;或是编写脚本时&#xff0c;一…

Linux——echo命令,管道符,vi/vim 文本编辑器

1.echo 命令 作用 向终端设备上输出字符串或变量的存储数据 格式 echo " 字符串 " echo $ 变 量名 [rootserver ~] # echo $SHELL # 输出变量的值必须加 $ /bin/bash [rootserver ~] # str1" 我爱中国 " # 自定义变量 echo 重定向输出到文件 ec…

MySQL数据库——在Centos7环境安装

MySQL在Centos7环境安装 1.切换root用户 安装与卸载中&#xff0c;用户全部切换成为root&#xff0c;安装好后&#xff0c;普通用户也能使用 2.卸载不要的环境 要将自己环境中有关mysql的全都删除&#xff0c;避免安装过程中被影响 ps axj | grep mariadb 先检查是否有mari…

自制全网最便宜的雷达感应灯光画,成本只需5元

自制全网最便宜的雷达感应灯光画&#xff0c;成本5元 ​ 成本组成&#xff1a;带热释电的人体感应灯&#xff08;0.5元&#xff09;雷达感应模块&#xff08;3.5元&#xff09;首饰盒&#xff08;0.45元&#xff09;微喷油画布&#xff08;1元&#xff09;5.45元 ​ 说一下做灯…

Flutter学习:从搭建环境到运行

一、开发环境的搭建 本文所示内容都是在Windows系统下进行的。 1、下载 Flutter SDK Flutter 官网&#xff08;https://docs.flutter.cn/release/archive?tabwindows&#xff09; 或者通过 git clone -b master https://github.com/flutter/flutter.git 下载 2、配置环境…