php snoopy视频教程,php的Snoopy类

用了两天这个类,发现很好用。

获取请求网页里面的所有链接,直接使用fetchlinks就可以,获取所有文本信息使用fetchtext(其内部还是使用正则表达式在进行处理),还有其它较多的功能,如模拟提交表单等。

使用方法:

1、先下载Snoopy类,下载地址:http://sourceforge.net/projects/snoopy/

2、先实例化一个对象,然后调用相应的方法即可获取抓取的网页信息

示例:

include 'snoopy/Snoopy.class.php'; $snoopy = new Snoopy(); $sourceURL = "http://xxxxxxxxx";$snoopy->fetchlinks($sourceURL); $a = $snoopy->results;

它并没有提供获取网页中所有图片地址的方法,自己有个需求是要获取一个页面中所有文章列表中图片地址。然后自己就写了一个,主要还是正则那里匹配重要。

//匹配图片的正则表达式 $reTag = "/

php-weizijiaocheng-266545.html/i";

因为需求比较特殊,只需要抓取写死htp://开头的图片(外站的图片可能使得了防盗链,想先抓取到本地)

实现思路:

1、抓取指定网页,并筛选出预期的所有文章地址;

2、循环抓取第一步中的文章地址,然后使用匹配图片的正则表达式进行匹配,获取页面中所有符合规则的图片地址;

3、根据图片后缀和ID(这里只有gif、jpg)保存图片---如果此图片文件存在,先将其删除再保存

fetchlinks($sourceURL); $a = $snoopy->results; $re = "/\d+\.html$/"; //过滤获取指定的文件地址请求 foreach ($a as $tmp) { if (preg_match($re, $tmp)) { getImgURL($tmp); } } function getImgURL($siteName) { $snoopy = new Snoopy(); $snoopy->fetch($siteName); $fileContent = $snoopy->results; //匹配图片的正则表达式 $reTag = "/

php-weizijiaocheng-266545.html/i"; if (preg_match($reTag, $fileContent)) { $ret = preg_match_all($reTag, $fileContent, $matchResult); for ($i = 0, $len = count($matchResult[1]); $i < $len; ++$i) { saveImgURL($matchResult[1][$i], $matchResult[2][$i]); } } } function saveImgURL($name, $suffix) { $url = $name.".".$suffix; echo "请求的图片地址:".$url."

"; $imgSavePath = "E:/xxx/style/images/"; $imgId = preg_replace("/^.+\/(\d+)$/", "\\1", $name); if ($suffix == "gif") { $imgSavePath .= "emotion"; } else { $imgSavePath .= "topic"; } $imgSavePath .= ("/".$imgId.".".$suffix); if (is_file($imgSavePath)) { unlink($imgSavePath); echo "

文件".$imgSavePath."已存在,将被删除"; } $imgFile = file_get_contents($url); $flag = file_put_contents($imgSavePath, $imgFile); if ($flag) { echo "

文件".$imgSavePath."保存成功"; } }?>

在使用php抓取网页:内容、图片、链接的时候,我觉得最重要的还是正则(根据抓取的内容和指定的规则获取想要的数据),思路其实都比较简单,用到的方法也并不多,也就那几个(而且抓取内容还是直接调用别人写好的类中的方法就可以了)

但之前想过的是php似乎并没有实现如下的方法,比如一个文件中有N行(N很大),需要将其中符合规则的行内容进行替换,如第3行是aaa需要转成bbbbb。一般的需要修改文件时的常见做法:

1、一次读取整个文件(或是逐行读取),然后使用临时文件进行保存最终转换后的结果,再替换原始文件

2、逐行读取,使用fseek控制文件指针的位置,然后fwrite写入

方案1在文件较大时,一次读取不可取(逐行读取,然后写入临时文件再替换原始文件效率感觉也不高),方案2则在被替换的字符串长度小于等于目标值时没问题,但超过了则会有问题,它会“越界”,将下一行的数据也打乱了(不能像JavaScript中有“选区”的概念,使用新的内容进行替换)

下面是使用方案2做试验的代码:

先读取一行,此时文件指针其实是指到下一行开头,使用fseek将文件指针回移到上一行起始位置,然后使用fwrite进行替换操作,正因为是替换操作,在不指定长度的情况下,它把影响到下一行的数据,而我想要的是只想针对这一行进行操作,例如删除这一行或是整行只替换为一个1,上面的例子达不到要求,或许是我还没有找到合适的方法… 你有好的方法吗?

本文原创发布php中文网,转载请注明出处,感谢您的尊重!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/393965.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网页解析 css

网页解析 css转载于:https://www.cnblogs.com/guozepingboke/p/10792298.html

如何看pg数据库版本号_查看pg数据库版本

PostgreSQL 基本命令链接&#xff1a;http://blog.itpub.net/28602568/viewspace-1841163/标题&#xff1a;PostgreSQL 基本命令作者&#xff1a;&#xff4c;ōττ&#xff52;&#xff59;©版权所有[文章允许转载,但必须以链接方式注明源地址,否则追究法律责任.]安装步…

leetcode1091. 二进制矩阵中的最短路径(bfs)

在一个 N N 的方形网格中&#xff0c;每个单元格有两种状态&#xff1a;空&#xff08;0&#xff09;或者阻塞&#xff08;1&#xff09;。一条从左上角到右下角、长度为 k 的畅通路径&#xff0c;由满足下述条件的单元格 C_1, C_2, ..., C_k 组成&#xff1a;相邻单元格 C_i …

lock和synchronized的同步区别与选择

区别如下&#xff1a; 1. lock是一个接口&#xff0c;而synchronized是java的一个关键字&#xff0c;synchronized是内置的语言实现&#xff1b;&#xff08;具体实现上的区别在《Java虚拟机》中有讲解底层的CAS不同&#xff0c;以前有读过现在又遗忘了。&#xff09; 2. syn…

首页显示登陆用户名php,首页登录后怎么在首页显示用户名以及隐藏登录框?

该楼层疑似违规已被系统折叠 隐藏此楼查看此楼index.php&#xff1a;登录页面用户名&#xff1a;密码&#xff1a;没有账号&#xff1f;立即注册——————————————————————————doaction.php&#xff1a;header("Content-type:text/html;charsetutf…

react中使用构建缓存_通过在React中构建Tic Tac Toe来学习ReasonML

react中使用构建缓存3. 7. 2018: UPDATED to ReasonReact v0.4.23. 7. 2018&#xff1a;更新为ReasonReact v0.4.2 You may have heard of Reason before. It’s a syntax on top of OCaml that compiles to both readable JavaScript code and to native and bytecode as well…

echart vue 图表大小_vue里echarts自适应窗口大小改变

echarts的图表提供了一个resize方法可以自适应屏幕窗口改变&#xff0c;而重新渲染图表大小的功能。因此我们只要监听浏览器的窗口改变的resize事件&#xff0c;再结合echarts的图表&#xff0c;就可以实现我们想要的功能了。如果是单个图表的情况的话用window.onresize myCha…

用js检测文本框中输入的是否符合条件并有错误和正确提醒

<!DOCTYPE html> <html><head><meta charset"utf-8"><title>捕获异常</title></head><script type"text/javascript">function my_func(){try{xdocument.getElementById("input_id").value;ale…

leetcode784. 字母大小写全排列(回溯)

给定一个字符串S&#xff0c;通过将字符串S中的每个字母转变大小写&#xff0c;我们可以获得一个新的字符串。返回所有可能得到的字符串集合。 示例: 输入: S “a1b2” 输出: [“a1b2”, “a1B2”, “A1b2”, “A1B2”] 输入: S “3z4” 输出: [“3z4”, “3Z4”] 输入: S…

Petapoco使用SQLite的异常问题

在DbProviderFactory 初始化时&#xff0c;报一个"System.Data.SQLite.SQLiteFactory”的类型初始值设定项引发异常。 解决&#xff1a;不光要引用System.Data.SQLite。还要把SQLite.Interop.dll添加到运行目录下。转载于:https://www.cnblogs.com/crazy29/p/7595552.html…

CPP函数调用的方法

相比于C语言中函数可以直接调用&#xff0c;CPP的函数由于命名存在隐式添加&#xff0c;因此需要通过一套流程才能调用&#xff1a; 1. 编码中&#xff0c;使用extern "C" 定义一个C函数&#xff0c;返回获取对象的指针&#xff1b;执行该函数时&#xff0c;获得一个…

php 算法 二进制文件,关于PHP二进制流 逐bit的低位在前算法(详解)_PHP教程

复制代码 代码如下:/******************************************************* 逐bit的低位在前算法* param $x* return int*/function reverse($x){$result 0;for($i 0; $i < 8; $i){$result ($result <> $i));}return $result & 0xff;}调用展示&#xff1a;…

顶尖科技棋牌游戏开发_如何接受顶尖科技公司的采访

顶尖科技棋牌游戏开发If you’ve ever wondered how to land an interview with top tech companies or know someone who’s been struggling to get an interview with one, then this article is for you.如果您曾经想过如何与顶尖高科技公司进行面谈&#xff0c;或者想知道…

城轨列控系统

关于列控系统想问的问题 1&#xff09;列控系统的组成&#xff1f; 2&#xff09;城轨列控系统和列控系统有哪些区别&#xff1f; 3&#xff09;列控系统的设备图片&#xff1f; 4&#xff09;列控系统的作用&#xff1f; 1、地铁的供电部分&#xff1a; 参考&#xff1a;http:…

Thinkphp 发送邮件

TP框架实现发送邮件&#xff0c;亲测可用1.在模块的配置文件config中加入下里面代码THINK_EMAIL > array(SMTP_HOST > smtp.qq.com, //SMTP服务器SMTP_PORT > 465, //SMTP服务器端口SMTP_USER > 邮箱qq.com, //SMTP服务器用户名SMTP_PASS > 密码, //SMTP服务器密…

leetcode40. 组合总和 II(回溯)

给定一个数组 candidates 和一个目标数 target &#xff0c;找出 candidates 中所有可以使数字和为 target 的组合。 candidates 中的每个数字在每个组合中只能使用一次。 说明&#xff1a; 所有数字&#xff08;包括目标数&#xff09;都是正整数。 解集不能包含重复的组合…

python 面部识别_一文教你在Python中打造你自己专属的面部识别系统

原标题&#xff1a;一文教你在Python中打造你自己专属的面部识别系统人脸识别是用户身份验证的最新趋势。苹果推出的新一代iPhone X使用面部识别技术来验证用户身份。百度也在使“刷脸”的方式允许员工进入办公室。对于很多人来说&#xff0c;这些应用程序有一种魔力。但在这篇…

Computer Vision Review Incompletely

机器视觉牛人及其相关领域分类科普转载于:https://www.cnblogs.com/casperwin/p/6380484.html

php获取特殊标签,thinkphp特殊标签使用

特殊标签1、比较标签eq或者 equal 等于neq 或者notequal 不等于gt 大于egt 大于等于lt 小于elt 小于等于heq 恒等于nheq 不恒等于2.范围标签in(in namen value9,10,11,12)在这些数字里面(else/)不在这些数字的范围内(/in)(notin namen value9,10,11,12)在这些数字里面(else/)不…

leetcode面试题 08.08. 有重复字符串的排列组合(回溯)

有重复字符串的排列组合。编写一种方法&#xff0c;计算某字符串的所有排列组合。 示例1: 输入&#xff1a;S “qqe” 输出&#xff1a;[“eqq”,“qeq”,“qqe”] 示例2: 输入&#xff1a;S “ab” 输出&#xff1a;[“ab”, “ba”] 代码 class Solution {ArrayList&l…