php 解析xml 的四种方法(转)

转载链接:http://www.cnblogs.com/likwo/archive/2011/08/24/2151793.html


XML处理是开发过程中经常遇到的,PHP对其也有很丰富的支持,本文只是对其中某几种解析技术做简要说明,包括:Xml parser, SimpleXML, XMLReader, DOMDocument。

1。 XML Expat Parser:

XML Parser使用Expat XML解析器。Expat是一种基于事件的解析器,它把XML文档视为一系列事件。当某个事件发生时,它调用一个指定的函数处理它。Expat是无验证的解析器,忽略任何链接到文档的DTD。但是,如果文档的形式不好,则会以一个错误消息结束。由于它基于事件,且无验证,Expat具有快速并适合web应用程序的特性。

XML Parser的优势是性能好,因为它不是将整个xml文档载入内存后再处理,而是边解析边处理。但也正因为如此,它不适合那些要对xml结构做动态调整、或基于xml上下文结构做复杂操作的需求。如果你只是要解析处理一个结构良好的xml文档,那么它可以很好的完成任务。需要注意的是XML Parser只支持三种编码格式:US-ASCII, ISO-8859-1和UTF-8,如果你的xml数据是其他编码,需要先转换成以上三个之一。
XML Parser常用的解析方式大体有两种(其实就是两个函数):xml_parse_into_struct和xml_set_element_handler。


xml_parse_into_struct

此方法是将xml数据解析到两个数组中:
index数组——包含指向Value 数组中值的位置的指针
value数组——包含来自被解析的 XML 的数据

这俩数组文字描述起来有点麻烦,还是看个例子吧(来自php官方文档)

$simple = "<para><note>simple note</note></para>";
$p = xml_parser_create();
xml_parse_into_struct($p, $simple, $vals, $index);
xml_parser_free($p);
echo "Index array\n";
print_r($index);
echo "\nVals array\n";
print_r($vals);
输出:
Index array
Array
([PARA] => Array([0] => 0[1] => 2)[NOTE] => Array([0] => 1)
)Vals array
Array
([0] => Array([tag] => PARA[type] => open[level] => 1)[1] => Array([tag] => NOTE[type] => complete[level] => 2[value] => simple note)[2] => Array([tag] => PARA[type] => close[level] => 1)
)


其中index数组以标签名为key,对应的值是一个数组,里面包括所有此标签在value数组中的位置。然后通过这个位置,找到此标签对应的值。

如果xml中每组数据格式有出入,不能做到完全统一,那么在写代码时要注意,说不定就得到了错误的结果。比如下面这个例子:

$xml = '
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
';$p = xml_parser_create();
xml_parse_into_struct($p, $xml, $values, $tags);
xml_parser_free($p);
$result = array();
//下面的遍历方式有bug隐患
for ($i=0; $i<3; $i++) {$result[$i] = array();$result[$i]["note"] = $values[$tags["NOTE"][$i]]["value"];$result[$i]["extra"] = $values[$tags["EXTRA"][$i]]["value"];
}
print_r($result);

要是按照上面那种方式遍历,看似代码简单,但是暗藏危机,最致命的是得到错误的结果(extra3跑到第二个para里了)。所以要以一种比较严谨的方式遍历:

$result = array();
$paraTagIndexes = $tags['PARA'];
$paraCount = count($paraTagIndexes);
for($i = 0; $i < $paraCount; $i += 2) {$para = array();//遍历para标签对之间的所有值for($j = $paraTagIndexes[$i]; $j < $paraTagIndexes[$i+1]; $j++) {$value = $values[$j]['value'];if(empty($value)) continue;$tagname = strtolower($values[$j]['tag']);if(in_array($tagname, array('note','extra'))) {$para[$tagname] = $value;}}$result[] = $para;
}

其实我很少用xml_parse_into_struct函数,所以上面所谓“严谨”的代码保不齐还会有其他情况下的bug。- -|
xml_set_element_handler

这种方式是为parser设置处理元素起始、元素终止的回调函数。配套的还有xml_set_character_data_handler用来为parser设置数据的回调函数。这种方式写的代码比较清晰,利于维护。

Example:

$xml = <<<XML
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
XML;$result = array();
$index = -1;
$currData;function charactor($parser, $data) {global $currData;$currData = $data;
}function startElement($parser, $name, $attribs) {global $result, $index;$name = strtolower($name);if($name == 'para') {$index++;$result[$index] = array();}
}function endElement($parser, $name) {global $result, $index, $currData;$name = strtolower($name);if($name == 'note' || $name == 'extra') {$result[$index][$name] = $currData;}
}$xml_parser = xml_parser_create();
xml_set_character_data_handler($xml_parser, "charactor");
xml_set_element_handler($xml_parser, "startElement", "endElement");
if (!xml_parse($xml_parser, $xml)) {echo "Error when parse xml: ";echo xml_error_string(xml_get_error_code($xml_parser));
}
xml_parser_free($xml_parser);print_r($result);

可见,set handler方式虽然代码行数多,但思路清晰,可读性更好,不过性能上略慢于第一种方式,而且灵活性不强。XML Parser支持PHP4,适用于于使用老版本的系统。对于PHP5环境,还是优先考虑下面的方法吧。

2。 SimpleXML

SimpleXML是PHP5后提供的一套简单易用的xml工具集,可以把xml转换成方便处理的对象,也可以组织生成xml数据。不过它不适用于包含namespace的xml,而且要保证xml格式完整(well-formed)。它提供了三个方法:simplexml_import_dom、simplexml_load_file、simplexml_load_string,函数名很直观地说明了函数的作用。三个函数都返回SimpleXMLElement对象,数据的读取/添加都是通过SimpleXMLElement操作。

$string = <<<XML
<?xml version='1.0'?>
<document><cmd>login</cmd><login>imdonkey</login>
</document>
XML;$xml = simplexml_load_string($string);
print_r($xml);
$login = $xml->login;//这里返回的依然是个SimpleXMLElement对象
print_r($login);
$login = (string) $xml->login;//在做数据比较时,注意要先强制转换
print_r($login);

SimpleXML的优点是开发简单,缺点是它会将整个xml载入内存后再进行处理,所以在解析超多内容的xml文档时可能会力不从心。如果是读取小文件,而且xml中也不包含namespace,那SimpleXML是很好的选择。

 

3。 XMLReader

XMLReader也是PHP5之后的扩展(5.1后默认安装),它就像游标一样在文档流中移动,并在每个节点处停下来,操作起来很灵活。它提供了对输入的快速和非缓存的流式访问,可以读取流或文档,使用户从中提取数据,并跳过对应用程序没有意义的记录。
以一个利用google天气api获取信息的例子展示下XMLReader的使用,这里也只涉及到一小部分函数,更多还请参考官方文档。

$xml_uri = 'http://www.google.com/ig/api?weather=Beijing&hl=zh-cn';
$current = array();
$forecast = array();$reader = new XMLReader();
$reader->open($xml_uri, 'gbk');
while ($reader->read()) {//get current dataif ($reader->name == "current_conditions" && $reader->nodeType == XMLReader::ELEMENT) {while($reader->read() && $reader->name != "current_conditions") {$name = $reader->name;$value = $reader->getAttribute('data');$current[$name] = $value;}}//get forecast dataif ($reader->name == "forecast_conditions" && $reader->nodeType == XMLReader::ELEMENT) {$sub_forecast = array();while($reader->read() && $reader->name != "forecast_conditions") {$name = $reader->name;$value = $reader->getAttribute('data');$sub_forecast[$name] = $value;}$forecast[] = $sub_forecast;}
}
$reader->close();

XMLReader和XML Parser类似,都是边读边操作,较大的差异在于SAX模型是一个“推送”模型,其中分析器将事件推到应用程序,在每次读取新节点时通知应用程序,而使用XmlReader的应用程序可以随意从读取器提取节点,可控性更好。
由于XMLReader基于libxml,所以有些函数要参考文档看看是否适用于你的libxml版本。

4。 DOMDocument

DOMDocument还是PHP5后推出的DOM扩展的一部分,可用来建立或解析html/xml,目前只支持utf-8编码。

$xmlstring = <<<XML
<?xml version='1.0'?>
<document><cmd attr='default'>login</cmd><login>imdonkey</login>
</document>
XML;$dom = new DOMDocument();
$dom->loadXML($xmlstring);
print_r(getArray($dom->documentElement));function getArray($node) {$array = false;if ($node->hasAttributes()) {foreach ($node->attributes as $attr) {$array[$attr->nodeName] = $attr->nodeValue;}}if ($node->hasChildNodes()) {if ($node->childNodes->length == 1) {$array[$node->firstChild->nodeName] = getArray($node->firstChild);} else {foreach ($node->childNodes as $childNode) {if ($childNode->nodeType != XML_TEXT_NODE) {$array[$childNode->nodeName][] = getArray($childNode);}}}} else {return $node->nodeValue;}return $array;
}

从函数名上看感觉跟JavaScript很像,应该是借鉴了一些吧。DOMDocument也是一次性将xml载入内存,所以内存问题同样需要注意。PHP提供了这么多的xml处理方式,开发人员在选择上就要花些时间了解,选择适合项目需求及系统环境、又便于维护的方法。

转 

http://www.phpzh.com/archives/525/2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/276562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Golang 微服务系列 go-kit(Log,Metrics,Tracing)

go-kit Log & Metrics & Tracing 微服务监控3大核心 Log & Metrics & Tracing Log Log 模块源码有待分析&#xff08;分析完再补上&#xff09; Metrics 主要是封装 Metrics 接口&#xff0c;及各个 Metrics(Prometheus,InfluxDB,StatsD,expvar) 中间件的封装。…

GDI+

载解压GDI开发包&#xff1b; 2&#xff0e; 正确设置include & lib 目录&#xff1b; 3&#xff0e; stdafx.h 添加&#xff1a; #ifndef ULONG_PTR #define ULONG_PTR unsigned long* #endif #include <gdiplus.h> 4&#xff0e; 程序中添加GDI的包含文件gdip…

shell 练习3

1、编写脚本/root/bin/createuser.sh&#xff0c;实现如下功能&#xff1a;使用一个用户名做为参数&#xff0c;如果指定参数的用户存在&#xff0c;就显示其存在&#xff0c;否则添加之&#xff1b;显示添加的用户的id号等信息2、编写脚本/root/bin/yesorno.sh&#xff0c;提示…

HTML5文件实现拖拽上传

转载链接&#xff1a;http://www.cnblogs.com/caonidayecnblogs/archive/2010/09/09/1821925.html 通过HTML的文件API &#xff0c;Firefox、Chrome等浏览器已经支持从操作系统直接拖拽文件&#xff0c;并上传到服务器。 相对于使用了十多年的HTML表单&#xff0c;这是一个革命…

两个数组结果相减_学点算法(三)——数组归并排序

今天来学习归并排序算法。分而治之归并算法的核心思想是分而治之&#xff0c;就是将大问题转化为小问题&#xff0c;在解决小问题的基础上&#xff0c;再去解决大问题。将这句话套用到排序中&#xff0c;就是将一个大的待排序区间分为小的待排序区间&#xff0c;对小的排序区间…

python实习生面试题_大数据分析实习生面试题库

原标题&#xff1a;大数据分析实习生面试题库大数据分析是一个有吸引力的领域&#xff0c;因为它不仅有利可图&#xff0c;而且您有机会从事有趣的项目&#xff0c;而且您总是在学习新事物。如果您想从头开始&#xff0c;请查看大数据分析实习生面试题库以准备面试要点。大数据…

JavaScript编程语言 基础 (1)

问题&#xff1a;什么是web前端前端&#xff1a;指界面&#xff0c;计算机&#xff08;PC&#xff09;软件桌面的界面&#xff1b; 计算机端的浏览器界面&#xff1b; 移动端的软件&#xff08;app&#xff09;界面&#xff1b; 移动端的浏览器界面。HtmlcssJavaScript 使用网页…

shell结合expect写的批量scp脚本工具

转载链接&#xff1a;http://www.jb51.net/article/34005.htm expect用于自动化地执行linux环境下的命令行交互任务&#xff0c;例如scp、ssh之类需要用户手动输入密码然后确认的任务。有了这个工具&#xff0c;定义在scp过程中可能遇到的情况&#xff0c;然后编写相应的处理语…

ASP记数器

这两天有好几个老的ASP网站要改&#xff0c;其中有要求加记数器&#xff0c;为图简单&#xff0c;就用文本文件的形式存储记数。以前用ifream的形式嵌入&#xff0c;不能很好的控制记数器显示的风格&#xff0c;现在改进了一下&#xff0c;可以很好的与嵌入板块风格结合了。把做…

php利用openssl实现RSA非对称加密签名

转载链接&#xff1a;http://liuxufei.com/weblog/jishu/376.html 1. 先用php生成一对公钥和私钥 $res openssl_pkey_new(); openssl_pkey_export($res,$pri); $d openssl_pkey_get_details($res); $pub $d[key]; var_dump($pri,$pub); 2. 保存好自己的私钥&#xff0c;把公…

[转] DevExpress 第三方控件汉化的全部代码和使用方法

DevExpress.XtraEditors.Controls 此控件包中包含的控件最多&#xff0c;包括文本框&#xff0c;下拉列表&#xff0c;按钮&#xff0c;等等 DevExpress.XtraGrid 网格 DevExpress.XtraBars 菜单栏 和 工具栏 DevExpress.XtraNavBar 导航条 DevExpress.XtraPr…

QPM 性能监控组件总篇

QPM &#xff08;Quality Performance Monitor&#xff09; 是一个质量性能监控组件&#xff0c;可以很方便的查看当前 App 的性能和常用数据。目前主要运行在 Android 平台上&#xff0c;通过集成 QPM 组件&#xff0c;可以在 App 中通过悬浮窗可视化相关实时数据。意在帮助广…

福音!微信个人公众号可以改名了!

微信个人公众号可以改名了&#xff01;&#xff01;&#xff01;今年&#xff0c;我们学校从景德镇陶瓷学院更名为景德镇陶瓷大学&#xff0c;但苦于微信限制&#xff0c;很多微信公众号无法更名。很多组织社团就放弃了原先的关注量&#xff0c;重新申请注册账号。当前我们的订…

js list删除指定元素_删除js数组中的指定元素,有这两步就够了

js数组是js部分非常重要的知识&#xff0c;有时我们有这么个需求js数组删除指定元素&#xff0c;先定义一个函数来获取删除指定元素索引值&#xff0c;然后用js数组删除的方法&#xff0c;来删除指定元素即可&#xff0c;就两步不难&#xff0c;很简单。1、JS的数组对象定义一个…

sudo 安装 常见错误

运行环境Linux&#xff1a; 1、sudo&#xff1a;安装 apt-get install sudo 2、sudo: must be setuid root错误解决方法. ls -l /usr/bin/sudo chown root:root /usr/bin/sudo chmod 4755 /usr/bin/sudo reboot 3、sudo&#xff1a;提示用户无权限之类 在 /etc/…

慕课网高并发实战(一)-并发与高并发基本概念

课程网址 并发&#xff1a; 同时拥有两个或者多个线程&#xff0c;如果程序在单核处理器上运行&#xff0c;多个线程交替得换入或者换出内存&#xff0c;这些线程是同时“存在”的&#xff0c;每个线程都处于执行过程中的某个状态&#xff0c;如果运行在多核处理器上&#xff…

2009最经典名句

一&#xff1a;我的优点是&#xff1a;我很帅&#xff1b;但是我的缺点是&#xff1a;我帅的不明显. 二&#xff1a;谈钱不伤感情&#xff0c;谈感情最他妈伤钱。 三&#xff1a;我诅咒你一辈子买方便面没有调料包。 四&#xff1a;会计说&#xff1a;“你晚点来领工资吧&#…

计算机协会丨让技能得到提升,让思维受到启迪

“ 各位2016级新生&#xff0c;新的学期马上就要开始了&#xff0c;学校的各个组织和社团你真的了解了吗&#xff1f;在眼花缭乱的社团里如何找到自己真正喜欢的呢&#xff1f;或许看完计算机协会的纳新微信你就都明白啦&#xff01;关键词&#xff1a;计算机协会景德镇陶瓷大学…

ondestroy什么时候调用_尾调用和尾递归

尾调用1. 定义尾调用是函数式编程中一个很重要的概念&#xff0c;当一个函数执行时的最后一个步骤是返回另一个函数的调用&#xff0c;这就叫做尾调用。注意这里函数的调用方式是无所谓的&#xff0c;以下方式均可&#xff1a;函数调用: func()方法调用: obj.method()call调用:…

查看/修改Linux时区和时间

转载链接&#xff1a;http://blog.csdn.net/colincjl/article/details/6133036 查看/修改Linux时区和时间 一、时区 1. 查看当前时区 date -R 2. 修改设置时区 方法(1) tzselect 方法(2) 仅限于RedHat Linux 和 CentOS timeconfig 方法(3) 适用于Debian dpkg-reconfigure tzdat…