❝自信、冷静、专注。—— TM 熊的自我勉励
❞
1. 前言
熊二从去年开始,因项目需求接触到xml报文的处理,也是我第一次学习用C/C++的方式处理基于DOM模型的xml报文。因为本人比较懒hhh,所以第一反应就是去看看网上有没有什么大家都在用的比较好的xml处理开源库,站在前辈的肩膀上才能看的更远嘛。
2. 我找到了哪些库
库名称 | 实现语言 | 源码地址 | 基于模型 |
---|---|---|---|
Tinyxml2 | C++ | https://github.com/leethomason/tinyxml2 | DOM |
libxml2 | C | http://xmlsoft.org/sources/win32/libxml2-2.7.8.win32.zip | DOM |
CMarkup | C++ | http://www.firstobject.com/Markup115.zip | DOM |
Mini-XML | C | http://www.msweet.org/files/project3/mxml-2.9.tar.gz | DOM/SAX |
Expat-XML | C | https://github.com/libexpat/libexpat/ | SAX |
Xerces | C++/Java/Perl | http://xerces.apache.org/mirrors.cgi | DOM/SAX |
- SAX(Simple API for XML)是基于事件的,其基本工作流程是分析XML文档,当发现了一个新的元素时,产生一个对应事件,并调用相应的用户处理函数。这种方式占用内存少,速度快,但用户程序相应地会比较复杂。
- DOM(Document Object Model)是在分析时,一次性地将整个XML文档进行分析,并在内存中形成对应的树结构,同时,向用户提供一系列的接口来访问和编辑该树结构。这种方式占用内存大,速度往往慢于SAX,但可以给用户提供一个面向对象的访问接口,对用户更为友好。
❝最后我选择了tinyxml2这个库作为项目使用,但关于这个库,网上的资料看了很多总觉得不算太理想。于是我尝试仅从使用者地角度去看看这个库有没有可能再封装一次,使其处理xml报文变得更简单?
❞
3. 我用到了tinyxml库的哪些功能
- 3.1. 根据 DOM模型,XML 文档中的每个成分都是一个节点。整个文档是一个文档节点,每一个xml元素是一个元素节点,而包含在xml元素中的文本是一个文本节点,每一个xml属性是一个属性节点,总之,基于DOM模型,xml文档皆为节点。tinyxml2正好利用了这一特性,以节点的概念来设计处理函数。
- 3.2. xml报文的处理在广义上来说,无非“增”、“删”、“改”、“查”四部分,我在处理xml报文时,用的最多的就是“增”、“查”,即协议交互中报文的组装和解析。通过将近半年的使用体验,不得不说,真的很感谢tinyxml2的作者Lee Thomason先生,能创作出这个好用的库并开源。接下来我会展示tinyxml组装和解析的步骤,并尝试优化我觉得不合理的地方。
4. xml报文的组装
比如我们要组装这样一段xml报文
<?xml version="1.0" encoding="UTF-8"?>
"south-bear">
0.0.0.0
8888
bear-2
这是用tinyxml2的基本接口组装报文的方法
XMLDocument xmlDoc;
XMLNode* parent = NULL;
XMLElement *child[16] = { NULL };
parent->InsertEndChild( xmlDoc.NewDeclaration("xml version=\"1.0\" encoding=\"UTF-8\""));
child[1]=xmlDoc.NewElement("param"); //创建一个名为param的节点
child[1]->SetAttribute("name","south-bear"); //设置该节点属性
parent->InsertEndChild(child[1]); //将该节点加入到parent节点下
child[2]=xmlDoc.NewElement("ipAddress"); //创建一个名为ipAddress的节点
child[2]->SetText("0.0.0.0"); //设置该节点内容
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下
child[2]=xmlDoc.NewElement("portNo"); //创建一个名为portNo的节点
child[2]->SetText(8888); //设置该节点内容
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下
child[2]=xmlDoc.NewElement("channel"); //创建一个名为channel的节点
child[1]->InsertEndChild(child[2]); //将该节点加入到param节点下
child[3]=xmlDoc.NewElement("Name"); //创建一个名为Name的节点
child[3]->SetText("bear-2"); //设置该节点内容
child[2]->InsertEndChild(child[3]); //将该节点加入到channel节点下
怎么样?第一眼看上去是不是有点懵?感觉很不好记?如果是就对了,我当时第一反应也是这样。tinyxml2库在插入元素节点时都会用到NewElement
和InsertEndChild
等接口,但是每插入一个节点后,想在该节点下插入下一级节点就很容易将节点搞混淆,就是说,你在使用tinyxml2库这个接口时,必须将每一个插入的节点记下,否者可能导致组装的xml报文就是混乱的,另外从篇幅上来看重复的代码还是占太多了。
于是我开始设想,有没有这样一种库,我只需要传入每一级节点的相关参数,就能自动组装xml报文,下面是我设想的组装xml的代码。
XMLDocument xmlDoc;
XMLNode* parent = NULL;
XMLElement *child[16] = { NULL };
child[1]=xmlAddNode(xmlDoc, parent, "param");//创建一个名为param的节点,将该节点加入到parent节点下
xmlSetNodeAttr(child[1], "name", "south-bear");//设置该节点属性
xmlAddNode(xmlDoc,child[1], "ipAddress", "0.0.0.0");//在param节点下添加ipAddress节点
xmlAddNode(xmlDoc,child[1], "portNo", 8888);//在param节点下添加portNo节点
child[2]=xmlAddNode(xmlDoc, child[1], "channel");//在param节点下添加channel节点
xmlAddNode(xmlDoc, child[2], "Name", "bear-2");//在channel节点下添加Name节点
xmlAddNode
和xmlSetNodeAttr
接口是我在tinyxml2库的基础上封装的库。
❝对于
❞xmlAddNode
接口,你需要传入
- xml文档对象
- 想要创建的节点的父节点
- 节点名称
- 该节点的文本内容(可选)
❝对于
❞xmlSetNodeAttr
接口,你需要传入
- 需要设置属性的节点
- 属性名称
- 属性内容 是不是容易理解多了,而且光看child数组元素的下标就能知道当前处在哪一级。操作起来也更方便
5. xml报文的解析
这是用tinyxml2的基本接口解析上述报文的方法
XMLDocument xmlDoc;
XMLElement *pXmlRoot = NULL;
XMLElement *pXmlTra = NULL;
char name[32] = {0};
char ipAddress[32] = {0};
int port = 0;
if(0 == xmlDoc.Parse((const char *)xmlBuf))
{
pXmlRoot = xmlDoc.RootElement();
pXmlTra = pXmlRoot->FirstChildElement("ipAddress");
if (pXmlTra != NULL)
{
strncpy(ipAddress, (pXmlTra->GetText()), (sizeof(ipAddress)-1));
}
pXmlTra = pXmlRoot->FirstChildElement("portNo");
if (pXmlTra != NULL)
{
sscanf(pXmlTra->GetText(), "%d", &port);
}
pXmlTra = pXmlRoot->FirstChildElement("channel");
pXmlTra = pXmlTra->FirstChildElement("Name");
if (pXmlTra != NULL)
{
strncpy(name, (pXmlTra->GetText()), (sizeof(name)-1));
}
}
emmmm....看上去还是很繁琐,能不能变得简洁点?下面是我设想的解析xml报文的代码,
XMLDocument xmlDoc;
XMLElement *pXmlRoot = NULL;
XMLElement *pXmlTra = NULL;
char name[32] = {0};
char ipAddress[32] = {0};
int port = 0;
if(0 == xmlDoc.Parse((const char *)xmlBuf))
{
pXmlRoot = xmlDoc.RootElement();
xmlGetNodeAttr(pXmlRoot, "name", name, sizeof(name));
xmlGetChildNode(pXmlRoot, "ipAddress", ipAddress, sizeof(ipAddress));
xmlGetChildNode(pXmlRoot, "portNo", &port);
xmlGetChildNode(pXmlRoot->FirstChildElement("channel"),"Name", channelName, sizeof(channelName));
}
xmlGetNodeAttr
和xmlGetChildNode
接口是我在tinyxml2库的基础上封装的库。
❝对于
❞xmlGetNodeAttr
接口,你需要传入
- 节点指针
- 属性名称
- 存放属性内容的缓冲区
❝对于
❞xmlGetChildNode
接口,你需要传入
- 父节点
- 想要获取的节点名称
- 存放该节点内容的缓冲区
6.easyxml库
根据上面的设想,我基于tinyxml2库开发了easyxml库,这是源码目录树
├── demo
│ ├── create.cpp
│ ├── parser.cpp
│ └── test.xml
├── src
│ ├── easyxml.cpp
│ ├── easyxml.hpp
│ └── xml_cofig.h
└── third
├── tinyxml2.cpp
└── tinyxml2.h
目录树包含了依赖的tinyxml2源码和使用demo, 在src目录下的即为easyxml库的源码,easyxml库的接口有两个实现版本,用C++函数和宏来实现,两种版本各有优缺点,在使用中我们按照需求场景来选择。「C++函数接口」:
- 优点:利用c++函数的可重载性,解析各种类型的字段时,接口名称可以不变。
- 缺点:因为是函数接口,存在实参转形参的过程。比如当获取字符串类型的字段时,为防止溢出,我们需要传入缓冲区的长度,这样一来函数的入参就要增加一个,观感上就会不整洁。
「宏接口」:
- 优点:因不存在存在实参转形参的过程,完美解决了C++函数接口的缺点,观感整洁。
- 缺点:因宏不具备可重载性,所以解析各种类型的字段时,就要设计该种类型对应的宏接口
❝如上面目录所示,easyxml.hpp存放的是C++函数接口,xml_cofig.h存放的是宏接口 总结:如果是对于少量代码的工程,上面两种版本的选择没有太大的差别,但对于大量代码的工程,推荐选择宏接口。
❞
「easyxml库的开源地址」https://github.com/southbear-club/easyxml
❝其中包含的接口当然不止上面示例代码中的这些库啦,当然一些更原子的操作还是要用tinyxnl2的基本接口的,不过easyxml库已经能帮你解决大部分的xml报文处理的需求了,这个库后续我会持续维护更新,以使得其能应用于更多的场景。欢迎star哟~
❞
7. 关于tinyxml2
「传送门」如果在这之前,你还不太了解xml报文的基础知识,可以访问下面的链接恶补恶补。
❝https://www.runoob.com/dom/dom-intro.html
❞
tinyxml2库的接口使用说明
❝http://leethomason.github.io/tinyxml2/annotated.html
❞
「我遇到了哪些坑」
- XMLDocument类中的Parse函数,可以选择传入"len"参数,即要解析的字节数。如果未指定,TinyXML-2将假定'xml'指向以NULL终止的字符串。
- XMLPrinter类中的CStrSize()函数用以获取xml报文的总长度,但返回值长度包含终止符null,所以用CStrSize()函数获取xml的长度比实际值多1。
- 如果你希望生成的xml报文是不带格式对齐的,那只需要在定义XMLPrinter类的对象时指定compact值为
true
即可,例如:❝
XMLPrinter printer(0,true,0);
❞
暂时就想到了这些坑,真是一把心酸泪,希望你们不要再去踩这些坑了。
8.唠唠叨叨
最近杭州突然变得好冷啊,大家记得添衣服别感冒呀,感冒了干啥都不开心。好啦,以上就是本期的全部内容,学习不是为了变得全知全能,而是为了不再害怕未知,我是熊二,我们下期再见。
推荐阅读:
从cmockery入门C语言单元测试
你的github开源项目还没做持续集成么?赶紧看看这个
还在为查内存泄漏问题痛苦不堪?试试这个神器