在读取excel的时候发现有些中文字段无法读取,通过把excel文件解压后对比发现,正常读取和不
能正常读取的中文字段在sharedString.xml中存储的格式有差异,取其中一个字段,如下图:
正常读取的
不能读取的
对比可以看到其区别,然后查找openxlsx对这块的处理,通过调试代码找到代码如下:
const char* XLSharedStrings::getString(uint32_t index) const
{auto iter = xmlDocument().document_element().children().begin();std::advance(iter, index);return iter->first_child().text().get();
}
通过分析代码上下文,并结合getString函数,发现其只处理了si结点的第一个子节点,所以无法
处理上图的存储格式,找到问题了,做一个兼容即可,修改后的代码如下:
const char* XLSharedStrings::getString(uint32_t index) const
{auto iter = xmlDocument().document_element().children().begin();std::advance(iter, index);if (!iter->first_child().empty() && !strcmp(iter->first_child().name(), "r")){pugi::xml_node iter_r = iter->first_child();if (!iter_r.first_child().empty() && !strcmp(iter_r.first_child().name(), "rPr")){pugi::xml_node iter_rPr = iter_r.first_child();if (!iter_rPr.next_sibling().empty() && !strcmp(iter_rPr.next_sibling().name(), "t")){pugi::xml_node iter_t = iter_rPr.next_sibling();return iter_t.text().get();}}}return iter->first_child().text().get();
}
从上面代码可以看到,实际就是如果si标签下面如果是r标签,那就查找rPr标签,然后再找到t标签
即可,如果si标签下面直接是r标签,就还沿用原来的代码。