Pandas 读写html,pandas提供read_html(),to_html()两个函数用于读写html格式的文件。这两个函数非常有用,把DataFrame等复杂的数据结构转换成HTML表格很简单,无需编写一长串HTML代码就能实现。pandas这方面的能力很强大,如果你从事web开发,这个功能将给你带来很多便捷。
读取网页数据这种操作被称为网页抓取,应用比较广泛,它逐渐演变成数据分析过程中的一项基础操作,被整合到了数据分析的第一步-数据挖掘和数据准备。
写入数据到HTML文件
现在我们来学习把DataFrame转换成HTML表格的方法。DataFrame的内部结构被自动转换为嵌入在表格中的
,,标签,保留所有内部层级结构。使用该函数,无需了解HTML知识。因为有时候DataFrame等数据结构太复制,规模很大,所以对需要开发网页的人来说,往HTML文件中写入数据的函数作用很大。to_html()函数可以直接把DataFrame转换成HTML表格,该函数在Pandas数据结构内部定义,因为可以直接在DataFrame对象上调用to_html()函数,如下例所示:
输出结果如下所示:
如上所示,该函数按照DataFrame的内部结构,正确生成了创建HTML表格所需的HTML标签。
下面的例子演示如何在HTML文件中自动生成表格,我们创建一个比上面更加复杂、具有索引和列名称的DataFrame对象。如下所示:
输出结果如下:
现在,请把注意力放在如何生成一个字符串并把它写入到HTML页面上,这个例子虽然短小,但是可以帮助快速理解和测试pandas的功能。下面定义HTML的页面内容:
将HTML页面内容html写