jq获取表格里的checkbox_Python抓取网页表格(一)

Python有很多包可以抓取数据,如selenium、requests、scrapy、pandas,每个包都有其适用性,个人认为在抓取数据时,代码简洁性和数据获取的准确性是需要考虑的因素,时间快慢倒不用太在意,毕竟用python抓数据本来就大大节省了时间,用不同的方法可能也就是1秒和1分钟的区别。日常中我们总存在抓取表格数据的需求,本文试图用pandas最简洁的代码抓取表格数据,代码非常简单,也很容易上手。

随便选个网页:

http://www.nafmii.org.cn/dcmfx/tzs/ppn/index.html

比如爬取下图中定向工具的注册批文(当然wind里面也有数据,本文只是为了展示如何爬取表格型数据)

72a368f4b746ac19504c4ac2cf9c27e5.png

一、爬取当页

只需要两句关键代码就可以抓取出来,前两句是导入相关模块,第三句输入网址,第四句用pandas读取,由于该网页有很多表格,会以list格式存在ppn这个变量里,点击查看可以发行第十四张表格正是我们所需要的内容。 

8f8898b011f1b4f3621c5425e98e8c75.png

二、全部爬取

但是第一部分只抓取了第一页,如果想要把所有页都抓取出来,同样非常简单,只需编写一个循环。点击下一页可以发现其网址会发生相应改变:http://www.nafmii.org.cn/dcmfx/tzs/ppn/index_2.html

页码会体现在index后面的数字,因此可以将url改为变量的组合,具体看第五句。第一和二句依然是导入相关模块,第三句是生成一个空矩阵,用于存储抓取完的结果,第四句至第八句是一个简单的循环,result变量就是每页抓取的结果,然后不断的添加到output里。最后output就是我们想要的结果。

31f66f92df392eb1f3de9a54cf4a46bf.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/529075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html一个空格多少像素,一个空格占几个字符?

一个空格通常占2个字符,但有些特殊情况占用3个字符。在程序中,空格占用的字符数取决于程序使用的字符集,如:1、使用多字节字符集时,半角空格占用1个字节,全角空格占用2个字节。2、使用Unicode字符集时&…

各种抠图动态图片_不用手。自动、智能抠图,图片去背景

BgEraser 是一款基于 AI 的自动、智能图片去背景工具,无需勾选可用、可删除区域,上传图片,立即下载即扣图完成的图片。AppinnBgEraser 真是懒人的福音。在此之前,比如很好用的在线去背景服务 remove.bg,是需要用户手动…

html用dom显示xml,html DOM文件引用一个XML文件将不会在浏览器中打印

我完全不熟悉这一点,我正在上课,现在变成了一个令人头疼的问题。我有这个HTML DOM文件,它引用了一个XML文件,我需要在浏览器中显示在屏幕上。它应该只打印标题,标题,第一个,最后一个&#xff0c…

bigdecimal 保留两位小数_Python的保留小数及对齐

Python的保留小数:方法1:用round函数(有坑)。median 12.3004886print(round(median, 2)) # 保留两位小数print(round(median, 3)) # 保留三位小数print(round(median, 4)) # 保留四位小数运行结果:12.312.312.3005可以看出Python中的r…

分布式光伏补贴_四川:2020年起工商业分布式光伏已无补贴

来源:四川省发改委日前,四川省发改委发布《四川省分布式光伏建设管理相关政策》,对该省分布式光伏发电项目定义、分类、备案程序、需要国补的项目相关政策进行了梳理。值得注意的是,文件明确,自2020年起,四…

用计算机玩游戏最简单的方法,如何制作电脑简易命令小游戏

满意答案sylvia10172019.01.20采纳率:48% 等级:7已帮助:460人简单的Dos小游戏开始学习java,这周只简单的学习了C的基本语法:输入输出,判断循环,因此用这些东西在java上瞎写了一个DOS小游戏。…

pandas filter_数据分析之Pandas操作(2)

接着数据分析之Pandas操作(1)的介绍,本次介绍在实际应用场景中几个常用的函数。还是以titanic生存数据为例,本次需要导入pandas 、numpy 、scipy三个工具包。import pandas as pdimport numpy as npfrom scipy.stats import zscoretrain_data pd.read_c…

ios 隐藏app的插件_等了5年终于复活,iPhone上最干净好用的微博App

来,先跟小虎妞一起回忆下2013年的微博客户端。(图源水印)那时候,首页还是按时间顺序来的,也没有赴美产子、老爷夫人知道错了的广告。后来,随着微博一次次改版,客户端越来越臃肿,第三方微博客户端像雨后春笋…

html高度为零,html中父div高度为0的原因

问题:在chrome中看到父div高度为0,但里面明明有内容。原因:简单的讲原因就是子元素如果设了float属性,这些子元素就脱离了父div容器的控制,所以父容器认为里面没内容,高度自然变成了0.解决办法:…

算法训练营Day23

#Java #回溯 #组合问题 开源学习资料 Feeling and experiences: 组合总和III:力扣题目链接 找出所有相加之和为 n 的 k 个数的组合,且满足下列条件: 只使用数字1到9每个数字 最多使用一次 返回 所有可能的有效组合的列表 。…

matlab调用python_从MATLAB调用Python函数

尝试使用此MEX文件从MATLAB实际调用Python,而不是像其他人建议的那样。它提供了相当不错的集成:http : //algoholic.eu/matpy/ 您可以轻松地执行以下操作: [X,Y]meshgrid(-10:0.1:10,-10:0.1:10); Zsin(X)cos(Y); py_export(X,Y,Z) stmt spr…

macbook配置java环境变量_配置mac上Java环境变量

从ubuntu上转到mac上来做开发,一切配置都要重新开始1. 下载jrehttp://www.oracle.com/technetwork/java/javase/downloads/index-jsp-138363.html选择合适的版本和安装包2. 一键安装3. 查看是否安装成功scarlettdeMacBook-Air:~ scarlettxu$ java -versionjava vers…

地图 插件 html 经纬度,如何往地图位置(经纬度)选择插件页面传递经纬度

查看了一下代码,发现了解决办法;在edit.html中:{:__(Longitude)}:{:__(Latitude)}:在对应的js代码中:edit: function () {$("[data-toggleaddresspicker]").data("lat-id",c-latitude);$("[data-togglea…

python调用node_在node中执行python脚本

Node.js多进程基础 Node.js 是以单线程的模式运行的,但它使用的是事件驱动来处理并发。这样有助于我们在多核 cpu 的系统上创建多个子进程,从而提高性能。 每个子进程总是带有三个流对象:child.stdin, child.stdout 和child.stderr。他们可能…

idea 自动生成mybaits_IDEA利用mybatis-generator自动生成dao和mapper

pom.xml配置1 2 1.83 1.3.74 5.1.465 1.1.96 1.3.27 89 10 11 org.springframework.boot12 spring-boot-starter-web13 1415 16 org.springframework.boot17 spring-boot-starter-test18 test19 20 21 org.junit.vintage22 junit-vintage-engine23 24 25 26 27 28 org.mybatis.…

计算机专业个人工作总结,年底个人工作总结计算机专业材料

《年底个人工作总结计算机专业材料.doc》由会员分享,可免费在线阅读全文,更多与《年底个人工作总结计算机专业材料》相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索。1、定的进步,但我深知自己还存在些缺点和不足,理论基础还不扎实,业务知识…

docker配置 nacos_Nacos - 阿里开源配置中心

这里是喵了个咪的后端技术分享,觉得写的不错。点个赞,转发一下,关注一下。本文载于个人原创技术博客http://w-blog.cn,转载请注明出处,非法转载抄袭将追究其责任。配置中心相信大家都有听过,zookeeper、apo…

乐高机器人骨奥_乐高机器人这个大坑,为啥大家都拽着孩子往里跳?

上学期我们在美国经常凑一起玩的几家家长给自己挖了个大坑,因为孩子们平时都很喜欢玩乐高积木,而且年龄也差不多大刚升了四年级, 感觉是时候可以整点儿“大事”了,于是把他们动员起来组成了一个乐高机器人团队,还任命我…

微型计算机内存主要,微型计算机的内存容量主要指 ( ) 的容量 (7.0分)

【判断题】青藏高压又称南亚高压,是暖季出现在亚洲大陆南部青藏高原上空对流层顶部的大型暖高压系统。【问答题】电路如图 10 所示,已知: u i1 2V,u i2 1V ,计算电路中 u o1 、u o2 、u o3 、u o 的值。【问答题】您认为大学生阶段的学习生活主要由哪几个部分构成?【判断题】发…

jdbc获取mysql第二行表信息_【奇技淫巧】MySQL另类方法获取元数据信息

问:在进行MySQL注入时,我们通常是通过information_schema元数据来获取表名、字段名信息,从而读取相应数据。但是如果waf或其它过滤了information_schema关键字,那么还有什么方法可以读取元数据信息呢?答:从…