一分钟教你用Excel从统计局抓数据!

全世界只有3.14 % 的人关注了

数据与算法之美


现在呢,从网上爬虫数据来做分析越来越火,如果不会这个skillset做数据处理简直没办法装逼。作为一个兴趣广泛的高能物理phd,自然不能被时代落下。


首先声明,我并没有学过HTML的语言,也没学过VBA,所以自己解释的逻辑应该是非常容易理解的,保证没有任何编程基础的都能学会。当然前提是你有Excel,没有的话出门右转有盗版。


文中的方法其实完全不限于抓取统计局的数据,任何网站都可以想抓就抓,简直如若出入无人之境。(文末有彩蛋哟!)推荐阅读《数据挖掘与分析》


好了,Let's rock!


起初呢,是因为之前业余想试着分析分析中国的宏观数据,上了一下统计局的网站,结果发现简直是灾难...


先来看看美联储的网站:(近期发现好多国内金融文章都开始用这个fed的图了,是不是因为我之前的Macro文章传播的呢~嘚瑟一下)


Federal Reserve Economic Data


640?wx_fmt=jpeg

640?wx_fmt=jpeg


数据量极其丰富,简直想怎么操作就怎么操作,各种加减乘除还有对比应有尽有。


640?wx_fmt=jpeg


如上图就是我想研究carry trade对于美国股市的影响,把他们放在一起可以把相关性看得一清二楚,对整理逻辑非常方便。


但是同时我也想研究国内的数据,然后就懵逼了。


国内统计局的网站是这样,


640?wx_fmt=jpeg

640?wx_fmt=jpeg


Are u kidding me? 只有一个表?还是一个月发布一次?


这一对比就看出来社会主义勤劳质朴的优越性了,自己动手丰衣足食,一个一个数敲进去吧。


我这人比较懒,正当想要放弃的时候突然灵机一动,是不是爬虫可以帮我这个忙呢?


赶紧在知乎上面狂搜一通,发现大部分都是Python语言,估计上手至少得花个好几天。有没有更简单粗暴一点的呢?接着我就搜到了这个问题下面的答案:

https://www.zhihu.com/question/47883186


简直是救星,赶紧撸起袖子撸起来,不对,是干起来。


这里呢,Excel其实对于mac用户非常不友好,因为从网上抓数据这个功能被删掉了,毕竟是Windows的软件...不过不用气馁,我们还有Google doc。


当然,对于Windows用户就没有这个问题了。


先放上示意图:


640?wx_fmt=jpeg


看到没有!统计局的数据全在自己的Excel里了哟~


以后走哪儿数据抓到哪儿,遇神抓神,遇佛抓佛。


接下来就介绍一下具体是怎么操作的:


首先呢,我们需要打开一个Excel


640?wx_fmt=jpeg


然后把光伟正的统计局网页地址放在第一格以示崇敬。(这里我选取的网页是上个月公布的PMI指数,2017年2月中国制造业采购经理指数为51.6%)


接着,我们就开始从这个网页抓取表格数据了:

自己也能抓数据了,想想有些小激动呢~


我们需要先任意选一个舒服的位置,输入一句话:

=IMPORTHTML(A1,"table",1)

如下图:

640?wx_fmt=jpeg

那么这句话是干什么呢?


具体pass给IMPORTHTML( )这个function的是三个argument值:


第一个值就是从A1,也就是统计局网页地址所在Excel的位置来告诉这个function区哪儿抓数据。


第二个值就是选取“table”这个格式,也就是告诉这个function我们想要的是指定网页上面的表格。我们可以从下面的注释看到还有一个选项是“list”,这个是在HTML里面的另一个格式,我们需要的是表格,所以此处可以暂时忽略。(这里有一个很大的限制就是只能选取这个两个格式,如果要做更复杂的condition判断的话就不太可能了,如果stick to Excel的话可能需要借助VBA了。但这里我们只介绍最简单的数据抓取方式。)


第三个值就是网页中的第n个table。这里我选取网页里的第一张表


好了,没了。


640?wx_fmt=jpeg

是不是感觉意犹未尽呢?做好了接受高级装逼知识的思想准备,结果咻的一声就没了?


如果你仅仅只是想要知道怎么用呢,就不用再继续往下看了。


但是身为一个合格的科研人员,工作就是搞清楚为什么。接下来,我们可以更细致看一看具体这个function是怎么抓取的。


首先呢,我们需要用Google浏览器。因为这个浏览器有一个特殊的技能,那就是“Inspect”。


如下图:

640?wx_fmt=jpeg


然后毫不犹豫的点开:


640?wx_fmt=jpeg

640?wx_fmt=jpeg


这右边跳出来的一坨到底是什么东西!


不要急,我们慢慢看嘛。


首先呢,我们可以用一个快捷键command+shift+C(这里我猜Windows用户应该是control+shift+C),然后移到左边我们需要的表格上。


这个时候,惊人的事情发生了。右上角那一坨代码会跟着自己的鼠标移动!


640?wx_fmt=jpeg


其实呢,这个快捷键做的事情很简单,就是指出你鼠标所在位置的代码。右上角那一坨东西就是这整个网页的代码,其中自然也包括了我们需要的表格部分的代码。


Excel所做的事情呢,也就是从这一坨代码里面找出我们需要的表格“table”,然后把表格的内容复制到Excel里面供我们尽情玩乐。


如下图,我们可以看到“table”这个关键字吧,所指代的就是左边的那张表,然后“table”其下的内容就是这张表是怎样呈现在网页上的。


640?wx_fmt=jpeg


看到现在我们应该可以理解Excel是怎么操作的吧,so easy~


但是对于统计局网站的数据抓取其实有一个问题,因为他是一个一个网页发布的数据,并且跟其他数据混在一起随机排列,所以说具体选取需要抓取的网页还是得人工了。


当然Excel还有一个function叫做IMPORTxm_x_l( ),这个function是用来抓取某一个xpath_query的,不局限于上面IMPORTHTML( )这个function只能抓table或者list。


640?wx_fmt=jpeg


所以也可以借助这个function来将网页中的信息,比如说搜索具体关键字的网页地址输入到Excel,然后再将这个网页地址自动输入到一开始的IMPORTHTML( ) function里面用来抓取所有选中网页的table或者list。


其实利用VBA也可以做这件事,不过可能就需要另外学习一下VBA了,不过大概思路感觉应该是这样。


当然如果有编程背景的最好还是用Python或者Java来做爬虫啦,毕竟比较主流,工具包也比较多。后面我也许会再更新一下用Python来做这件事,不过,我懒。


最后的最后,再悄悄告诉一个宇宙无敌超级霹雳最最最简单的方法,简直独门绝技,而且保证一秒钟就学会,无需任何知识背景。


那就是,直接copy and paste。


来源:潮汐社区 智咖专栏

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选   

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg


数据与算法之美

用数据解决不可能


640?wx_fmt=jpeg



长按扫码关注

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/302285.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

记一次 .NET 某HIS系统后端服务 内存泄漏分析

一:背景 1. 讲故事前天那位 his 老哥又来找我了,上次因为CPU爆高的问题我给解决了,看样子对我挺信任的,这次另一个程序又遇到内存泄漏,希望我帮忙诊断下。其实这位老哥技术还是很不错的,他既然能给我dump&a…

freemarker 内置函数

2019独角兽企业重金招聘Python工程师标准>>> 在我们应用Freemarker过程中,经常会操作例如字符串,数字,集合等,却不清楚Freemrker有没有类似于Java一样有相关的类及方法。在本文当中,我将向大家详细的介绍Fr…

专业学习频道,欢迎关注数锐学堂

数锐学堂简介:致力于深耕数学领域的科普学习、竞赛、机器学习等算法技能应用优质课程,精心打造一站式的数学垂直领域教育服务。长按二维码可以关注如果识别二维码有问题请搜索微信号:supermodeling

在非容器(集群)环境下运行dapr

作者:李俱顺原文:https://www.4async.com/2021/03/2021-03-11-running-dapr-without-container/前一段时间一直关注的dapr正式发布了v1.0版本(实际上本文发布时还更新了v1.0.1),代表dapr在某些程度上进入稳定状态,可以尝试在实际中…

【Silverlight5矢量打印】如何用C#代码检测打印机和驱动是否支持PostScript

Silverlight5支持PostScript矢量打印,矢量打印相比于位图打印速度更快,生成的打印文件更小。SL5默认会采用PS矢量打印,如果打印机不支持,自动切换到位图打印。 虽然微软SL打印组认为PS已经相当普遍,但我想大多数打印机…

用魔法打开科学,孩子惊叫连连,想不爱科学都难!

随着当今科技快速发展,和大家对于人工智能快速崛起的担忧,父母们对于孩子科学能力的培养,已经紧锣密鼓的提上了早教日程。看看近两年早教市场里火爆的课程,“少儿编程”、“儿童机器人教育”、“儿童STEAM课程”等等便是印证了这一…

java反射 获取局部变量_Java反射:如何获取变量的名称?

呼唤远方如果您使用以下的调试信息进行编译:javac -g),局部变量的名称保存在.class文件中。例如,以这个简单的类为例:class TestLocalVarNames {public String aMethod(int arg) {String local1 "a string";StringBuil…

svn服务端及客户端搭建和使用(三)

接下来,试试用TortoiseSVN修改文件,添加文件,删除文件,以及如何解决冲突等.添加文件在检出的工作副本中添加一个Readme.txt文本文件,这时候这个文本文件会显示为没有版本控制的状态,如图:这时候,你需要告知TortoiseSVN你的操作,如图:加入以后,你的文件会变成这个状态,如图:这时…

Python的小宇宙,怎么样才能发挥出来?

随着科技的发展,计算机对人类的生产活动和社会活动产生了极为重要的影响,同时以强大的生命力飞速发展着。目前计算机正广泛用于社会各个领域,并朝着微型化、网络化、智能化和巨型化的方向前进。而随着计算机飞速发展的背后,人工智…

面试腾讯,过了~

大概需要10分钟。原谅下,又标题党了,不过这篇会提到我应届面试腾讯的经历。前两天在朋友圈发了一条动态:要做读者朋友的指路小火苗,很多人在状态下留言:为啥不是指路明灯?为啥不是小油灯?原因很…

传说中理科生看到会沉默、文科生看到会流泪的【程序员文史综合题目】

全世界只有3.14 % 的人关注了数据与算法之美一、单选题1、以下谁是二进制思想的最早提出者?a,伏羲;b,姬昌;c,莱布尼茨;d,柏拉图。2、以下哪个概念和公孙龙的《指物论》中的“指”字含…

智能制造建设方案

随着新一轮工业革命的发展,工业转型的呼声日渐高涨。面对信息技术和工业技术的革新浪潮,美国人出台了先进制造业回流计划,提出了工业互联网战略,德国人提出了工业4.0战略,中国加紧推进两化深度融合,并发布了…

深入LINQ | 动态构建LINQ表达式

原文:bit.ly/3fwlKQJ作者:Jeremy Likness译者:精致码农-王亮LINQ 是 Language Integrated Query(语言集成查询)的缩写,是我最喜欢的 .NET 和 C# 技术之一。使用 LINQ,开发者可以直接在强类型代码…

java查找字符的方法_Java字符串查找(3种方法)

在给定的字符串中查找字符或字符串是比较常见的操作。字符串查找分为两种形式:一种是在字符串中获取匹配字符(串)的索引值,另一种是在字符串中获取指定索引位置的字符。根据字符查找String 类的 indexOf() 方法和 lastlndexOf() 方法用于在字符串中获取匹…

2018 Kaggle 报告:在技术领域,女性从业者持续减少,00后开始展露头脚

全世界只有3.14 % 的人关注了数据与算法之美就在上个月,Kaggle社区发布了《2018 Kaggle机器学习和数据科学调研》,调研结果显示:在技术领域,女性从业者持续减少;00后开始登上从业舞台;而且,23%受…

Nuget Package 支持打包 ReadMe 了

Nuget Package 支持打包 ReadMe 了Intro在 3月份,我们在NuGet生态系统状态上发布了一个博客,其中讨论了过去六个月以来从数百名客户那里获得的见解。客户在我们的调查中发现的最大问题之一是,“大多数软件包的文档不足”,可以从Nu…

幸运从来都只偏爱有准备的人——大龄码农的慌张日记

很多人将一件事的成功归结于能力,也有很多人将其归结为运气。今天要在这里跟大家分享的朋友名叫Leon,他在纽村政府注重本地人就业的大环境下,用时1个月以配偶工签的身份成功拿到大厂offer。接到我们的邀稿后,他花了很多心思写了这…

程序员必备表情包,速速收藏!

全世界只有3.14 % 的人关注了数据与算法之美程序猿怒产品 :程序猿不想和你说话,并… 被吐槽写BUG时怎么办 产品又来提需求 产品又要改需求,怎么办 产品说,这个功能三天后就要 日常怼产品 日常工作内心咆哮 来源:网络版…

深度解读服务治理 ServiceMesh、xDS

最近在同程艺龙蹲坑,聊一聊微服务治理的核心难点、历史演进、最新实现。☺️以上内容属自我思考,如理解有偏差、理解不透彻、现状梳理不清楚的请大家多指教。大纲微服务治理的核心难点方案演进的法宝:代理模式2.1 集中式代理2.2 客户端嵌入Sd…

struts2 kindeditor teatarea拿不到值问题。

2019独角兽企业重金招聘Python工程师标准>>> 源&#xff1a; <script type"text/javascript">var editor;KindEditor.ready(function(K) {editor K.create(textarea[name"userinfo.introduce"], {resizeType : 1,allowPreviewEmoticons …