找数据?这几个数据源网站就够用了?

来源:经管学苑

转自:经管学苑


大家好,我是小z

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职场的小年轻,还是需要数据进行分析和研究的同学,能够找到合适的数据源都是非常重要的。特别是想要对一个新的领域进行研究和探索,拥有这个领域的数据那都是有十分重要的意义的。

在这里给大家推荐一些能够用上的数据获取方式,有了这些资源,不仅可以在数据收集的效率上能够得到很大的提升,同时也可以学习更多思维方式。

1

公开的数据库

- 国家数据 -

http://data.stats.gov.cn/index.htm


数据来源于中国国家统计局,包含了我国经济民生等多个方面的数据,并且在月度、季度、年度都有覆盖,较为全面和权威,对于社会科学的研究不要太有帮助。最关键的是,网站简洁美观,还有专门的可视化读物。

- CEIC -

http://www.ceicdata.com/zh-hans



最完整的一套超过128个国家的经济数据,能够精确查找GDP, CPI, 进口,出口,外资直接投资,零售,销售,以及国际利率等深度数据。其中的“中国经济数据库”收编了300,000多条时间序列数据,数据内容涵盖宏观经济数据、行业经济数据和地区经济数据。

- wind(万得)-

http://www.wind.com.cn/


万得被誉为中国的Bloomberg,在金融业有着全面的数据覆盖,金融数据的类目更新非常快,据说很受国内的商业分析者和投资人的亲睐。

- 搜数网 -

http://www.soshoo.com/


已加载到搜数网站的统计资料达到7,874本,涵盖1,761,009张统计表格和364,580,479个统计数据,汇集了中国资讯行自92年以来收集的所有统计和调查数据,并提供多样化的搜索功能。

- 中国统计信息网 -

http://www.tjcn.org/


国家统计局的官方网站,汇集了海量的全国各级政府各年度的国民经济和社会发展统计信息,建立了以统计公报为主,统计年鉴、阶段发展数据、统计分析、经济新闻、主要统计指标排行等。

- 亚马逊aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls


来自亚马逊的跨科学云数据平台,包含化学、生物、经济等多个领域的数据集。

- figshare -

https://figshare.com/


研究成果共享平台,在这里你会发现来自世界的大牛们的研究成果分享,同时get其中的研究数据,内容很有启发性,网站颇具设计感。

- github -

https://github.com/caesar0301/awesome-public-datasets


如果觉得前面的数据源还不够,github上的大神已经为大家整理好了一个非常全面的数据获取渠道,包含各个细分领域的数据库资源,自然科学和社会科学的覆盖都很全面,简直是做研究和数据分析的利器。

随便上几个图,满满的都是资源啊

2

 数据交易平台

- 优易数据 -

http://www.youedata.com/

由国家信息中心发起,拥有国家级信息资源的数据平台,国内领先的数据交易平台。平台有B2B、B2C两种交易模式,包含政务、社会、社交、教育、消费、交通、能源、金融、健康等多个领域的数据资源。

- 数据堂 -

http://www.datatang.com/

专注于互联网综合数据交易,提供数据交易、处理和数据API服务,包含语音识别、医疗健康、交通地理、电子商务、社交网络、图像识别等方面的数据。

3

网络指数‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

- 百度指数 -

http://index.baidu.com/



大家都很熟悉的指数查询平台,可以根据指数的变化查看某个主题在各个时间段受关注的情况,进行趋势分析、舆情预测有很好的指导作用。除了关注趋势之外,还有需求分析、人群画像等精准分析的工具,对于市场调研来说具有很好的参考意义。同样的另外两个搜索引擎搜狗、360也有类似的产品,都可以作为参考。

- 阿里指数 -

https://alizs.taobao.com/

国内权威的商品交易分析工具,可以按地域、按行业查看商品搜索和交易数据,基于淘宝、天猫和1688平台的交易数据基本能够看出国内商品交易的概况,对于趋势分析、行业观察意义不小。

- 艾瑞咨询 -

http://www.iresearch.com.cn/


艾瑞作为老牌的互联网研究机构,在数据的沉淀和数据分析上都有得天独厚的优势,在互联网的趋势和行业发展数据分析上面比较权威,艾瑞的互联网分析报告可以说是互联网研究的必读刊物。

- 友盟指数 -

http://www.umeng.com/

‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

友盟在移动互联网应用数据统计和分析具有较为全面的统计和分析,对于研究移动端产品、做市场调研、用户行为分析很有帮助。除了友盟指数,友盟的互联网报告同样是了解互联网趋势的优秀读物。

- 爱奇艺指数 -

http://index.iqiyi.com/


爱奇艺指数是专门针对视频的播放行为、趋势的分析平台,对于互联网视频的播放有着全面的统计和分析,涉及到播放趋势、播放设备、用户画像、地域分布、等多个方面。由于爱奇艺庞大的用户基数,该指数基本可以说明实际情况。

- 猫眼专业版-

http://piaofang.maoyan.com/


电影票房统计分析平台,猫眼专业版有实时的票房统计,影片的排盘情况、上座率和影院数据,对于当前电影的分析是必不可少的。

4

网络采集器

网络采集器是通过软件的形式实现简单快捷地采集网络上分散的内容,具有很好的内容收集作用,而且不需要技术成本,被很多用户作为初级的采集工具。

- 火车采集器 -

http://www.locoy.com/


一款专业的互联网数据抓取、处理、分析,挖掘软件,可以灵活迅速地抓取网页上散乱分布的数据信息,并通过一系列的分析处理,准确挖掘出所需数据,最常用的就是采集某些网站的文字、图片、数据等在线资源。接口比较齐全,支持的扩展比较好用,懂代码的话,可以使用PHP或C#开发任意功能的扩展。

- 八爪鱼 -

http://www.bazhuayu.com/


简单实用的采集器,功能齐全,操作简单,不用写规则。特有的云采集,关机也可以在云服务器上运行采集任务。

- 集搜客 -

http://www.gooseeker.com/

一款简单易用的网页信息抓取软件,能够抓取网页文字、图表、超链接等多种网页元素,提供好用的网页抓取软件、数据挖掘攻略、行业资讯和前沿科技等。

5

网络爬虫

作为极客们最喜欢的数据收集方式,爬虫高度的自由性、自主性都使其成为数据挖掘的必备技能,当然精通python等语言是必要前提。

利用爬虫可以做很多有意思的事情,当然也可以获取一些从其它渠道获取不到的数据资源,更重要的是帮你打开寻找和搜集数据的思路。

- 利用爬虫爬取网络图片 -


爬取的图像素材

你看到某个网站上的图片恰好是你需要的,但是量大单个下载太麻烦,那么利用爬虫你可以快速地进行抓取,并可以根据标签、特征、颜色等信息进行分类储存。从此不缺设计素材,不缺美女图片,连斗图都多了几分自信。

- 利用爬虫爬取高质量资源 -


爬取的音乐资源

我们总是想快速地去搜集高质量的网络资源,但是人工查找比对实在太麻烦,利用爬虫你就可以轻松解决。比如爬取知乎点赞最多的文章列表,爬取网易云音乐评论最多的音乐,爬取豆瓣网高评分的电影或图书……总之,你可以从此拒绝平庸。

- 利用爬虫获取舆情数据 -


爬取的某招聘网站职位信息

比如你可以批量爬取社交平台的数据资源,可以爬取网站的交易数据,爬取招聘网站的职位信息等,可以用于个性化的分析研究。

总之,爬虫是非常强大的,甚至有人说天下没有不能爬的网站,因而爬取数据也成为了很多极客的乐趣。开发出高效的爬虫工具可以帮助我们节省很多时间,可以完全按照自己的需求来订制,想想这个世界就太美好。

6

小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/


比如我们在查看期刊文献的时候看到一张成型的图表,但其本身数据是缺失的,你想获得这个图表的相关数据怎么办?有了这个小工具就非常easy了。直接上传我们需要获得数据的图表,如下:

然后我们就会获得如下的数据反馈,感觉运筹帷幄有木有,对于一些不需要十分精确的分析研究足够使用。

当然并不推荐用这个作为量化分析的依赖,对于定性的分析,做ppt级的数据统计分析就足够了。

- you-get -

https://you-get.org/


这是一个程序员基于python 3开发的项目,已经在github上面开源,支持64个网站,包括优酷、土豆、爱奇艺、b站、酷狗音乐、虾米……总之你能想到的网站都有! 还有一个黑科技的地方,即使是名单上没有的网站,当你输入链接,程序也会猜测你想要下载什么,然后帮你下载。

下载优酷视频

批量下载图片


当然you-get要在python3环境下进行安装,用pip安装好后,在终端输入“you get+你想下载资源的链接”就可以等着收藏资源了。

7

数据导航

收集数据是一种能力,学习收集数据也是一种能力,数据的来源是没有穷尽的,转换一种思维,你就可以获得不一样的数据,下面推荐几个可以用到的大数据导航,从这里面你可能会发现一些你自己想要的东西。每个人喜欢的收集数据的渠道不尽相同,只有尽量多地去见识和实践才会发现更多的适合自己的数据获取方式。

- 199IT大数据导航 -

http://hao.199it.com/

- 数据分析网导航 -

http://www.afenxi.com/hao

- 大数据人导航 -

http://hao.bigdata.ren/

在互联网高度发达的今天,数据资源异常的丰富和庞大,如何高效地获取数据成为一种重要的能力,毕竟获取数据是一切用数据说话的前提。当然往往只需要熟练掌握一两种方法,便足够大多数人应付大多数场景和需求,所以选择合适的数据获取渠道还需要亲自探究。

IT技术分享社区

个人博客网站:https://programmerblog.xyz

文章推荐程序员效率:画流程图常用的工具程序员效率:整理常用的在线笔记软件远程办公:常用的远程协助软件,你都知道吗?51单片机程序下载、ISP及串口基础知识硬件:断路器、接触器、继电器基础知识


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/271226.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

solaris11-text-安装GUI(gnome)

http://blog.chinaunix.net/xmlrpc.php?rblog/article&uid45057&id3018467 1.下载所需的资源Text Installer CDRepository Image(a,b)http://www.oracle.com/technetwork/server-storage/solaris11/downloads/index.html2.用text CD安装solaris11安装那是相当的快呀&a…

java replaceall 大小写_Java replaceAll不区分大小写

Java 中replaceAll如何忽略大小写呢?方式一:在正则表达式前面添加(?i)Testpublic void test_replaceAll33(){String input "I like Java,jAva is very easy and jaVa is so popular.";String replacement"cccc";System.out.println(input);System.out.p…

jdk环境变量配置_jmeter及jdk的环境变量配置

jmeter是apache公司基于java开发的一款开源压力测试工具,其内部原理都是源于java的运行,并支持多种外部插件用于接口及性能测试,最主要的还是开源免费,在安装jmeter前必须配置jdk环境。jdk下载地址:https://www.oracle…

jvm是运行在操作系统之上的,他和硬件没有直接的交互

jvm是运行在操作系统之上的,他和硬件没有直接的交互

SQL语言基础:触发器相关知识介绍​

1、触发器 Trigger介绍触发器可以实现完整性规则和保证一些复杂业务规则的实施。针对示警或满足特定 条件下自动执行某项任务来说,触发器是十分有用的机制。触发器是由事件1驱动的特殊过程,一旦由某个用户定义,任何用户对该触发器指定的数据新…

java struts2值栈ognl_Struts2的值栈和OGNL牛逼啊

Struts2的值栈和OGNL牛逼啊一 值栈简介:值栈是对应每个请求对象的一套内存数据的封装,Struts2会给每个请求创建一个新的值栈,值栈能够线程安全的为每个请求提供公共的数据存取服务。二 OGNL介绍:(1)基本数据:OGNL 是对…

还在用 Notepad++吗? 盘点五款更好用的文本编辑器

来自:oschina.net/news/110987/no-notepad-plus-plus | 责编:乐乐正文 Notepad 一直饱受争议,2018年开始然后引发了大家的关注,这里师长作为技术媒体,不方便带啥节奏,具体事件内容请大家自行百度。其实作…

SQL语言:嵌入式SQL知识笔记

1、概念SQL提供了将SQL语句嵌入到某种高级语言中的使用方式,通常采用预编译的方法将SQL语句嵌入高级语言中。采用的方法由DBMS的预处理程序对源程序进行扫码、识别出SQL语句,把它们转换为主语言调用语句,这样可以让主语言编译程序能识别它&am…

Mysql bat脚本编写_第一次编写bat脚本

** 前言 **今天中午在宿舍不想做什么事,于是想到傻怡的电脑太卡了,多方面原因造成的,多软件安装于系统盘、安装了没用的杀毒软件等等,但是对于windows系统来说呢,使用时间长了,会有很多的缓存文件、日志文件…

windows+caffe(三)——求取图片的均值

这个要在图片已经转化成lmdb格式下才能求均值。。。 1.查看caffe根目录下的bin是否存在compute_image_mean.exe(用的happey大神的) 如果没有存在,你需要打开MainBuilder.sln,右键compute_image_mean-仅用于项目-仅生成compute_ima…

硬盘知识:硬盘中蓝盘、绿盘、黑盘、红盘有什么区别?

今天给大家介绍一下电脑硬盘中蓝盘、绿盘、黑盘、红盘有什么区别?我们平常说的蓝盘、黑盘、红盘、绿盘这些通常指的是西部数据旗下所产的硬盘,通过各自的特点进行了上述的分类。从外观上我们可以通过硬盘上贴的纸的颜色来区分。绿盘:监控盘&a…

java 框架mvc_JAVA框架-MVC模式

MVCMVC 模式代表 Model-View-Controller(模型-视图-控制器) 模式。这种模式用于应用程序的分层开发。Model(模型) - 模型代表一个存取数据的对象或 JAVA POJO。它也可以带有逻辑,在数据变化时更新控制器。View(视图) - 视图代表模型包含的数据的可视化。Controller(…

ndk学习6: 使用gdb调试ndk程序一

生成debug版程序 方法一: 使用ndk-build编译时&#xff0c;加上如下参数NDK_DEBUG1&#xff0c;之后生成so文件之外&#xff0c;还会生成gdbobserver,gdb.setup调式文件 方法二: 修改AndroidManifest.xml文件,增加debuggable属性为true <application android:debuggable&quo…

后端:C#操作Mongodb用法笔记

MongoDB 是一个基于分布式文件存储的数据库。由 C 语言编写。旨在为 WEB 应用提供可扩展的高性能数据存储解决方案。今天主要给大家介绍一下C#编程语言下Mongodb的用法。开发环境为VS2015示例主要包括数据的增删改查、分页查询、文件存储等功能。有需要的朋友可以一起学习一下。…

计算机语言分为三种:机器语言、汇编语言和高级语言

计算机语言有哪几种&#xff1f; 计算机语言分为三种&#xff1a;机器语言、汇编语言和高级语言 1.机器语言 机器语言是用二进制代码表示计算机能直接识别和执行的一种机器指令的集合&#xff0c;它是计算机的设计者通过计算机的硬件结构赋予计算机的操作功能。 优点&#…

asp php java_ASP\JSP\PHP相比各有什么优缺点?

展开全部ASP、JSP、和PHP的优点e5a48de588b662616964757a686964616f31333366306538和缺点&#xff1a;一、ASP优点:1、无需编译2、易于生成3、独立于浏览器4、面向对象5、与任何ActiveX scripting 语言兼容6、源程序码不会外漏缺点:1、Windows本身的所有问题都会一成不变的也累…

js变量提升_学习笔记:JS中的作用域和预解析

知识总结&#xff1a;谢静贤、汤昊在javascript中作用域是非常重要的&#xff0c;本文将会说明作用域以及我们在工作&#xff0c;以及面试中的一些面试题&#xff0c;如果有不足的地方希望大家可以评论指出来&#xff0c;自己一定会及时的改正错误&#xff0c;避免大家走入一些…

ArcGIS Engine开发之旅09--几何对象和空间参考

1.Geometry Geometry 是 GIS 中使用最为广泛的对象集之一&#xff0c;用户在创建、删除、编辑和进行地理分析的时候&#xff0c;就是处理一个包含几何形体的矢量对象&#xff1b;除了显示要素意外&#xff0c;控件对象选择&#xff0c;要素符号化&#xff0c;标注要素&#xf…