阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

摘要: 目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集。开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。

点此查看原文:http://click.aliyun.com/m/40813/

目前阿里云MaxCompute大数据产品已经免费向全部用户开放了多种公用数据集。在此之前,获取,分析,下载自定义的大型分析数据集需要数小时乃至数天才能完成。

而现在阿里云的任何用户都可以通过基于大数据计算服务MaxCompute 的数据工场DataWorks快速、便捷的分析这些公用数据集。
开通MaxCompute&数据工场的教程参考:https://help.aliyun.com/document_detail/27803.html

我们将股票价格、房产、影视等多种类型的数据免费开放给用户,使得大家免去了复杂的数据获取、上传、清洗等过程,可以直接进入数据分析阶段,通过这种数据开放形式,我们希望能以更快的速度实现更多的创新。

大家也可以通过数加体验馆(https://data.aliyun.com/experience)来使用这些数据,近距离的感受阿里云数加(大数据)产品;

目前我们开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据。所有的数据均被存储在MaxCompute 产品中的public_data 项目中。以下,我们将对这些数据做更为详细的介绍,并简要说明如何通过MaxCompute 及数据工场服务并分析这些数据。

获取权限

首选,需要用户以项目空间的owner 或者管理员的身份,在自己的项目空间下,执行如下操作。执行完成后用户项目空间下的所有成员均可读取各公开数据集合:

add user ALIYUN$everyone;

执行该语句后即可执行查询:
图片描述

特殊说明
公开数据集合对所有MaxCompute 用户开放,这是通过MaxCompute 特殊的授权机制实现的。在使用过程中,用户需要足以一下几点:
1. 所有数据均存储在一个名为public_data 的项目空间中,但所有用户并未被加入到该空间下(非项目空间成员)。因此,用户需要跨项目空间访问数据,在数据工场中编辑SQL 时,必须在表明前指定项目名称,例如:

Select * from public_data.ods_enterprise_share_basic where ds = '20170114';
  1. 由于是跨项目空间访问,所有用户在数据工场的[数据管理]中无法查找到公开数据集的表;

  2. 只有在执行”Add User”语句后,用户才有权限访问公开数据集。该语句可以再数据工场以及MaxCompte 提供的客户端中执行;

下面我们将详细介绍目前开放的数据集合。

股票价格数据集
总体信息:每日更新A 股股票相关数据。

图片描述

ods_enterprise_share_basic 股票基本信息
图片描述

图片描述
图片描述
数据样例:
图片描述
ods_enterprise_share_quarter_cashflow 季度报表说明
图片描述

数据样例:

图片描述

ods_enterprise_share_quarter_growth 季度业务增长情况
图片描述

数据样例:

图片描述

ods_enterprise_share_quarter_operation 季度财务周转
图片描述

数据样例:

图片描述

ods_enterprise_share_quarter_profit 季度利润

图片描述

数据样例:

图片描述

ods_enterprise_share_quarter_report 季度报表
图片描述
图片描述

数据样例:
图片描述

ods_enterprise_share_trade_h 股票价格
图片描述
图片描述

数据样例:
图片描述

二手房产数据集

总体信息:二手房相关信息(注意:目前暂停更新)。
图片描述

dwd_prouduct_house_basic_info_out信息说明
图片描述
图片描述

数据样例:

图片描述

影视及票房数据集

总体信息:每日更新国内影视剧信息及票房数据信息 。

图片描述

dwd_ product_ movie_ basic_ info
图片描述
图片描述

ods_product_movie_box 票房基本信息

图片描述

数据样例:
图片描述
基于公开数据集的实战

手把手,教你用MaxCompute+OpenSearch搭建分布式搜索引擎

购买&试用MaxCompute,请加入扫码进钉钉群。公开数据集问题,请加入扫码进钉钉群。
图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/522888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

豪投10亿!华为放话:3年培养100万AI人才!网友神回应了

近期,AI测试权威软件AI Benchmark的测试数据显示,中国华为研发的7nm旗舰手机芯片麒麟810的AI分数,远远超过美国高通骁龙855了!麒麟810芯片AI分数是3300多,名列第一。而骁龙855手机则是2700多。大家振奋的同时&#xff…

阿里云大数据利器Maxcompute学习之-假如你使用过hive

摘要: 如果您是一个大数据开发工程师并且使用过hadoop的hive框架,那么恭喜您,阿里云的大数据计算服务-Maxcompute,您已经会了90%。这篇文章就来简单对比下Maxcompute和hive的异同,来方便刚开始使用Maxcompute的用户&am…

阿里云大数据利器Maxcompute-使用mapjoin优化查询

摘要: small is beautiful,small is powerful 点此查看原文:http://click.aliyun.com/m/40815/ 大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。 https://help…

GitHub下载文件时缓慢的问题

用记事本打开hosts文件,路径为 C:\Windows\System32\drivers\etc将下面3行添加到hosts文件中 140.82.114.3 github.com151.101.185.194 github.global.ssl.fastly.net192.30.253.121 codeload.github.com以管理员身份运行CMD,执行命令ipconfig /flushdn…

阿里云大数据利器之-RDS迁移到Maxcompute实现动态分区

摘要: 当前,很多用户的业务数据存放在传统关系型数据库上,例如阿里云的RDS,做业务读写操作。当数据量非常大的时候,此时传系关系型数据库会显得有些吃力,那么会经常有将mysql数据库的数据迁移到[大数据处理…

SaaS前世今生:老树开新花

戳蓝字“CSDN云计算”关注我们哦!作者 | 文东海出品 | CSDN云计算(ID:CSDNcould)2019年3月26日,Adobe和微软宣布,两家公司准备展开一项合作,来提升双方的“销售和营销软件”的能力,进…

初体验-阿里云短视频 SDK For Android 快速接入

摘要: 近期的一些创意短视频 App 风靡年轻群体,比较典型的例如抖音、MUSE 等,阿里云也适时地推出了简单易用的短视频 SDK,帮助开发者们以较低的成本快速引入功能完备的创意短视频功能。本文主要介绍如何快速接入阿里云短视频 SDK …

解决Chrome插件安装时出现的“程序包无效”问题

https://blog.csdn.net/ysq5202121/article/details/50809494

【 CDN 最佳实践】CDN 命中率优化思路

摘要: CDN 在静态资源的加速场景中是将静态资源缓存在距离客户端较近的CDN 节点上,然后客户端访问该资源即可通过较短的链路直接从缓存中获取资源,而避免再通过较长的链路回源获取静态资源。因此 CDN的缓存命中率的高低直接影响客户体验&…

首帧秒开+智能鉴黄+直播答题,阿里云直播系统背后技术大起底

摘要: 想要快速实现直播能力,并对原有业务不产生任何影响,依托如阿里云一样的直播平台,来搭建移动直播系统,将技术难题交给阿里云,把更多的精力放在核心业务的本身,是最为稳妥和高效的选择。本文…

《云栖社区2017年度内容特辑》新鲜出炉!800+份大会PPT、20+技术专题、100+话题...快抱走!...

回首2017,云栖社区承载了太多的精彩内容,这一年大量的优秀团队入驻社区,600博主成为云栖专家,他们为读者奉献了无数精彩的内容——100W博文,300场直播,用户互动问答数超过6W;与此同时&#xff0…

K8S精华问答 | K8S 是什么?不是什么?

kubernetes,简称K8S,是用8代替8个字符“ubernete”而成的缩写。是一个开源的,用于管理云平台中多个主机上的容器化的应用,Kubernetes的目标是让部署容器化的应用简单并且高效(powerful),Kubernetes提供了应…

FaaS如何在云2.0时代发挥优势,又将走向何方?

摘要: 过去十年,云服务深刻地改变了社会获取和使用计算能力的方式,云服务自身也以极快的速度演进。在基础设施云化之后,容器、Serverless等技术迅猛发展,开始推动业务能力的云化,云计算进入2.0时代。 点此查…

解锁新姿势 | 如何用配置中心实现全局动态流控?

摘要: 当资源成为瓶颈时,服务框架需要对消费者做限流,启动流控保护机制。流量控制有多种策略,比较常用的有:针对访问速率的静态流控、针对资源占用的动态流控、针对消费者并发连接数的连接控制和针对并行访问数的并发控…

53K!拿下阿里Python岗,这些技术点全考了!

Python又上热搜了!”,最近笔者在逛脉脉时,发现这样的一条信息:看完后,我相信大家和我一样,what,Python这么时候值钱了?本篇文章,我将帮大家搞定两大疑问:1. P…

用WEB技术栈开发NATIVE应用:WEEX SDK原理详解

摘要: WEEX依旧采取传统的web开发技术栈进行开发,同时app在终端的运行体验不输native app。其同时解决了开发效率、发版速度以及用户体验三个核心问题。那么WEEX是如何实现的?目前WEEX已经完全开源,并捐给Apache基金会&#xff0c…

什么是java枚举_什么是java枚举

什么是java枚举?java 枚举的定义与用法一、枚举的定义:枚举是一种特殊的数据类型,之所以特殊是因为它既是一种类(class)类型却又比类型多了些特殊的约束,但是这些约束的存在也造就了枚举类型的简洁,安全性以及便捷性。…

基于阿里云Serverless架构下函数计算的最新应用场景详解(一)

摘要: Serverless概念是近年来特别火的一个技术概念,基于这种架构能构建出很多应用场景,适合各行各业,只要对轻计算、高弹性、无状态等场景有诉求的用户都可以通过本文来普及一些基础概念,看看这些场景是否对用户有一些…

浪潮云完成6亿元B轮融资,正推进上市;VMware收购AI初创公司Bitfusion;小爱同学App在苹果应用商店下架……...

关注并标星星CSDN云计算极客头条:速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周三次,打卡即read更快、更全了解泛云圈精彩newsgo go go 华为Mate30 Lite贴膜曝光&am…

基于阿里云Serverless架构下函数计算的最新应用场景详解(二)

摘要: Serverless概念是近年来特别火的一个技术概念,基于这种架构能构建出很多应用场景,适合各行各业,只要对轻计算、高弹性、无状态等场景有诉求的用户都可以通过本文来普及一些基础概念,看看这些场景是否对用户有一些…