MaxCompute开发笔记——快速入门

news/2026/1/10 4:42:49/文章来源:https://lebron.blog.csdn.net/article/details/125360913

前提条件

请确保以下工作已经完成：

开通阿里云账号。

购买MaxCompute。

创建要使用的项目空间，详情请参见创建空间。如果要使用的项目空间已存在，请确保已被添加至此项目空间并被赋予建表等权限。

完成客户端安装配置。

导入数据

Tunnel命令导入数据

1.准备数据。将测试数据下载至本地备用

2.创建MaxCompute表。

3.执行Tunnel命令。

4.结果验证。

实际上整个过程有点像hive的数据导入，但是maxcomputer主要用通道来完成，而hive可以基于hdfs完成

其他导入方式：

除了通过客户端导入数据，您也可以使用MaxCompute Studio、Tunnel SDK、数据集成、开源的Sqoop、Fluentd、Flume、LogStash 等工具将数据导入到MaxCompute

后续步骤

当数据导入到MaxCompute后，可以在MaxCompute上运行SQL来处理数据。

sql运行以及导出数据

MaxCompute支持以下方式运行SQL语句：

客户端

DataWorks、Dataphin

背景信息：

MaxCompute目前支持的SQL语法如下：

各类运算符。

通过DDL语句对表、分区以及视图进行管理。

通过SELECT语句查询表中的记录，通过WHERE语句过滤表中的记录。

通过INSERT语句插入数据、更新数据。

通过等值连接JOIN操作，支持两张表的关联，并支持多张小表的MapJOIN。（maxcomputer的建表好像没有mysql那样的依赖操作，建表时主要考虑优化问题）

通过内置函数和自定义函数来进行计算。

正则表达式。

MaxCompute SQL不支持事务、索引、UPDATE以及DELETE等操作，同时MaxCompute的SQL语法与Oracle、MySQL有一定差别，您无法将其他数据库中的SQL语句无缝迁移到MaxCompute上来。

MaxCompute上作业提交后会有几十秒到数分钟不等的排队调度，所以MaxCompute适合一次批量处理海量数据的跑批作业，不适合直接对接需要每秒处理几千至数万笔事务的前台业务系统。

提取和分析数据

INSERT OVERWRITE TABLE result_table

SELECT education,COUNT(marital) AS num

FROM bank_data

WHERE housing = ‘yes’ AND marital = ‘single’

GROUP BY education;

上述过程仅仅是一个最简单的数据加工举例，您在实际应用的过程中，可能需要使用多个SQL对多个表进行加工操作。推荐您使用DataWorks完成复杂的数据加工业务流程。

导出数据

tunnel download result_table D:\result.txt;

MapReduce编程

操作步骤

1.安装并配置好客户端后，运行bin目录下的MaxCompute客户端（Linux系统下运行./bin/odpscmd，Windows下运行./bin/odpscmd.bat），进入相应项目空间中。

2.使用Tunnel命令上传数据。

3.在表中插入数据。

4.开发MapReduce程序并上传MaxCompute。

5.在MaxCompute客户端，添加Jar包到project资源（例如，此处的Jar包名为word-count-1.0.jar）。

6.在MaxCompute客户端运行Jar命令。

7.在MaxCompute客户端查看结果。

开发Java UDF

1.准备工具环境并创建Java Module。

您需要完成准备工作，包括安装Studio并在Studio上创建MaxCompute项目链接以及创建MaxCompute Java Module。

2.编写代码（maven注入依赖）

3.注册MaxCompute UDF。

4.试用UDF。

编写Graph

略

临时查询

进入DataWorks控制台工作空间列表页面，单击相应工作空间后的进入数据开发。

创建ODPS SQL节点。

在这里插入图片描述

填写新建节点对话框中的节点名称，单击提交完成节点的创建。

在创建的临时查询节点中输入SQL语句，单击按钮。

您可以查看本次运行的费用预估，决定是否继续进行本次操作。单击运行，继续SQL语句运行。

在下方的日志窗口，查看运行情况和最终结果。如果本次运行成功，结果为OK。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/554949.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

java中android_在Android中用纯Java代码布局

java中android_在Android中用纯Java代码布局

本文的完成了参考了一篇国外的教程,在此表示感谢。Android中的界面布局主要有两种方式，一种是xml文件和Java代码结合的布局方式，一种是完全依靠Java代码布局。两种布局方式的比较对于第一种方式，大多数人都比较熟悉，在这里就不细说…

阅读更多...

DataWorks概述

DataWorks概述

文章目录一、DataWorks概况1.1 定义1.2 功能1.3 与MaxCompute的关系二、基于DataWorks与MaxCompute构建云数仓一站式大数据开发治理DataWorks学习DataWorks 是什么？产品定位产品受众核心能力数据治理的概念、需求层次和目标对于数据治理概念的一些基本理解数据治理的…

阅读更多...

php默认语法,php基本语法

php默认语法,php基本语法

基础 PHP 语法PHP 脚本可放置于文档中的任何位置。PHP 脚本以 <?php 开头，以 ?> 结尾：<?php // 此处是 PHP 代码?>PHP 文件的默认文件扩展名是 ".php"。PHP 文件通常包含 HTML 标签以及一些 PHP 脚本代码。PHP 大小写敏感在 P…

阅读更多...

Dataworks的使用——详细说明

Dataworks的使用——详细说明

一、开通Dataworks （1）百度搜Dataworks，进入如下页面，点击立即开通 （2） 这里要选好自己想要的配置，这里展示我之前的配置解决方案：选DataWorksMaxCompute组合产品 DataWorks&…

阅读更多...

java读excel乱码,【java 项目中，上传的excel打开时无法正常打开，显示乱码，怎样可以正常打开，】java读取excel乱码...

java读excel乱码,【java 项目中，上传的excel打开时无法正常打开，显示乱码，怎样可以正常打开，】java读取excel乱码...

java 项目中，上传的excel打开时无法正常打开，显示乱码 ，怎样可以正常打开，1、转换格就是将受损的Excel XP簿另存格式选为SYLK。如果可以打开受件，只是不能进行各种编辑和打印操作，那么建议首先尝试这种方法…

阅读更多...

DataWorks快速入门

DataWorks快速入门

快速入门入门概述说明如果您是第一次使用DataWorks，请确认已经根据准备工作模块的操作，准备好账号和工作空间角色等内容后，登录DataWorks控制台，单击相应工作空间后的进入数据开发，即可进行数据开发操作。本模块的…

阅读更多...

java反射jdk1.8,Java基础----jdk1.8 反射实验

java反射jdk1.8,Java基础----jdk1.8 反射实验

Java基础----jdk1.8 反射实验(写在最前：还没入门的搬砖工的一本正经的胡说八道)引言： 最近做到的项目中，需要给对接方提供一个公共接口，根据对方传入的 XML 文件的 rootelement 分发调用接口，最简单的使用 if-else if…

阅读更多...

基于ODPS的SQL语句

基于ODPS的SQL语句

（一）基本概念 1.ODPS：Open Data Processing Service， 简称ODPS；是由阿里云自主研发，提供针对TB/PB级数据、实时性要求不高的分布式处理能力，应用于数据分析、挖掘、商业智能等领域；…

阅读更多...

php.amazeui,AmazeUI 导航条的实现示例

php.amazeui,AmazeUI 导航条的实现示例

拥有易用的导航条对于任何网站都很重要。本文主要介绍了AmazeUI 导航条的实现示例，分享给大家，具体如下：导航条Amaze UI导航切换首页项目下拉标题1. 去月球2. 去火星3. 还是回地球4. 下地狱5. 桥头一回首其他注册随便看看登录....am-topba…

阅读更多...

JNDI用法详解

JNDI用法详解

JNDI全称(Java Naming and Directory Interface)，是java命名和目录接口。它是一个应用程序设计的API，为开发人员提供了查找和访问各种命名和目录服务的通用、统一的接口，类似JDBC都是构建在抽象层上。 1、命名的概念与应用 JNDI中的命名(Nam…

阅读更多...

django mongodb mysql,Django MongoDB Django NoSQL方案

django mongodb mysql,Django MongoDB Django NoSQL方案

1 安装MongoDB1，下载所需要的版本，地址：http://www.mongodb.org/display/DOCS/Downloads2，将MongoDB加入环境变量3，设定好放置数据库文件的路径，比如d:db4，打开CMD，不要关闭这个mong…

阅读更多...

BigDecimal保留两位小数

BigDecimal保留两位小数

文章目录前言1.代码实现2.方法详解注释前言在项目中经常会用到小数的一些计算，而float和double类型的主要设计目标是为了科学计算和工程计算。他们执行二进制浮点运算，这是为了在广域数值范围上提供较为精确的快速近似计算而精心设计的。然而&#xff…

阅读更多...

matlab人民币识别,MATLAB-OCR 用MATLAB实现人民币纸币金额的识别与统计 - 下载 - 搜珍网...

matlab人民币识别,MATLAB-OCR 用MATLAB实现人民币纸币金额的识别与统计 - 下载 - 搜珍网...

用MATLAB实现人民币纸币金额的识别与统计/说明.txt用MATLAB实现人民币纸币金额的识别与统计/钞票面额识别与统计/matlab程序及图片/1-1.jpg用MATLAB实现人民币纸币金额的识别与统计/钞票面额识别与统计/matlab程序及图片/1-2.JPG用MATLAB实现人民币纸币金额的识别与统计/钞票面…

阅读更多...

DataIntegrityViolationException: Error attempting to get column ‘xx‘——DataIntegrityViolationExceptio

DataIntegrityViolationException: Error attempting to get column ‘xx‘——DataIntegrityViolationExceptio

一、解决办法项目中在更新数据库时出现异常，org.springframework.dao.DataIntegrityViolationException，当然如果控制台直接报这个异常问题的解决估计也不至于让我写篇博客。先说这个异常代表的含义吧： 这个异常的意思就是在更新&#xff…

阅读更多...

php oracle817,Oracle 817 For Linux/Unix安装文档-数据库专栏,ORACLE

php oracle817,Oracle 817 For Linux/Unix安装文档-数据库专栏,ORACLE

oracle 817安装文档1． 创建dba组和oracle用户roothz_cmode # groupadd dbaroothz_cmode # useradd -m -d /opt/oracle -s /bin/ksh -g dba oracleroothz_cmode # passwd oracle new password:re-enter new password:passwd (system): passwd successfully chan…

阅读更多...

Java中new Date插入mysql数据库，数据库时间多一秒问题

Java中new Date插入mysql数据库，数据库时间多一秒问题

这是由于new Date()时，实际上是调用的System.currentTimeMillis()方法，即获得以毫秒为级别的时间戳。一般数据库表的字段类型datetime/timestamp长度都是设置为0。 MySQL数据库对于毫秒大于500的数据进行进位，所以就造成的MySQL中的时间多一…

阅读更多...

学php还是golang,学swoole还是golang

学php还是golang,学swoole还是golang

Swoole是一个面向生产环境的 PHP 异步网络通信引擎，使 PHP 开发人员可以编写高性能的异步并发 TCP、UDP、Unix Socket、HTTP，WebSocket 服务。 (推荐学习：swoole视频教程)Swoole 可以广泛应用于互联网、移动通信、企业软件、云计算、网络游戏…

阅读更多...

java8 函数编程Consumer使用详解

java8 函数编程Consumer使用详解

Consumer 源码 package java.util.function;import java.util.Objects;FunctionalInterface public interface Consumer<T> {void accept(T t);default Consumer<T> andThen(Consumer<? super T> after) {Objects.requireNonNull(after);return (T t) ->…

阅读更多...

java解析vue对象数组,Java数组

java解析vue对象数组,Java数组

Java提供了一个数据结构，所述数组，其存储相同类型的元件的固定大小的连续集合。数组用于存储数据集合，但将数组视为相同类型变量的集合通常更为有用。您可以声明一个数组变量，例如数字和数字[0]，数字[1]和...&#xff…

阅读更多...

Java中List的subList()方法及使用注意事项

Java中List的subList()方法及使用注意事项

List<Object> list new Arraylist<>();List<Object> subList list.subList(0, 5);其中subList(0, 5)取得的是下标为0到4的元素,不包含下标为5的元素. java.util.List中的subList方法返回列表中指定的 fromIndex（包括 ）和 toIndex&a…

阅读更多...

最新文章