JSON数据从MongoDB迁移到MaxCompute最佳实践

数据及账号准备

首先您需要将数据上传至您的MongoDB数据库。本例中使用阿里云的云数据库 MongoDB 版,网络类型为VPC(需申请公网地址,否则无法与DataWorks默认资源组互通),测试数据如下。


{"store": {"book": [{"category": "reference","author": "Nigel Rees","title": "Sayings of the Century","price": 8.95},{"category": "fiction","author": "Evelyn Waugh","title": "Sword of Honour","price": 12.99},{"category": "fiction","author": "J. R. R. Tolkien","title": "The Lord of the Rings","isbn": "0-395-19395-8","price": 22.99}],"bicycle": {"color": "red","price": 19.95}},"expensive": 10
}

登录MongoDB的DMS控制台,本例中使用的数据库为 admin,集合为 userlog,您可以在查询窗口使用db.userlog.find().limit(10)命令查看已上传好的数据,如下图所示。 


此外,需提前在数据库内新建用户,用于DataWorks添加数据源。本例中使用命令db.createUser({user:"bookuser",pwd:"123456",roles:["root"]}),新建用户名为 bookuser,密码为 123456,权限为root。

使用DataWorks提取数据到MaxCompute

  1. 新增MongoDB数据源

    进入DataWorks数据集成控制台,新增MongoDB类型数据源。 

    具体参数如下所示,测试数据源连通性通过即可点击完成。由于本文中MongoDB处于VPC环境下,因此 数据源类型需选择 有公网IP。 

    访问地址及端口号可通过在MongoDB管理控制台点击实例名称获取,如下图所示。 

  2. 新建数据同步任务在DataWorks上新建数据同步类型节点。 

    新建的同时,在DataWorks新建一个建表任务,用于存放JSON数据,本例中新建表名为mqdata。 

    表参数可以通过图形化界面完成。本例中mqdata表仅有一列,类型为string,列名为MQ data。 

    完成上述新建后,您可以在图形化界面进行数据同步任务参数的初步配置,如下图所示。选择目标数据源名称为odps_first,选择目标表为刚建立的mqdata。数据来源类型为MongoDB,选择我们刚创建的数据源mongodb_userlog。完成上述配置后, 点击转换为脚本,跳转到脚本模式。 

    脚本模式代码示例如下。
    
    {"type": "job","steps": [{"stepType": "mongodb","parameter": {"datasource": "mongodb_userlog",//数据源名称"column": [{"name": "store.bicycle.color", //JSON字段路径,本例中提取color值"type": "document.document.string" //本栏目的字段数需和name一致。假如您选取的JSON字段为一级字段,如本例中的expensive,则直接填写string即可。}],"collectionName //集合名称": "userlog"},"name": "Reader","category": "reader"},{"stepType": "odps","parameter": {"partition": "","isCompress": false,"truncate": true,"datasource": "odps_first","column": [//MaxCompute表列名                 "mqdata"],"emptyAsNull": false,"table": "mqdata"},"name": "Writer","category": "writer"}],"version": "2.0","order": {"hops": [{"from": "Reader","to": "Writer"}]},"setting": {"errorLimit": {"record": ""},"speed": {"concurrent": 2,"throttle": false,"dmu": 1}}
    }
    完成上述配置后,点击运行接即可。运行成功日志示例如下所示。 

结果验证

在您的业务流程中新建一个ODPS SQL节点。 
 
您可以输入 SELECT * from mqdata;语句,查看当前mqdata表中数据。当然这一步您也可以直接在MaxCompute客户端中输入命令运行。 

 

原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot 整合 Shiro thymeleaf _01_Shiro概念

文章目录shiro简介以及功能描述shiro实现原理理解shiro的架构理解shiro认证功能(Authentication)流程Realmshiro 拦截器规则shiro简介以及功能描述 Shiro 是 Java 的一个安全框架。目前,使用 Apache Shiro 的人越来越多,因为它相…

中正则表达式详解_python :正则表达式/re库 超级详细de注释解释

首先要解释,什么是正则表达式:给定一串字符串,我们可以提取他的特征,把他抽象成一个类型。 下次遇到和这个字符串同类的字符串,我们只需要判断是否符合特征,就知道这个字符串是不是同类的。举个例子&#x…

打破多项世界记录  双11背后最大的力量是技术

双11是一次全球商业奇迹,同时也是一次技术奇迹。正是诸多世界顶尖的技术,助力双11一次又一次打破成交纪录,形成了独一无二的世界奇观。 阿里巴巴核心系统100%上云、每秒订单创建峰值54.4万笔、自研数据库POLARDB和OceanBase分别处理8700万、6…

阿里巴巴下一代云分析型数据库AnalyticDB入选Forrester Wave™ 云数仓评估报告 解读

前言 近期, 全球权威IT咨询机构Forrester发布"The Forrester WaveTM: CloudData Warehouse Q4 2018"研究报告,阿里巴巴分析型数据库(AnalyticDB)成功入选 !AnalyticDB作为阿里巴巴自主研发的PB级实时云数据仓库,全面兼容MySQL协议以…

广州云栖大会:阿里云携手虎牙,首次落地直播行业边缘节点及云企业网服务

2018年11月22日,由阿里巴巴集团主办的广东省大数据开发者大会暨2018广东云栖大会在广州正式召开,其中以助力游戏企业畅游全球为主题的游戏云专场也在上午如期举办。 在游戏云专场中,阿里云高级商务专家李知明首先发言:边缘计算节点…

一行 Python 代码能实现这么多丧心病狂的功能?(代码可复制)

最近看知乎上有一篇名为《一行 Python 能实现什么丧心病狂的功能?》(https://www.zhihu.com/question/37046157)的帖子,点进去发现一行Python代码可以做这么多丧心病狂的功能!整理了一下知乎上这篇文章的内容&#xff…

测试私有方法_史上最轻量!阿里开源了新型单元测试Mock工具

点击上方蓝色字体,选择“设为星标”回复”666“获取面试宝典TestableMock是基于源码和字节码增强的Java单元测试辅助工具,包含以下功能:访问被测类私有成员:使单元测试能直接调用和访问被测类的私有成员,解决私有成员初…

阿里云云效如何保障双11大型项目管理

每一年双11对阿里巴巴来说都是一个练兵场,一次更大规模技术创新、产品迭代、协同研发的练兵场。在2018年双11的“练兵场上”,阿里云云效——一站式企业协同研发平台支持着阿里巴巴众多部门、百个核心产品、千个垂直项目、几千人共同协作完成双十一大促的…

揭秘天猫双11背后:20万商家600万张海报,背后只有一个鹿班

还记得去年双11,秋裤厂商带着“五彩斑斓的黑”需求找设计师的故事吗? 现在,已经有超过20万客户把这个AI设计师鹿班带回家。 今年,鹿班除了为天猫淘宝平台提供服务之外,还通过阿里云全面为各行业客户输出AI设计能力。…

华为开源数据虚拟化引擎HetuEngine;全球超算500强:中国上榜数量增加;谷歌收购云计算公司CouldSimple ……...

关注并标星星CSDN云计算 速递、最新、绝对有料。这里有企业新动、这里有业界要闻,打起十二分精神,紧跟fashion你可以的!每周两次,打卡即read更快、更全了解泛云圈精彩newsgo go go华为V30 渲染图:取消3.5mm耳机孔&…

三位数除以两位数怎么算竖式_青岛版三年级上册数学5.6三位数除以一位数(最高位商后有余数)微课知识点精讲+练习...

微课视频第一课时微课视频第二课时同步练习1、列竖式计算下面各题3753 2382 5884 62352、一片树林3年共增加了537棵树,平均每年增长多少棵树?3、新华小学一年级共报名448人,如果一年级预开设8个班,那每个班有多少人…

阿里云移动研发平台EMAS,是如何连续5年安全护航双11的?

2014年11月11日,阿里巴巴天猫双十一购物狂欢节全天交易额571亿元;2015年交易额912.17亿元; 2016年1207亿 ;2017年1682亿元;2018年2135亿。五年内交易量不断攀升,屡创新高,这让双十一成为了全球商…

从双十一看阿里云安全的“创世纪”——采访阿里云安全掌门人肖力有感

“神说要有光于是就有了光。”在双十一采访了阿里云安全掌门人肖力之后,忽然对这句话有了全新的认识。从肖力的介绍中我们不难体会到,与云计算相伴而生的阿里云安全诞生的必然性,云的先天基因赐予它“原生的神力”,从最初单纯的攻…

这段 Python 代码让程序员赚 300W,公司已确认!网友:神操作!

Python到底还能给人多少惊喜?笔者最近看到了这两天关于Python最热门的话题,关于《地产大佬潘石屹学Python的原因》,结果被这个回答惊到了:来源:知乎 https://www.zhihu.com/question/355880221笔者翻了翻那些回答&…

奉上一份云上数据安全保护指南

阿里云资深安全专家黄瑞瑞 本方案的目标是为用户提供从底层云平台数据安全到上层的云上环境保护,并标明各层次模块,让用户可以像建房子一样,一层层的搭建可信的在云上数据的安全保护。在各横向层次模块之外,云上数据安全也需要纵…

云数据库POLARDB优势解读系列文章之②——高性价比

现在做任何事情都要看投入产出比,对应到数据库上其实就是性价比。POLARDB作为一款阿里自研数据库,经常被问的问题是:性能怎么样?能不能支撑我的业务?价格贵不贵?很显然,在早期调研阶段&#xff…

38年后的今天,用数据回顾什么是女排精神?

戳蓝字“CSDN云计算”关注我们哦!作者 | 朱小五责编 | 阿秃每当我们足篮打水一场空时,总会想起女排。38年前,1981年11月16日,中国队击败当时号称“东洋魔女“的日本女排,首次夺得世界冠军,这也是中国在三大…

阿里如何将“高峰前扩容、高峰后缩容”的梦想照进现实?

一、2017年我们做了什么? 记得早在2017年的时候,王坚博士就曾召大家就关于“IDC As a Computer”是否能做到,进行过激烈的讨论。而要做到此,必须要实现存储计算分离,分离后由调度对计算和存储资源进行独立自由调度。而…

阿里云异构计算团队亮相英伟达2018 GTC大会

1、首届云原生计算国际会议上,弹性计算研究员伯瑜介绍了基于虚拟化、容器化编排技术的云计算操作系统PouchContainer 首届云原生计算国际会议(KubeCon CloudNativeCon,China,2018)在上海举办,弹性计算研究…

发布国内首个无服务器容器服务,运维效率从未如此高效

近年来,随着越来越多的企业基于微服务架构构建自身核心业务平台后,微服务已获得越来越多技术人员的肯定,同时,微服务也承载着企业数字化转型的重任。但微服务架构的落地给企业的运维团队带来了不少的挑战,原有的运维方…