【Azure 架构师学习笔记】-Azure Storage Account(6)- File Layer

本文属于【Azure 架构师学习笔记】系列。
本文属于【Azure Storage Account】系列。
接上文 【Azure 架构师学习笔记】-Azure Storage Account(5)- Data Lake layers

前言

上一文介绍了存储帐户的概述,还有container的一些配置,在container下面存放的就是文件夹和文件,也就是数据。之所以单独一文描述是因为当一个项目考虑使用云存储时,除了一些必要的外部设置这种“硬”设计之外,还需要考虑文件结构这种“软”设计。 本文讲述的就是比较通用的“软”设计部分。

在container下面,按照业界的一些最佳实践,会定义一些列的Zone, 目录,当然还要配置安全控制,将在下一文介绍。

Zone

分开zone的其中一个原因来自于上文讲述的一些策略,如果没有把zone区分出来,那么某些允许定期删除或者不允许删除的策略就会导致数据的管理混乱。同时通过把访问控制细化,可以更好地保护一个中央存储帐户上的数据安全和可信度。
还有其他的一些好处,比如缺乏治理的数据湖,可能会变成数据“沼泽”, 或者变成数据“垃圾场”,用户会淹没在混乱的数据中。

常见的Zone有以下几个:

  • Raw:数据的原始格式存储。可以作为下游系统唯一数据源。
  • Staging:经过初步处理的数据,已经可共数据科学家等进行使用。
  • Curated:符合数据湖标准的数据集市。经过清洗,转换,重组后的数据,可供数据交付。符合安全,治理要求。

还有一些更加细分的,可选的zone:

  • Transient/Temp:对Raw data进行进一步的区分,把“新”数据从中隔离出来。也可以用于数据校验,提供低延时的数据服务。
  • Master Data:用于引用的数据。
  • User Drop Zone:手动生成的数据。
  • Archive Zone:数据归档。

Zone的设计并不仅限于云存储,而且这是一种设计思维而不是实现方式,具体需求绝体实现。

文件夹

在各个zone下面存放的首先是文件夹。文件夹的问题在于结构的设计,你可以按时间创建父文件夹,里面是地区,系统等。也可以按照地区建父文件夹,哪一种更合适?要根据需求来定,如果为了数据分析,那么建议更多的是:
以zone为第一层,以数据源为第二层,然后再按年月日顺序创建文件夹。
这样的好处在于权限控制较为简单,ADF, Databricks等ETL 过程可以更加动态,参数化。

小结

整个存储帐户最终看起来将会是类似如下图所示:
在这里插入图片描述

下一文将介绍一下安全方面的内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/145693.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu云服务器配置SFTP服务

目录 一、安装并运行SSH服务 1,安装ssh服务 2,运行ssh 3,查看ssh运行状态 二、创建SFTP用户并进行用户相关的配置 1,创建SFTP用户 2,限制用户只能使用 SFTP,并禁止 SSH 登录。打开/ect/ssh/sshd_conf…

Android 中字符串空格占位

Android 中字符串空格占位 在布局文件XML中的占位符(分号是占位符的一部分) 普通的英文半角空格   no-breakspace(普通的英文半角空格但不换行) 中文全角空格(一个中文宽度)   en空格(半个中文宽度)   em…

E签宝面试题

文章目录 1.自我介绍2.静态方法和普通方法的区别?3.了解bio/nio/aio吗?4.Spring中创建Bean的方法?4.1 通过Spring XML实现4.2 通过注解实现5.讲讲集合类?6.说说ThreadLocal?7.Redis淘汰策略有哪些?8.说下对JVM的了解?9.详细说下堆区?10.Nacos中有一个服务挂了再调用它会…

ElasticSearch6.8.1 常见错误

1.vm.max_map_count max virtual memory areas vm.max_map_count [65530] is too low, increase to at least [262144] 1.1 修改 /etc/sysctl.conf 只添加最后vm值即可,sysctl -p /etc/sysctl.conf net.ipv4.conf.all.accept_redirects0 net.ipv4.tcp_tw_reuse1 n…

ChatGPT被曝测试新功能:学习所有历史聊天,还能重置记忆、“阅后即焚”

丰色 发自 凹非寺 量子位|公众号QbitAI ChatGPT可能要上新一项重大功能了。 那就是记住你之前的聊天内容并不断从中学习(并非单纯保存历史记录),从而了解你的偏好和信息,用于在日后聊天派上用场。 比如你可以给它下达一句“始终…

Django——模板层、模型层

模板层 一. 模版语法 {{ }}: 变量相关 {% %}: 逻辑相关 1. 注释是代码的母亲 {# ... #} 2. 基本数据类型传值 int1 123 float1 11.11 str1 我也想奔现 bool1 True list1 [小红, 姗姗, 花花, 茹茹] tuple1 (111, 222, 333, 444) dict1 {username: jason, age: 18, i…

3.5 Windows驱动开发:应用层与内核层内存映射

在上一篇博文《内核通过PEB得到进程参数》中我们通过使用KeStackAttachProcess附加进程的方式得到了该进程的PEB结构信息,本篇文章同样需要使用进程附加功能,但这次我们将实现一个更加有趣的功能,在某些情况下应用层与内核层需要共享一片内存…

基于 Amazon EKS 搭建开源向量数据库 Milvus

一、前言 生成式 AI(Generative AI)的火爆引发了广泛的关注,也彻底点燃了向量数据库(Vector Database)市场,众多的向量数据库产品开始真正出圈,走进大众的视野。 根据 IDC 的预测,…

photoshop插件开发入门

photoshop 学习资料和sdk 下载地址https://developer.adobe.com/console/servicesandapis/ps 脚本编程文档 官方文档: https://extendscript.docsforadobe.dev/ 官方文档: https://helpx.adobe.com/hk_en/photoshop/using/scripting.html open(new F…

用人话讲解深度学习中CUDA,cudatookit,cudnn和pytorch的关系

参考链接 本人学习使用,侵权删谢谢。用人话讲解深度学习中CUDA,cudatookit,cudnn和pytorch的关系 CUDA CUDA是显卡厂商NVIDIA推出的运算平台。 CUDA™是一种由NVIDIA推出的通用并行计算架构,是一种并行计算平台和编程模型&…

计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)

第1章:视觉项目资料介绍与学习指南 相关知识: 介绍计算机视觉、OpenCV库,以及课程的整体结构。学习概要: 了解课程的目标和学习路径,为后续章节做好准备。重要性: 提供学生对整个课程的整体认识&#xff0…

虹科示波器 | 汽车免拆检修 | 2014款保时捷卡宴车行驶中发动机偶尔自动熄火

一、故障现象 一辆2014款保时捷卡宴车,搭载4.8L自然吸气发动机,累计行驶里程约为10.3万km。车主反映,行驶中发动机偶尔自动熄火,尤其在减速至停车的过程中故障容易出现。 二、故障诊断 接车后路试,确认故障现象与车主所…

mysql group by 执行原理及千万级别count 查询优化

大家好,我是蓝胖子,前段时间mysql经常碰到慢查询报警,我们线上的慢sql阈值是1s,出现报警的表数据有 7000多万,经常出现报警的是一个group by的count查询,于是便开始着手优化这块,遂有此篇,记录下…

torch - FloatTensor标签(boolean)数值转换(1/0)

当我们数据集的标签为True/False的boolean型时,我们可以直接使用FloatTensor传入该标签。返回的数据为tensor([0.])或者tensor([1.]),这十分有利于二分类任务的预测标签对错判断。 这个用法是基于Python的布尔类型与整数之间的隐式类型转换。在Python中&…

PostgreSQL 数据类型

文章目录 PostgreSQL数据类型说明PostgreSQL数据类型使用单引号和双引号数据类型转换布尔类型数值类型整型浮点型序列数值的常见操作 字符串类型日期类型枚举类型IP类型JSON&JSONB类型复合类型数组类型 PostgreSQL数据类型说明 PGSQL支持的类型特别丰富,大多数…

解决vue 部分页面缓存,部分页面不缓存的问题

前端时间项目迭代,其中有个需求 在vue里面,有a.b.c三个页面,要达到的效果是从a页面进去b页面,b页面需要刷新,但若从b页面进入c页面了以后再回到b页面,b页面需要保留之前的值,不做刷新&#xff1…

编译和链接

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 前言 1. 翻译环境和运行环境 2. 翻译环境 2.1 预处理(预编译) 2.2 编译 2.2.1 词法分析: 2.2.2 语法分析 2.2.3 语义分析 2.3 汇编 2…

MXNet中图解稀疏矩阵(Sparse Matrix)的压缩与还原

1、概述 对于稀疏矩阵的解释,就是当矩阵里面零元素远远多于非零元素,且非零元素没有规律,这样的矩阵就叫做稀疏矩阵,反过来就是稠密矩阵,其中非零元素的数量与所有元素的比值叫做稠密度,一般稠密度小于0.0…

华为与美团达成合作,正式启动鸿蒙原生应用开发。

11月13日,华为宣布与美团以HarmonyOS为基础进行产业创新、技术应用、商业发展等方面展开全面合作,全力支持美团启动开发鸿蒙原生应用工作。 自9月25日华为宣布全新HarmonyOS NEXT蓄势待发、鸿蒙原生应用全面启动以来,已有金融、旅行、社交等…

算法刷题:P1025 [NOIP2001 提高组] 数的划分

题目描述 将整数 n 分成 k 份,且每份不能为空,任意两个方案不相同(不考虑顺序)。 例如:n7,k3,下面三种分法被认为是相同的。 1,1,51,1,5; 1,5,11,5,1; 5,1,15,1,1. 问有多少种不同的分法。 …