掌握大数据数据分析师吗?_要掌握您的数据吗? 这就是为什么您应该关心元数据的原因...

掌握大数据数据分析师吗?

Either you are a data scientist, a data engineer, or someone enthusiastic about data, understanding your data is one thing you don’t want to overlook. We usually regard data as numbers, texts, or images, but data is more than that.

Ëither你是一个数据科学家,数据工程师,还是有人热衷于数据, 了解你的数据是你不想忽视的一件事。 我们通常将数据视为数字,文本或图像,但数据不仅限于此。

We should consider data as an independent entity. Data can make self-introduction, tell stories, and visualize trends. To reach those outcomes, you must understand your data first. Not only about how it was formed or its origin, but how it’ll change over time and its usability. Some of this information is what we call metadata.

我们应该将数据视为一个独立的实体。 数据可以自我介绍, 讲故事和可视化趋势。 为了获得这些结果,您必须首先了解您的数据。 不仅是关于它的形成方式或起源,还包括它随着时间的变化及其可用性的变化。 其中一些信息就是我们所说的元数据。

Why is metadata so important? And why must we master metadata before we master data? Today I’ll show you how we can leverage metadata in our data business.

为什么元数据如此重要? 为何我们在掌握数据之前必须掌握元数据? 今天,我将向您展示如何在数据业务中利用元数据。

到底什么是元数据? (What is metadata, exactly?)

According to Wikipedia, metadata is “data that provides information about other data”. It’s “data about data”. That sounds straightforward, doesn’t it? All data contains information about a specific thing. For metadata, that specific thing is another data.

根据维基百科 ,元数据是“ 提供有关其他数据的信息的数据 ”。 这是“关于数据的数据” 。 这听起来很简单,不是吗? 所有数据都包含有关特定事物的信息。 对于元数据,那个特定的东西是另一种数据。

However, metadata also varies in the definition per se. It can be the name of the dataset, creation information, or statistical distribution of data points. It can be anything related to the data properties. With that said, all data must possess for it the metadata. But that’s not always the exhaustive case.

但是,元数据本身的定义也有所不同。 它可以是数据集的名称,创建信息或数据点的统计分布 。 它可以是与数据属性有关的任何内容。 话虽如此,所有数据都必须拥有元数据。 但这并不总是穷举。

Data without metadata is always incomplete.

没有元数据的数据总是不完整的。

Types of metadata
Types of metadata. Credit to the author.
元数据的类型。 感谢作者。

We use data with the hope of extracting useful insights, and the purpose of data comprehension. Metadata helps us to assert the data integrity, to verify the source of truth, or to maintain stable data quality.

我们使用数据的目的是希望提取有用的见解以及数据理解的目的。 元数据可帮助我们维护数据完整性,验证真相来源或保持稳定的数据质量。

Example of email’s metadata
An example of an email’s metadata. Credit to the author.
电子邮件元数据的示例。 感谢作者。

However, in some cases, data users ignore the effect of metadata. They view it as just labels and the value it brings to the table is limited. We’ll see next how metadata is related to another critical aspect of data: Data quality.

但是,在某些情况下,数据用户会忽略元数据的影响。 他们将其视为标签,并且它带给表的价值是有限的。 接下来,我们将看到元数据与数据的另一个关键方面如何相关: 数据质量 。

资料品质 (Data quality)

Again, Wikipedia says: “Data quality refers to the state of qualitative or quantitative pieces of information.” In general, data is said to have high quality when “it fits the intended use case regardless of data users”.

维基百科再次说:“ 数据质量是指定性或定量信息的状态 。” 通常,当数据“适合预期的使用情况而与数据用户无关”时,数据被认为具有高质量。

Data is a valuable source of information, but nobody wants to use a piece of crap. The more you desire to extract from data, the more significant is data quality. In the world of Big Data, this also becomes a bottleneck.

数据是有价值的信息来源,但是没有人愿意使用这些废话。 您希望从数据中提取的内容越多,数据质量就越重要。 在大数据世界中,这也成为瓶颈。

A group of memory cards
Photo by Markus Winkler on Unsplash
Markus Winkler在Unsplash上拍摄的照片

As data grows bigger, so does metadata. We are not used to handling a great amount of metadata. Since it needs a special kind of treatment, we must consider it is at the same time data and not data. Metadata is not an independent piece of information but rather an attachment to our data. We have the possibility to extend that to become an assessment of the data quality.

随着数据的增长,元数据也随之增长。 我们不习惯处理大量的元数据。 由于它需要一种特殊的处理方式,因此必须同时考虑它是数据而不是数据。 元数据不是独立的信息,而是数据的附件。 我们有可能将其扩展为对数据质量的评估。

Data is a valuable source of information, but nobody wants to use a piece of crap

数据是有价值的信息来源,但是没有人愿意使用废话

In a common effort of cultivating a high data quality in Big data pipelines, tech companies are paying lots of attention to this newish subject. From detecting anomalies to automatic alerting systems, we wish to limit the impact of erroneous data as little as possible. We can’t do this without data comprehension, or precisely without metadata.

为了在大数据管道中培养高质量的数据,技术公司一直在关注这一新话题。 从检测异常到自动警报系统,我们希望尽可能减少错误数据的影响。 没有数据理解,或者没有元数据,我们就无法做到这一点。

Data quality reflects via many aspects, but most often is the correctness of values. Imagine you plot a histogram of university students’ grades within a semester. The histogram is a statistical representation of those values, and it describes your data. It becomes metadata. What you might interpret is the distribution of the grades, then you can conclude whether it will fit your use case.

数据质量可以通过许多方面反映出来,但最常见的是值的正确性。 想象一下,您绘制了一个学期内大学生成绩的直方图 。 直方图是这些值的统计表示形式,它描述了您的数据。 它成为元数据。 您可能会解释的是成绩的分布,然后可以得出结论是否适合您的用例。

An histogram example
Using Histograms to Understand Your Data使用直方图了解您的数据

There are many questions to be asked about data values beforehand. Are those values stable overtime? Are there any outliers? If yes, what should we do with those outliers? By answering these questions, we extract some insights, not information-wise but data-wise. We can create metadata, useful metadata. That’s just a primitive step in asserting data quality via metadata. We’ll have a good look at the next section on how we can leverage metadata that we could generate.

事先有很多关于数据值的问题。 这些值在超时后是否稳定? 有离群值吗? 如果是,我们应该如何处理这些异常值? 通过回答这些问题,我们可以得出一些见解,而不是信息方面的见解,而是数据方面的见解。 我们可以创建元数据,有用的元数据。 这只是通过元数据声明数据质量的原始步骤。 我们将在下一节中很好地介绍如何利用我们可以生成的元数据。

如何利用元数据 (How to leverage metadata)

Some people might be overwhelmed by the various statistical representations we can extract from a dataset. Others might as well ignore that additional information thinking it is useless. It’s true that we don’t need to draw a histogram every time working with data, but it helps. To leverage the insightful metadata, data users must first answer three important questions:

我们可能从数据集中提取的各种统计表示可能会让某些人不知所措。 其他人可能会以为多余的信息无用,而忽略了这些信息。 的确,我们不需要每次处理数据时都绘制直方图,但这很有用。 要利用有见地的元数据,数据用户必须首先回答三个重要问题:

  • What: What do you want to verify the quality of your data? Some data requires strict stability while some need attention whether it’s righteous. For each kind of data, we adapt the information extracted as metadata. Statistical distribution, trends over time, discrepancies, etc. This is what we call the metadata strategy. We are limited in storage and human resources while working with both data and metadata. Therefore, we must think cautiously about where to focus.

    什么: 您想验证什么数据质量? 有些数据需要严格的稳定性,而有些则需要注意其是否合理。 对于每种数据,我们将提取的信息调整为元数据。 统计分布,随时间的趋势,差异等。这就是我们所说的元数据策略 。 在处理数据和元数据时,我们在存储和人力资源上受到限制。 因此,我们必须谨慎考虑应将重点放在哪里。

  • How: How do we measure data quality? These actions follow the metadata strategy. We could choose to measure the whole database, or some tables, or a specific set of columns. The total number of values, the maximum/minimum length of a string, the proportion of missing data. What we decide to measure depends on how we use those data to produce outcomes.

    如何: 我们如何衡量数据质量? 这些操作遵循元数据策略。 我们可以选择测量整个数据库,某些表或一组特定的列。 值的总数,字符串的最大/最小长度,丢失数据的比例。 我们决定衡量的内容取决于我们如何使用这些数据来产生结果。

  • When: Data changes over time. When we extract insights via metadata, we are tracking those transitions. When do we track the metadata? Every day? Every hour? Every quarter? It depends on how much granularity is sufficient to address data quality. We adapt our measure to how quickly the data can change. For example, stock market data needs to be tracked every single minute or second. Weather data changes every hour while aerospatial data can take months or years to shift.

    时间:数据随时间变化。 当我们通过元数据提取见解时,我们正在跟踪这些过渡。 我们何时跟踪元数据? 每天? 每隔一小时? 每个季度? 这取决于多少粒度足以解决数据质量。 我们会根据数据变化的速度调整指标。 例如,需要每隔一分钟或一秒钟跟踪一次股市数据。 天气数据每小时都会变化,而航空数据可能要花费数月或数年才能变化。

An example of stock market data.
Stock market data needs to be tracked every single minute. Photo by Markus Spiske on Unsplash
需要每分钟跟踪一次股市数据。 Markus Spiske在Unsplash上拍摄的照片

Metadata has its long history, but we have just recently discovered its contribution to data management, or especially data quality. Metadata itself can’t change the outcomes of data, but it adds a security and management layer between our raw data and its usage. You might even use metadata to discover your data without realizing it.

元数据具有悠久的历史,但我们最近才发现它对数据管理 (特别是数据质量)的贡献。 元数据本身无法更改数据的结果,但会在原始数据及其使用之间增加安全性和管理层。 您甚至可能使用元数据来发现数据而没有意识到。

Data quality might be insignificant when your data is small, but it becomes critical when working with a bigger amount. Metadata helps us keep track of that growth, and make sure the data evolves as it should be. By failing to leverage metadata, we fail to understand your data.

当您的数据较小时,数据质量可能微不足道,但在处理大量数据时就变得至关重要。 元数据可帮助我们跟踪增长情况,并确保数据按预期发展。 由于未能利用元数据,我们无法理解您的数据。

我该如何处理元数据? (What should I do with metadata?)

If you wish to master your data, you should start to treat metadata systematically. Base on the framework we have seen above, you choose for yourself a suitable data strategy. There’s nothing fancy about it yet. It starts with how you wish to use your data and how you control the quality of its usage. Everything starts with a goal.

如果您希望掌握数据,则应该开始系统地处理元数据。 在上面我们看到的框架的基础上,您可以自己选择合适的数据策略。 对此还没有幻想。 它从您希望如何使用数据以及如何控制其使用质量开始。 一切始于目标。

There’s one phase in the ETL process called Exploratory Data Analysis. I find it quite interesting to know more about the statistical aspect of your data. It seems to be close to what we would like to know via metadata.

ETL过程中有一个阶段称为“ 探索性数据分析” 。 我发现对您的数据的统计方面的更多了解非常有趣。 它似乎与我们希望通过元数据知道的内容接近。

I always see my data scientists and/or data analysts friends start with EDA before doing anything with their raw data. So I’ve figured out it must be an important step and I wondered how it’s linked to my metadata framework. They turn out to share quite a lot of things in common.

我总是看到我的数据科学家和/或数据分析师朋友从EDA开始,然后再处理原始数据。 因此,我认为这必须是重要的一步,我想知道它如何与我的元数据框架链接。 他们竟然分享了很多共同点。

First comes the purpose. The “exploratory” part in EDA somehow coincides with the discovery objective of metadata. Second is how they both look at the statistical side of data to evaluate its future usage. With all that said, EDA is actually a must-to-have step due to its similarity to metadata-based assessment on data quality.

首先是目的。 EDA中的“探索性”部分在某种程度上与元数据的发现目标相吻合。 其次是他们俩都如何看待数据的统计方面来评估其未来使用情况。 综上所述,EDA实际上是必不可少的步骤,因为它与基于元数据的数据质量评估相似。

You have the data strategy, the data evaluation, now it’s the time for you to decide what to proceed with all that information. How the data will be used decides whether it’s righteous and trustworthy under the eyes of a data quality control.

您有了数据策略,数据评估,现在是时候决定如何处理所有信息。 在数据质量控制的眼中,如何使用数据将决定其是否合理和可信赖。

Key takeaways:- Build your data strategy based on data usability
- Apply an EDA - Exploratory Data Analysis to evaluate the data
- Decide on whether you have a solid confidence on your data

结论 (Conclusion)

I’ve shared some of my points of view on metadata. For me, it has as much value as the data itself. Those who take advantage of these values are the ones who understand their data. It’s easier to misuse something we don’t comprehend. Metadata gives us a clearer view of the data, and furthermore data quality, integrity, and usability.

我已经分享了一些有关元数据的观点。 对我来说,它与数据本身一样有价值。 那些利用这些价值的人就是了解他们的数据的人。 滥用我们不理解的东西会更容易。 元数据为我们提供了更清晰的数据视图,以及数据质量,完整性和可用性。

My name’s Nam Nguyen, and I write (mostly) about Big Data. Enjoy your reading? Follow me on Medium and Twitter for more updates.

我叫Nam Nguyen,(主要)写有关大数据的文章。 喜欢阅读吗? 在Medium和Twitter上关注我以获取更多更新。

翻译自: https://towardsdatascience.com/want-to-master-your-data-heres-why-you-should-care-about-metadata-8fcd7754c3b8

掌握大数据数据分析师吗?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/391843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

docker在Centos上的安装

Centos6安装docker 系统:centos6.5 内核:3.10.107-1(已升级),docker对RHEL/Centos的最低内核支持是2.6.32-431,epel源的docker版本推荐内核为3.10版本。 内核升级可参考:https://www.jslink.org/linux/centos-kernel-u…

Lambda表达式的前世今生

Lambda 表达式 早在 C# 1.0 时,C#中就引入了委托(delegate)类型的概念。通过使用这个类型,我们可以将函数作为参数进行传递。在某种意义上,委托可理解为一种托管的强类型的函数指针。 通常情况下,使用委托来…

matplotlib柱状图、面积图、直方图、散点图、极坐标图、箱型图

一、柱状图 1.通过obj.plot() 柱状图用bar表示,可通过obj.plot(kindbar)或者obj.plot.bar()生成;在柱状图中添加参数stackedTrue,会形成堆叠图。 fig,axes plt.subplots(2,2,figsize(10,6)) s pd.Series(np.random.randint(0,10,15),index …

微信支付商业版 结算周期_了解商业周期

微信支付商业版 结算周期Economics is an inexact science, finance and investing even more so (some would call them art). But if there’s one thing in economics that you can consistently count on over the long run, it’s the tendency of things to mean revert …

Bootstrap——可拖动模态框(Model)

还是上一个小项目,o(╥﹏╥)o,要实现点击一个div或者button或者一个东西然后可以弹出一个浮在最上面的弹框。网上找了找,发现Bootstrap的Model弹出框可以实现该功能,因此学习了一下,实现了基本弹框功能(可拖…

mfcc中的fft操作_简化音频数据:FFT,STFT和MFCC

mfcc中的fft操作What we should know about sound. Sound is produced when there’s an object that vibrates and those vibrations determine the oscillation of air molecules which creates an alternation of air pressure and this high pressure alternated with low …

PHP绘制3D图形

PEAR提供了Image_3D Package来创建3D图像。图像或光线在3D空间中按照X、Y 、Z 坐标定位。生成的图像将呈现在2D空间中,可以存储为 PNG、SVG 格式,或输出到Shell。通过Image_3D可以很方便生成一些简单的3D对象,例如立方体、锥体、球体、文本和…

r语言怎么以第二列绘制线图_用卫星图像绘制世界海岸线图-第二部分

r语言怎么以第二列绘制线图Part I of this blog series is here.本博客系列的第一部分 在这里 。 At the UKHO we are interested in the oceans, the seabed and the coastline — not to mention everything in and on them! In our previous blog, we (the UKHO Data Scien…

JSP基础--动作标签

JSP基础--动作标签 JSP动作标签 1 JSP动作标签概述 动作标签的作用是用来简化Java脚本的! JSP动作标签是JavaWeb内置的动作标签,它们是已经定义好的动作标签,我们可以拿来直接使用。 如果JSP动作标签不够用时,还可以使用自定义标…

rcp rapido_Rapido使用数据改善乘车调度

rcp rapidoGiven our last blog post of the series, which can be found here :鉴于我们在该系列中的最后一篇博客文章,可以在这里找到: We thought it would be helpful to explain how we implemented all of the above into an on-ground experimen…

SSRS:之为用户“NT AUTHORITY\NETWORK SERVICE”授予的权限不足,无法执行此操作。 (rsAccessDenied)...

错误信息:为用户“NT AUTHORITY\NETWORK SERVICE”授予的权限不足,无法执行此操作。 (rsAccessDenied)如图:解决方案之检查顺序:1.检查报表的执行服务帐户。使用“ Reporting Services 配置管理器”。2.检查数据库安全 - 登录名 中…

飞机上的氧气面罩有什么用_第2部分—另一个面罩检测器……(

飞机上的氧气面罩有什么用This article is part of a series where I will be documenting my journey on the development of a social distancing feedback system for the blind as part of the OpenCV Spatial Competition. Check out the full series: Part 1, Part 2.本文…

经典网络流题目模板(P3376 + P2756 + P3381 : 最大流 + 二分图匹配 + 最小费用最大流)...

题目来源 P3376 【模板】网络最大流P2756 飞行员配对方案问题P3381 【模板】最小费用最大流最大流 最大流问题是网络流的经典类型之一,用处广泛,个人认为网络流问题最具特点的操作就是建反向边,这样相当于给了反悔的机会,不断地求…

数字经济的核心是对大数据_大数据崛起为数字世界的核心润滑剂

数字经济的核心是对大数据“Information is the oil of the 21st century, and analytics is the combustion engine”.“信息是21世纪的石油,分析是内燃机”。 — Peter Sondergaard, Senior Vice President of Gartner Research.— Gartner研究部高级副总裁Peter…

制作简单的WIFI干扰器

原教程链接:http://www.freebuf.com/geek/133161.htmlgithub 1.准备材料 制作需要的材料有 nodemcu开发版IIC通信 128*64 OLED液晶屏电线按钮开关万能板排针(自选)双面胶(自选)参考2.准备焊接 引脚焊接参考 oled按钮效果3.刷入固件 下载烧录工具:ESP8266Flasher.exe 下载固件:…

Snipaste截图

绘图绘色,描述加图片能更加说明问题的本质。今天推荐一款多功能的截图snipaste... 欣赏绘色 常见报错 解决方案: 下载相关的DLL即可解决, 请根据你操作系统的版本(32位/64位),下载并安装相应的微软 Visual …

azure第一个月_MLOps:两个Azure管道的故事

azure第一个月Luuk van der Velden and Rik Jongerius卢克范德费尔登(Luuk van der Velden)和里克 琼格里乌斯( Rik Jongerius) 目标 (Goal) MLOps seeks to deliver fresh and reliable AI products through continuous integration, continuous training and continuous del…

VS2008 开发设计MOSS工作流 URN 注意了

最近学习MOSS 很苦恼,进度也很慢,最近在学习VS2008开发工作流,其中有结合INFOPATH 2007来做, 出现个BUG或者说是设置的问题,整整花了我一天工作时间,是这样的: 在部署的时候关于URN,大部分的教程都是这样的说的&#…

ArangoDB Foxx service 使用

备注:项目使用的是github https://github.com/arangodb-foxx/demo-hello-foxx1. git clonegit clone https://github.com/arangodb-foxx/demo-hello-foxx.git 2. 安装foxx servicefoxx-manager install demo-hello-foxx /demoapp 3. 效果自动生成的swagger 文档项目…

编译原理 数据流方程_数据科学中最可悲的方程式

编译原理 数据流方程重点 (Top highlight)Prepare a box of tissues! I’m about to drop a truth bomb about statistics and data science that’ll bring tears to your eyes.准备一盒纸巾! 我将投放一本关于统计和数据科学的真相炸弹,这会让您眼泪汪…