数据清理最终实现了自动化

苹果 | GOOGLE | 现货 | 其他 (APPLE | GOOGLE | SPOTIFY | OTHERS)

Editor’s note: The Towards Data Science podcast’s “Climbing the Data Science Ladder” series is hosted by Jeremie Harris. Jeremie helps run a data science mentorship startup called SharpestMinds. You can listen to the podcast below:

编者按:迈向数据科学播客的“攀登数据科学阶梯”系列由杰里米·哈里斯(Jeremie Harris)主持。 杰里米(Jeremie)帮助运营一家名为 SharpestMinds 的数据科学指导创业公司 您可以收听以下播客:

It’s cliché to say that data cleaning accounts for 80% of a data scientist’s job, but it’s directionally true.

俗话说,数据清理工作占数据科学家工作的80%,但这在方向上是正确的。

That’s too bad, because fun things like data exploration, visualization and modelling are the reason most people get into data science. So it’s a good thing that there’s a major push underway in industry to automate data cleaning as much as possible.

太糟糕了,因为诸如数据探索,可视化和建模之类的有趣事物是大多数人进入数据科学的原因。 因此,业界正在大力推动尽可能自动执行数据清理的一件好事。

One of the leaders of that effort is Ihab Ilyas, a professor at the University of Waterloo and founder of two companies, Tamr and Inductiv, both of which are focused on the early stages of the data science lifecycle: data cleaning and data integration. Ihab knows an awful lot about data cleaning and data engineering, and has some really great insights to share about the future direction of the space — including what work is left for data scientists, once you automate away data cleaning.

这项工作的领导者之一是滑铁卢大学的教授,两家公司Tamr和Inductiv的创始人Ihab Ilyas,​​这两家公司都致力于数据科学生命周期的早期阶段:数据清理和数据集成。 艾哈布(Ihab)对数据清理和数据工程知识非常了解,并且对于共享空间的未来方向具有真正的深刻见解,包括一旦您将数据清理自动化后将为数据科学家留下的工作。

Here were some of my biggest takeaways from the conversation:

以下是这次对话中我最大的收获:

  • Data cleaning involves a lot of things, one of which is dealing with missing values. Historically, missing values have often been filled in manually by subject matter experts who can make educated guesses about the data, but automated techniques can work well (and usually do better) at scale.

    数据清理涉及很多事情,其中​​之一就是处理缺失的值。 从历史上看,缺少的值通常是由主题专家手动填充的,他们可以对数据进行有根据的猜测,但是自动化技术可以很好地发挥作用(并且通常做得更好)。
  • These automated strategies can range from fairly naive approaches (e.g. replacing a value with the median or average value of other points in the dataset), to more sophisticated techniques (e.g. using a predictive model to guess at missing values).

    这些自动化策略的范围从相当幼稚的方法(例如,用数据集中其他点的中位数或平均值替换一个值)到更复杂的技术(例如,使用预测模型来猜测缺失值)。
  • The distinction between different parts of the data science lifecycle are often arbitrary, but clearly defining the boundaries between data cleaning, data exploration and modelling is nonetheless essential to ensure that problems can be solved in a contained and modular fashion. This idea is one part of the data science best practices that make up DataOps, a topic we’ve discussed on the podcast before.

    数据科学生命周期的不同部分之间的区分通常是任意的,但是清楚地定义数据清理,数据探索和建模之间的界限对于确保可以以封闭和模块化的方式解决问题至关重要。 这个想法是构成DataOps的数据科学最佳实践的一部分,这是我们之前在播客上讨论的主题。
  • It’s clear that data cleaning, like modelling, is not immune to automation. As a result, it’s likely that data scientists will find themselves leaning more and more into their subject matter expertise, communication and engineering skills in the future, rather than spending their time on dealing with missing values, hyperparameter optimization or model selection.

    显然,数据清理与建模一样,也无法避免自动化。 结果,数据科学家很可能会发现自己将来会越来越倾向于主题专业知识,沟通和工程技能,而不是将时间花在处理缺失值,超参数优化或模型选择上。

You can follow Ihab on Twitter here and you can follow me on Twitter here.

您可以遵循埃哈卜的Twitter在这里 ,你可以按照我的Twitter 这里 。

翻译自: https://towardsdatascience.com/data-cleaning-is-finally-being-automated-8cc964ea2e12

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387995.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mui 与jquery 同时使用,$冲突解决办法。

(function($,doc,$$) { 。。。。。 }(mui, document, jQuery)); 使用$$代替jQuery。 var $$jQuery.noConflict();此方法也可以 转载于:https://www.cnblogs.com/mustanglqt/p/10608499.html

LVS原理介绍及安装过程

一、ARP技术概念介绍 为什么讲ARP技术,因为平常工作中有接触。还有就是LVS的dr模式是用到arp的技术和数据。 1、什么是ARP协议 ARP协议全程地址解析协议(AddressResolution Protocol,ARP)是在仅知道主机的IP地址时确定其物理地…

Python气流介绍

This is a memo to share what I have learnt in Apache Airflow, capturing the learning objectives as well as my personal notes. The course is taught by Mike Metzger from DataCamp.这是一份备忘录,旨在分享我在Apache Airflow中学到的知识,记录…

java~springcloud微服务目录索引

回到占占推荐博客索引 最近写了不过关于java,spring,微服务的相关文章,今天把它整理一下,方便大家学习与参考。 java~springcloud微服务~目录索引 springcloud~服务注册与发现Eureka的使用 springcloud~配置中心的使用 springclou…

DNS Bind9在windows7下

有些公司技术力量薄弱一些,一直在用windows系统,所以本文从windows出发,安装bind,利用它的view功能,做智能DNS,解决双线机房南北电信联通访问问题前言: 搞LINUX的朋友都知道,bind是l…

正确的词典访问方式

unity3d 词典访问Python字典指南 (Python Dictionary Guide) The dictionary is one of the data structures that are ready to use when programming in Python.字典是使用Python进行编程时可以使用的数据结构之一。 在我们开始之前,什么是字典? (Bef…

Vue.js(5)- 全局组件

全局组件 定义组件的语法 Vue.component(组件的名称, { 组件的配置对象 }) 在组件的配置对象中:可以使用 template 属性指定当前组件要渲染的模板结构; 使用组件的语法 把 组件的名称, 以标签的形式,引入到页面上就行; // 导入v…

DNS的几个基本概念:

一. 根域 就是所谓的“.”,其实我们的网址www.baidu.com在配置当中应该是www.baidu.com.(最后有一点),一般我们在浏览器里输入时会省略后面的点,而这也已经成为了习惯。 根域服务器我们知道有13台&#xff…

废水处理计算书 excel_废水监测数据是匿名的吗?

废水处理计算书 excelOur collective flushes help track and respond to Covid-19 and so much more. Your body waste contains harvestable compounds that can reveal your illnesses and diseases, consumption habits, and cosmetic use. Researchers gain insights from…

文件在线预览 图片 PDF Excel Word

1、前端实现pdf文件在线预览功能 方式一、pdf文件理论上可以在浏览器直接打开预览但是需要打开新页面。在仅仅是预览pdf文件且UI要求不高的情况下可以直接通过a标签href属性实现预览 <a href"文档地址"></a> 2、word、xls、ppt文件在线预览功能 word、pp…

数据科学还是计算机科学_您应该拥有数据科学博客的3个原因

数据科学还是计算机科学“Start a Blog to cement the things you learn. When you teach what you’ve learned in the form of a blog you can see the gaps in your knowledge and fill them in” — My Manager (2019)“创建一个博客以巩固您所学到的东西。 当您以博客的形…

D3.js 加标签

条形图还可以配上实际的数值,我们通过文本元素添加数据值。 svg.selectAll("text").data(dataset).enter().append("text").text(function(d){return d;}) 通过 x 和 y 值来定位文本元素。 .attr("text-anchor", "middle").attr("…

oppo5.0以上机器(亲测有效)激活Xposed框架的教程

对于喜欢玩手机的朋友而言&#xff0c;常常会用到xposed框架以及种类繁多功能强大的模块&#xff0c;对于5.0以下的系统版本&#xff0c;只要手机能获得ROOT权限&#xff0c;安装和激活xposed框架是异常简便的&#xff0c;但随着系统版本的迭代&#xff0c;5.0以后的系统&#…

和matlab一样的轻量级

Python&#xff08;英国发音&#xff1a;/ˈpaɪθən/ 美国发音&#xff1a;/ˈpaɪθɑːn/&#xff09;, 是一种面向对象、解释型计算机程序设计语言&#xff0c;由Guido van Rossum于1989年发明&#xff0c;第一个公开发行版发行于1991年。Python是纯粹的自由软件&#xff…

熊猫分发_流利的熊猫

熊猫分发Let’s uncover the practical details of Pandas’ Series, DataFrame, and Panel让我们揭露Pandas系列&#xff0c;DataFrame和Panel的实用细节 Note to the Readers: Paying attention to comments in examples would be more helpful than going through the theo…

redis tomcat session

本机ip为192.168.1.101 1、准备测试环境 两个Tomcat 在Eclipse中新建2个Servers&#xff0c;指定对应的Tomcat&#xff0c;端口号错开。 Tomcat1&#xff08;18005、18080、18009&#xff09; Tomcat2&#xff08;28005、28080、28009&#xff09; 一个Redis Redis下载官网&…

Fiddler抓包-只抓APP的请求

from:https://www.cnblogs.com/yoyoketang/p/6582437.html fiddler抓手机app的请求&#xff0c;估计大部分都会&#xff0c;但是如何只抓来自app的请求呢&#xff1f; 把来自pc的请求过滤掉&#xff0c;因为请求太多&#xff0c;这样会找不到重要的信息了。 环境准备&#xff1…

技术分享 | 基于EOS的Dapp开发

区块链技术是当前最能挑动社会舆论神经&#xff0c;激起资本欲望的现象级技术。去中心化的价值互联&#xff0c;信用共识&#xff0c;新型组织构架&#xff0c;新的生产关系和智能合约&#xff0c;颠覆法币的发行流通体系和记账体系。这些新的技术都让人充满想象&#xff0c;充…

DOCKER windows 安装Tomcat内容

DOCKER windows安装 DOCKER windows安装 1.下载程序包2. 设置环境变量3. 启动DOCKERT4. 分析start.sh5. 利用SSH工具管理6. 下载镜像 6.1 下载地址6.2 用FTP工具上传tar包6.3 安装6.4 查看镜像6.5 运行 windows必须是64位的 1.下载程序包 安装包 https://github.com/boot2doc…

python记录日志_5分钟内解释日志记录—使用Python演练

python记录日志Making your code production-ready is not an easy task. There are so many things to consider, one of them being able to monitor the application’s flow. That’s where logging comes in — a simple tool to save some nerves and many, many hours.使…