再论数据科学竞赛中的Data Leakage

越来越多的数据爱好者把注意力放在了数据竞赛上,像Kaggle数据竞赛。这类数据竞赛中,有时会遇到Data Leakage。而大部分人对Data Leakage的概念理解都是错误的。这次,我们来梳理一下Data Leakage,希望能让大家对数据中的因果关系更加重视。

                                                                                                                                                                --陈晓理 

数据科学竞赛中有时会出现这样的奇特景观:某只队伍,靠着对极个别feature的充分利用,立即将对手超越,成功霸占冠军位置,而且与第二名的差距远超第二名与第十名的差距。然而,这些feature却不是在因果关系上顺利解释预测值的‘因’,反而是预测值的‘果’

1. Data Leakage定义

存在和利用这种倒‘因’为‘果’的feature的现象,叫数据竞赛中的Data Leakage

这里的Data Leakage 跟其他场合说的数据安全数据泄漏完全不一样。从字面上理解,我们说的Data Leakage不是数据泄漏,而是因果关系的纰漏,是由于数据准备过程中出现的失误,使模型沿着有纰漏的,甚至是颠倒的因果关系进行预测,但得到极好的预测结果。

2. Data Leakage案例

Data Leakage 在数据科学竞赛中时常发生。

INFORMS 2010 Data Mining Challenge (预测患者是否有肺炎),Kaggle里面的the IJCNN 2011 Social Network Challenge (预测人们在社交网络中的关系类型),已经男性前列腺癌数据中,都存在不同程度的Data Leakage。


案例1


在男性前列腺癌数据中,有个feature叫PROSSUG,代表着这个患者是否接受过前列腺的手术,这个feature很难说是病人患前列腺癌的‘原因’(患心脏病的原因是接受过心脏手术?),而更像是一个标记当然与病人是否患有前列腺癌极度相关。依靠着这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解男性前列腺癌的成因,没有一点帮助。

Data Leakage不仅在竞赛中会发生,在实际工作中也会出现。


案例2


Chris老师就举过一个非常经典的例子。在处理电信用户流失的时候,用原有的数据集轻轻松松就可以把AUC达到0.99以上。这让人非常警惕。于是Chris老师仔细查看了一下模型和数据,原来数据中有一个权重极高的feature是“3个月内的缴费纪录”。很多流失用户的账户内,这个feature的值是0。再进一步,他跟会计核实了一下,在会计记账中,这个feature 代表的是用户已经流失后的三个月的缴费纪录,那肯定就是0了。这是典型的因果关系颠倒


3. Data Leakage的原因


以此我们可以看出,Data Leakage 基本都是在准备数据的时候,或者数据采样的时候出了问题,误将与结果直接相关的feature纳入了数据集。这样的纰漏,比较难以发现。


这真是让人欢喜让人忧。


竞赛选手们肯定希望自己能够找到Data Leakage, 这样排名就可以大幅度提升。但对于竞赛主办方,或者实际工作中的数据科学家,则要千方百计识别Data Leakage,要不然比赛会被引入歧途,还会影响日常工作质量。


4. 必须重视因果性


我们再把讨论往前推一步:大数据,是要相关性,还是因果性?

《大数据时代》是本大毒草 —— Professor M from Computer Science in University of Michigan


数据应用学院专门组织过讨论,集中批判一本畅销书《大数据时代》。这本书的主要观点就是,在大数据时代,要放宽对因果性的要求,充分利用相关性去挖掘数据的价值。我们上面的案例分析再一次证明,这样的观点是危险的。


而且,在数据科学家的Skillset中,为什么除了计算机技能统计分析外,还要加一个“行业知识?这其实是要求数据科学家能够利用行业知识来判断数据模型中的因果关系是否有价值,还是落脚到因果关系上。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/246875.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《见字如面》赏析-待续

《爸爸的信——学会鄙视自己,才不会妥协》 理想太容易妥协,欲望太容易放大。 百岁老夫妻70年前写出最美战地情书 穿越到70多年前的抗日战争缅甸战场,化身文质彬彬又器宇轩昂的远征军翻译官曹越华,在炮火连天的异国战场&#xf…

机器真的已经战胜人类医生了吗?医学AI标题党文章中的三大陷阱

作者 | Dr Luke Oakden-Rayner 翻译校对|吴蕾 刘晓莉 曹翔 ◆ ◆ ◆ 序 关于“机器人战胜人类医生”的文章铺天盖地,正高居各类科技网站首页。 例如《通过辐射变化,计算机程序的脑肿瘤辨识能力战胜医生(神经科学新闻,2016&#x…

纪录片.BBC.数据之趣.The.Joy.of.Data.2016

数学家Hannah Fry从扩展思维的角度探讨数据。现代人每天被无数数据包围,数据是新时代的货币。在科技发展一日千里的今天,如何获取、存储、分享和利用数据。 B站生肉在线L纪录片.BBC.数据之趣.The.Joy.of.Data.2016[…高清1080P,英文SRT字幕&…

BBC:乐在其中统计学 (2010)

看到“统计学”,你首先想到什么?是让人眼花缭乱的表格,还是各种晦涩难懂的术语?其实,统计学并不遥远,从日常生活到科学研究,到处都有它的踪影;统计学也并不枯燥,在本片中…

《神经网络:回到未来》(Neural Nets Back to the Future)-ICML 2016

《神经网络:回到未来》(Neural Nets Back to the Future) 官方主页:Neural Nets Back to the Future ICML 16 June 23rd 2016 at Crowne Plaza in NYC Workshop Schedule 08:20 am Welcome and Introduction 08:30 am Lar…

安装测试 Lasagne

Lasagne不只是一个美味的意大利菜,也是一个与Blocks和Keras有着相似功能的深度学习库,但其在设计上与它们有些不同。 下面是Lasagne的一些设计目的: 简单化:它应该是易于使用和扩展的机器学习库。每添加一个特征,就应…

Python 处理医学影像学中的DICOM

DICOMDICOM(Digital Imaging and Communications in Medicine)即医学数字成像和通信,是医学图像和相关信息的国际标准(ISO 12052)。它定义了质量能满足临床需要的可用于数据交换的医学图像格式,可用于处理、…

DICOM的常用Tag分类和说明

本文转自:http://blog.csdn.net/inter_peng/article/details/46513847 1. 前言: 基于DICOM3.0标准的医学图像中,每一张图像中都携带着许多的信息,这些信息主要可以分为Patient, Study, Series和Image四类。每一个DICOM T…

基于CNN的性别、年龄识别及Demo实现

一、相关理论 本篇博文主要讲解2015年一篇paper《Age and Gender Classification using Convolutional Neural Networks》paper的创新点在哪里。难道是因为利用CNN做年龄和性别分类的paper很少吗?网上搜索了一下,性别预测,以前很多都是用SVM算…

Faster R-CNN的安装及测试(Python版本和Matlab版本)

rbg的Python版本 一、拉取源码 git clone --recursive https://github.com/rbgirshick/py-faster-rcnn.git 拉取完成后,在/home/cmwang/目录下增加了py-faster-rcnn文件夹【cmwang是我的ubuntu用户名】 二、安装依赖 sudo apt-get install python-opencvsudo pip…

Faste R-CNN的安装及测试

一、拉取源码 下载 fast-rcnn 因下载解压后 caffe-fast-rcnn是空文件夹,故需要单独下 caffe-fast-rcnn-bcd9b4eadc7d8fbc433aeefd564e82ec63aaf69c.zip unzip caffe-fast-rcnn-bcd9b4eadc7d8fbc433aeefd564e82ec63aaf69c.zip cp ./caffe-fast-rcnn-bcd9b4eadc7d8…

6 areas of artificial intelligence to watch closely 需要密切关注的六大人工智能/机器学习领域

近段时间,有许多关于人工智能公认定义的争论。有些人认为人工智能就是“认知计算”或是“机器智能”,而另一些人则把它与“机器学习”的概念混淆了。然而,人工智能并不是特指某种技术,它实际上是一个由多门学科组成的广阔领域&…

2016 亚洲共识指南:肺结节的评估

2016 年 2 月,亚洲肺部疾病和胸外科多学科专家小组在美国胸科医师学会(ACCP)制定的肺结节评估指南的基础上结合亚洲患者的自身特点制订了亚洲肺结节患者的评估指南。 亚洲肺结节的评估与 APCC 指南中所指出的重要注意事项大致相同。但该指南…

Ubuntu 15.04 安装TensorFlow(源码编译) 及测试梵高作画

介绍Google的TensorFlow机器学习开源库,在UbuntuKylin上的安装和和源码编译。 原始官方文档参见:http://www.tensorflow.org. 本电脑配置如下: 3.19.0-15-generic #15-Ubuntu x86_64 GNU/Linux NVIDIA Corporation GK110BGL [Tesla K40c] …

Ubuntu 15.04 安装 boost-python

1. 安装依赖库 sudo apt-get install python-dev sudo apt-get install mpi-default-dev #安装mpi库 sudo apt-get install libicu-dev #支持正则表达式的UNICODE字符集 sudo apt-get install …

python 常见问题汇总(待续)

1. No module named skimage pip install scikit-image --upgrade 2. No module named dicom sudo pip install pydicom 3. python name ‘os’ is not defined import os This will import the python’s module os, which apparently is used later in the code of your m…

如何将 ipynb 发布到 blog 中(html, markdown格式)

相关文章链接 如何向IPython Notebook中导入.py文件 如何将 ipynb 发布到 blog 中(html, markdown格式) Introducing IPython Notebook Beginner’s IPython Notebook Tutorial Example notebook showing how to do statistics in IPython Notebook next generation slide…

HP Z840 工作站配sSAS Raid 安装 Ubuntu 16.04 系统

惠普Z840工作站配SAS RAID安装win7系统加载驱动 安装ubuntu的最低版本版本要求是01.25,请更新到官方最新的02.31测试 1. BIOS系统更新 1. 准备好一个空的U盘,格式化成FAT32,在U盘上建立\Hewlett-Packard\BIOS\New 2. 下载链接http://ftp.hp…

Ubuntu SSH Algorithm negotiation failed

问题 解决方法 chmod 777 /etc/ssh/sshd_configgedit /etc/ssh/sshd_config添加如下 Ciphers aes128-cbc,aes192-cbc,aes256-cbc,aes128-ctr,aes192-ctr,aes256-ctr,3des-cbc,arcfour128,arcfour256,arcfour,blowfish-cbc,cast128-cbcMACs hmac-md5,hmac-sha1,umac-64openssh.…

不同matlab版本所支持的gcc g+版本

问题 关于 GCC 和 G 版本问题 Matlab 2014a gcc/g 4.7.x, Matlab 2016a gcc/g 4.9.x Matlab 2017a gcc/g 4.9.x Ubuntu 15.04 gcc/g 4.9.x, Ubuntu 16.04 gcc/g 5.4.x 原则上Matlab需要和Ubuntu版本一致,由于CUDA 8只支持16.04,而且需要GCC 5.4.x 进行编译&#…