《数据驱动安全:数据安全分析、可视化和仪表盘》一1.2.4 统计学

本节书摘来异步社区《数据驱动安全:数据安全分析、可视化和仪表盘》一书中的第1章 ,第1.2.4节,[美]杰·雅克布(Jay Jacobs)鲍布·鲁迪斯(Bob Rudis) 著 薛杰 王占一 张卓 胡开勇 蒋梦飏 赵爽 译, 更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.2.4 统计学

或许我们在这里有些偏向,但是捡拾起一些统计学知识几乎会改变你生活的每个方面。它不仅会改变你看待以及学习周围世界的方法,而且会使你自身变得更加有趣,甚至可能在身边的人们眼中更具魅力。严肃地说,虽然统计学(在这里我们把它作为一项技能进行讨论)是一个宽泛的主题,是很难喝到水的深水井。我们使用术语去描述逐渐演变的统计技术与方法集合,这些技术与方法现在已经演变成了(还在持续演变)尝试从数据中学习的状态。这些技能不但包括经典的统计学,还包括像数据挖掘以及机器学习这样的新技术。非常幸运的是,你可以从相当杰出的一代代人们的成功与失败中学到很多内容,这些人处理的数据和我们的数据非常相似,即使他们的计算器只是笔和纸,而我们使用的是电子电路。不管你对于统计与数据分析工具的个人观点如何,有大量证据表明,当统计学用于信息安全领域后,其影响力波及其他几乎所有科学领域。
除了显而易见的“从数据中学习”的方法之外,有一些更加深入的理由去集中提高你的统计技能。

  • 尽管数据从不说谎,被它欺骗却很容易。作为具有启发式思维的生命,我们拥有从周围世界中提出模式及含义的能力。这种发现隐蔽的联系及模式的能力通常很有益处,人们每天都会使用这种能力。然而需要注意的是,这种技能也可能会误导你,你可能会认为你看见了根本不存在的模式及联系。对统计的良好理解会使你更深层次地认识到这点,它的一些策略会使得这样的错误结论数量达到最低。
  • 尽管我们刚说过数据从不说谎,但是生成及收集数据的方法会产生欺骗性的结论。比如询问我们身边人们的看法会导致错误地肯定自身的观点,因为我们很自然地和志同道合的人聚集在一起,且想法趋同一致。数据本身可能并不具有欺骗性,但是它却容易导致人们联想到一些不相符的含义,就如1936年大选投票中的预测故事一样(请看下文“数据产生欺骗”)。

统计学并不仅是工具的集合,它是具有自己工具集的工具箱的集合。你可以从描述性统计开始,描述性统计将数据简化为描述数据某些方面的数字。举例来说,你可以通过计算均值、模、中位数以得到数据的中心,也可以通过标准差来描述数据的分散程度,可以使用偏斜度解释数据的对称性,也可以使用峰态描述峰宽。然而不管什么时候,只要你简化数据,都会在一定程度上失去数据的细节,这时候,可视化方法可以提供很好的服务。你使用可视化方法创建一段表述或者信息,这段信息包含并传达每个数据点,没有简化。我们将这种类型的可视化看作“描述性可视化”,因为它仅仅简单地描述数据。
除了过于简化的挑战之外,描述性统计局限于仅能描述你所收集到的数据。扫描少数几个系统然后计算漏洞的平均数,宣称统计数值描述了环境中的所有系统,这样的做法是不对的。推理统计可以帮助你更深入地研究数据,而不仅仅是描述观察值。当给你一个群体的较小代表性样本时,你可以对更大的群体做出推理说明。这里的关键词是“代表性”。统计学教会你“实验设计”(感谢Fisher以及他的同事们),它会帮助你收集数据,以便于你减少被数据误导的可能性。你当然希望收集的样本具有代表性,那么就使用正确的数据收集方法吧。在过去,很多人已经有过前车之鉴,千万不要重蹈覆辙。

数据产生的欺骗
《Literary Digest》杂志进行了一次民意测验,尝试预测1936年的总统竞选结果。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单。结束测验时,回应信息已经超过200万份并且预测了一位似乎明显的胜利者:Alfred Landon(对于这些人来说,美国历史并没能如他们所愿,民主党候选人Roosevelt赢得了这场大选,他在46个州中胜出)。《Literary Digest》杂志的问题在测验之前就已经存在,故障出在数据的来源。注意这一年大选在1936年,此时美国的大萧条还没有结束。他们通过电话簿、俱乐部会员身份以及杂志订阅信息收集人名单,而这些人大体上属于中层及上层阶级,这些人普遍偏爱Landon,以至于得到的答案在数学方面正确而与实际完全不符。
数据没有说谎,如果他们想知道,在使用电话、俱乐部会员身份以及订阅杂志的美国人中,哪位总统候选人会获得最多选票,这些数据陈述了一个准确的故事。但是他们并非在寻找那个故事,他们想要知道的是美国所有已注册选民的看法。由于在选取数据样本来源时有偏差,导致加入了数据中根本不存在的含义。
他们拥有的史无前例的200万份回复的事实并不能帮助提高民意测验的准确度。当这样类似系统性的错误存在时,收集更多数据只会形成更大的偏差样本。为了彻底阐明这一观点,在同样的1936年选举中,一个叫George Gallup的年轻人收集了一份相对较小、仅有5万选民的样本,他应用了更多有代表性抽样方法,正确地预测了Roosevelt将会成为1936年选举的胜利者。几年以后,《Literary Digest》杂志停业,而Gallup Inc.现在已经成为一个国际性机构,仍然做调研以及收集数据的咨询。

应该始终以一种尊敬与谦卑的态度来对待统计学。当你不知不觉地慢慢进入应用数学的深处时,你会发现找到那些不存在的含义(学术上称作I类错误)有多容易。但是更重要的是要理解无论有无数据这种错误都会出现。这种错误甚至会出现于你填写Excel电子表格的一个空格之前,工具箱中最好的工具被设计用于限制这种类型错误出现的机会,但是单独的统计是不够的。你需要将经验与数据相结合以减少被误导的可能性。即使经验与数据相结合,这种错误仍可能出现。但是你可以通过应用严谨的作风以及方法来减少这种错误发生的频率。当这种错误真的出现时,这严谨的作风会把你放在一个更好的位置去从错误中学习。
我们已经建立了统计学应用的权威性,应该指出的是,即使没有高级的统计技术,你也可以从数据中学到很多内容。回想之前提到过的“描述性可视化”,花费一点时间看看周围的那些可视化的信息。它们通常不是从统计模型中建立,而是描述一些数据集并说明其中的关系。图1-1中Snow所绘的Board Street上水泵附近区域的图没有涉及逻辑回归以及机器学习。这幅图仅仅是地址与死亡间关系的可视化描述。毫无疑问,你可以使用简单的统计方法以及描述性可视化提高保护信息资产的能力。你所需要的只是提问、收集证据、做出清醒的认识以及将其传达给其他人的耐心。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/258334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python列反过来_xlwings 教程:使用Python更快速地处理Excel

Excel在当今商业中的使用非常普遍。在Dataquest,出于很多原因,我们通常推荐使用代码处理数据,并且我们的许多数据科学课程的目标是教授数据分析和数据科学的高效编码。但是,无论您多么喜欢使用Python,在一天结束时&…

多类线性分类器算法原理及代码实现 MATLAB

多类线性分类器算法原理及代码实现 MATLAB 一、算法原理 下面举例说明为何蓝圈部分在case2中是确定的而在case1中不确定: 二、代码实现 1、HK函数 function [] HK(w1_data,w2_data) %w1_data为第一类数据集 w2_data为第二类数据集 %此函数的作用为用HK算法对输…

(转) C#如何使用异步编程

怎么使用异步,就是用委托进行处理,如果委托对象在调用列表中只有一个方法,它就可以异步执行这个方法。委托类有两个方法,叫做BeginInvoke和EndInvoke,它们是用来异步执行使用。 异步有三种模式 等待模式,在…

javascript 的 ~ 操作符作用

2019独角兽企业重金招聘Python工程师标准>>> "~" operator in javascript. For anyone else who also didnt know what it does: it converts -1 to 0,可以节省用来比较-1的情况,如 if (~event.origin.indexOf(http://yoursite.com…

驻定相位原理(POSP)以及线性调频信号的频谱

最近看论文遇到了驻定相位原理,问老师直接给了我一本书让我看,看半天只有一段…不是这个方向的,半路出家做毕业设计需要用到这个定理,有错误的话请不吝赐教。 一、驻定相位原理 在数字信号处理中,经常需要将一个时域…

vue怎么合并两个视频_【软件分享】视频分割合并软件哪款好用呢?怎么剪切合并视频?...

现在有很多小伙伴都喜欢喜欢自己拍视频上传到各大视频平台,有时候会遇到关于视频剪辑方面的难题,比如说,视频怎么剪切?怎么将两段小视频合并成一个呢?这些都是一些比较常常遇到的问题,今天小编就给大家介绍…

怎样根据字段域查找到其在数据库中关系与属性

Infor SyteLine ERP中,很多时候需要做维护,我们需要从打开的window窗口的form中某一个输入Textbox域或是DropDownList域,去找到它是绑定了数据库中的哪一张表,哪一个字段的? 其相关的关系或是属性等。比如下面这个form…

【手势交互】9. PS Move

索尼研发体感控制技术已有10年,在过去那么多年里。尝试了3D摄像头、超声波和电磁感应等各种技术。最后还是觉得眼下的MOVE所使用的技术最为合适。PS Move是索尼于2010年9月份推出。用来让PS3主机具备动态感应功能的控制器。他利用动态控制器(手柄&#x…

多普勒效应及多普勒频移的简单推导

多普勒效应及多普勒频移的简单推导 fd≡fR−fT(1)f_d\equiv f_R-f_T \tag{1} fd​≡fR​−fT​(1)   式中,fdf_dfd​表示多普勒频移,fRf_RfR​表示目标回波的频率(Hz),fTf_TfT​表示发射信号的频率(Hz)。 多普勒频移…

amazons3 检查连接是否_钢筋机械连接接头如何检查是否合格?抽检数量、合格率是多少?...

一、钢筋机械连接介绍1、钢筋机械连接在连接区段内接头率的规定(35d):★接头宜设置在结构构件中受拉应力较小的部位,当需要在高应力部位设置时,在同一连接区段内Ⅲ接头的接头率不应大于25%,Ⅱ接头率不应大于50%,Ⅰ接头…

学容器必须懂 bridge 网络 - 每天5分钟玩转 Docker 容器技术(32)

上一节我们讨论了 none 和 host 类型的容器网络,本节学习应用最广泛也是默认的 bridge 网络。 Docker 安装时会创建一个 命名为 docker0 的 linux bridge。如果不指定--network,创建的容器默认都会挂到 docker0 上。 当前 docker0 上没有任何其他网络设备…

驻定相位原理(POSP)的简单应用

在SAR雷达成像中,POSP是相当基础重要的一个定理,一般在对回波做傅里叶变换时经常用到,一般在论文的开头就会出现。   下面简单复习一下POSP的步骤: 1:列出傅里叶变换表达式 2:对相位在驻定相位点处泰勒展…

(转)Unity3DUnity3D在android下调试

转自:http://blog.csdn.net/zuoyamin/article/details/11827309 一、工具准备 1.JDK——由于android是基于Java平台开发的,jdk是必须要安装的。下载地址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32…

Windows系统时间同步出错解决办法

有时候我们设置本地时间与Internet时间同步时,经常连接服务器time.windows.com超时,导致时间同步失败,解决办法如下: 利用快捷键"WinR"调出运行框,输入:w32tm /register按回车,执行完…

vs2019 更新安装错误_本月Windows 10累积更新再出BUG:安装时跳出错误代码

在本月的补丁星期二活动日中,微软为所有支持的 Windows 10 系统带来了新一轮的累积更新。和以往一样,本次发布的 KB4566782 和 KB4565351 两个累积更新又出现了新的 BUG。根据用户反馈,Windows10 Version 2004/1909/1903 功能更新安装这些累积…

【python】画一个爱心

python画爱心 做二级python题目的时候,遇到了一个画爱心编程题,感觉挺有趣的,把它搬到这里来。 from turtle import * def curvemove():for i in range(200):right(1)forward(1) setup(600,600,400,400) hideturtle() pencolor(black) fill…

上天入海又怎样?阿里的运动达人纷纷表示不服

6月23日是国际奥林匹克日。奥林匹克精神其实是一个普遍的概念。所有能使人变得更好的原则,都包容它明亮的光环里。2017年1月19日,阿里巴巴和国际奥委会在洛桑共同宣布top合作伙伴计划,开启了为期12年的阿里奥运之旅。阿里将给世界带来“云上的…

VC++中内存对齐

我们经常看到求 sizeof(A) 的值的问题,其中A是一个结构体,类,或者联合体。 为了优化CPU访问和优化内存,减少内存碎片,编译器对内存对齐制定了一些规则。但是,不同的编译器可能有不同的实现,本文…

iOS:转载:IOS谓词--NSPredicate

IOS谓词--NSPredicate 分类: IOS应用2013-02-19 17:24 6792人阅读 评论(1) 收藏 举报Cocoa 提供了NSPredicate 用于指定过滤条件,谓词是指在计算机中表示计算真假值的函数,它使用起来有点儿像SQL 的查询条件,主要用于从集合中分拣…

cordova 更改app版本_Cordova打包Android应用流程(MAC)

扩展阅读基于Cordova批量打场景包(MAC)APP包名称命名规则1. 安装cordova打包应用brew install cordova2. 创建cordova项目执行命令 create app com.githen.app 测试app * app 项目的目录名称 ( 下面所有目录均以此目录为根目录说明 ) * com.githen.app 项目包名称 * 测试app 项…