print的describe的展示全部数据_大数据项目中的QA需要迎接新的挑战

根据IDC全球半年度大数据和分析支出指南的最新预测,到2022年全球大数据和业务分析解决方案的收入将达到2600亿美元。在大数据和业务分析解决方案上投资增长最快的行业包括银行(复合年增长率13.3%)、医疗、保险、证券和投资服务、电信,每个行业复合年增长率都是12.8%。由此可见,大数据类项目在未来的地位将会越发重要,而作为QA,在大数据项目急速扩张的大背景下,也将迎来新的机遇和挑战。

一、大数据项目的数据特点

大数据项目与传统交付项目的不同之处在于其关注的重点为数据、算法而不再是用户操作逻辑、页面展示等,整个项目将围绕数据质量和算法结果耗费大量精力。

项目涉及到大量各种格式的数据,如图像、平面文件、音频等,其结构和格式不尽相同。与传统的交付类项目相比,大数据项目的数据量可能会大得多。其数据特点是3 V – Volume,Velocity and Variety:

4e56da26576ef1cb1701605a2ca9365e.png
  • 数量:收集的数据量很大,来自不同的来源来自不同的来源,如传感器,上传文件,商业交易等。
  • 速度:数据以高速创建,必须快速处理。 如RFID标签,智能电表等仪器可以以前所未有的速度自动生成数据。
  • 多样性:数据有各种格式。它可以是音频,视频,数字,文本,电子邮件,卫星图像,大气传感器等。

大数据项目中的测试通常与数据测试,算法测试、功能测试以及性能测试有关。明确大数据项目中测试关键点将有助于项目的成功交付。

二、数据质量至关重要

大数据项目中数据流转是至关重要的一部分,从不同的数据源系统流入至运算操作系统再流出至数据展示系统的过程中都要保障数据质量。

数据质量包括数据的完整性、准确性、一致性、及时性

4cceba9018da465259e31224796a64c7.png
  • 完整性:指数据记录是否完整,是否存在缺失的情况。数据缺失包括整条记录的缺失、某条记录中字段信息的缺失。数据是否完整直接影响到数据统计结果,是数据质量的基础。
  • 准确性:指数据记录的信息和数据是否准确,是否存在异常或者错误信息。
  • 一致性:一般体现在跨度很大的数据仓库体系中,当体系中存在很多业务数据仓库分支时,对于同一份数据需要保持一致。比如用户ID,从在业务库加工到数据仓库,再到各个消费节点,必须都是同一种类型,长度也需要保持一致。
  • 及时性:对于一些实时系统,甚至一些业务系统可以及时的收集数据、展示数据,给业务决策提供快速的支持和反馈,例如销售日报。
    除了上述四点之外,通常还会根据项目的实际情况进行其他处理以保障数据质量,例如数据去重、无效数据过滤等。

数据在数据系统中的流转

在多数数据系统中数据以下图的模式进行流转,关注数据流转过程中数据的质量也是QA所面临的一项重要挑战:

00259b390050e4081038e9f44b0a5c92.png

1.数据从数据源流入到我们所构建的大数据系统

数据从不同的数据源流入大数据系统,一般数据源包括:其他数据系统、CSV或EXCEL等文件、传感器、扫描仪、日志等等。在从数据源流入大数据系统前需进行数据清理,以确保得到正确的、需要的数据。在数据量极大的情况下,可能会引入Hadoop(或类似的框架)。无论引入何种框架,都需数据从数据源中以高质量的形式导入至我们所构建的大数据系统中。为验证此步的数据流转,需要掌握SQL、Hadoop命令等,这就对QA提出了新的要求。

除此之外,在大数据项目的测试中,由于数据量非常庞大,若非特意进行性能测试,通常只需选取有代表性的少量测试数据集进行测试,以避免每次测试流程都耗费过多时间。所谓有代表性,即这些数据能覆盖全部的主要计算逻辑和大部分的边界场景。

2.在大数据系统中进行运算

数据进入系统后,会对数据进一步处理,在处理数据中可能会用到Hive,Python等。作为QA还需掌握以上技能,以便开发脚本来提取和处理数据来进行测试。

大数据系统中对数据的处理会包括逻辑处理和算法挖掘两种。前者更偏向于业务处理,后者更偏向于数据挖掘或机器学习的算法。例如,假设某系统是对未来三天的天气进行预测,其用于进行模型训练的数据包括天气、温度、日期、城市等,在开发系统时,开发人员首先将全部数据按照城市进行分组,然后将不同城市的数据输入到机器学习算法中进行预测。在该系统中“按城市进行分组”即为逻辑处理,“用机器学习算法进行预测”即为算法挖掘。这是一个简化的例子,通常应用程序会更加复杂,在该系统中对于逻辑处理部分可按照传统测试方法进行测试,对于算法挖掘部分则需重点关注输入至算法的数据的正确性以及输出结果的各项指标表现。

然后将处理后的数据存储在数据仓库中。在将数据存储在数据仓库中之后,可再次对其进行验证,以确保它与经过数据系统运算后生成的数据一致。

3.数据结果展示

通常最后一步会将数据暴露给业务人员或下游使用者,通过可视化或者数据接口的形式进行输出,以便产生业务价值。可能会使用商业智能工具,或者由业务人员使用R、Python等语言进行数据分析,因此有必要对该输出结果进行验证。若通过Web页面将数据以可视化图表的形式展露给客户,就需要对Web页面进行测试,若通过Report的形式报告给客户,就必须对生成的Report进行测试。此步除了验证数据的准确性、完整性外,可能还需要验证数据的及时性。比如直播墙需要对数据统计结果进行实时展示,业务报表可能需要当天或当周进行展示,需满足系统有不同的时限要求。

以实际项目为例进行简单介绍

根据项目的不同,以上的架构可能会有细节上的不同,下面以实际项目为例进行简单的介绍。

例如,在某智慧物流项目中,需对物流订单进行路径规划,将全部的物流订单(包括接货订单和送货订单)分配给各个货车司机,根据订单的接货地址和送货地址以及订单的时间要求对每个货车司机的订单进行路径规划。优化的目标是在限制时间内从发货人手中收取全部货物并将货物全部送收货人手里,且尽可能使路径总和最小化。其系统结构按照数据流转可以大致按以下方式划分:

fff84dbda781b1053bb86948225833b4.png

根据数据在系统中的流转从左至右来看,测试注意点包括以下几方面:

  1. 上传文件校验,确保不会有异常数据流入后续的存储及运算系统中。
  2. 数据从数据源流入数据库时的完整性、准确性,确保其从CSV或Excel文件中读取的数据以正确的格式完整的进入到了数据系统的存储空间。
  3. 数据库中数据按照业务逻辑进行处理后被正确的输入到算法中。
  4. 算法逻辑。
  5. 用户可见的数据信息是准确有序的按照算法运算结果呈现给终端用户的。
  6. 异常情况处理,如数据传输过程中突然中断、输入给算法的数据过大或过小等情况。

总而言之,数据在系统的各个部分进行流转,需根据系统的架构、业务的逻辑等,从准确性、完整性、一致性、及时性几个方面保障数据的质量。

三、验证算法的结果

对于算法结果的验证是数据类项目中遇到另一个挑战,在这里我按照以往的项目经验总结了“三、二、一”:三个已践行,二个待实现,一个贯穿始终。

三个已践行

c4191a1acea02d50c04d361282c80091.png

1.确保每步逻辑正确

在敏捷实践中对于需求的拆分和追踪是以Story的形式进行的,数据项目中尤其要确认好每一个Story的输入数据样式、输出数据样式来确保在开发过程中各个Story之间可以顺利衔接,在辅以Kick Off和Desk Check等敏捷实践,确保Dev、BA、QA对于需求的理解一致。

算法部分一般是调用外部的包直接实现的,一般假设这部分的实现逻辑没有问题,故重点需关注输入至算法的数据。

2.向用户或者业务人员展示结果

37d38cfb2ac375345acf1a643e80b25e.png

若在进行探索研究阶段就已经输出完整的数据处理逻辑和算法处理过程,且其结果得到验证,项目内容主要是对该研究结果进行工程实现,则需保障工程实现过程中的质量。该情况下,保障质量的方法是把工程实现系统和在探索研究阶段输出的结果进行对比,这也是在帮助客户进行工程实现时较为常用的一种方法。

算法有固定的输出结果,比如数据分析类项目中需要统计某类订单的数量,可以采用构建测试数据和预期输出数据,判断系统输出结果是否与预期相同的方法。

没有研究阶段的输出结果,也没有固定的输出,比如智慧物流系统里路径规划,我们采取的方案是将结果展示给货司机,让他们去实际按照路线送货,由真正的用户来判断是否是其想要的结果。类似于这种结果无法由开发团队直接判断的,需尽早且持续的将结果展示给用户或相关业务人员,请其对算法结果进行反馈。

3.不同数据集多次验证。

设计不同的数据集进行验证,验证算法在不同数据下的表现,探究算法的边界。比如上文中提到的智慧物流项目可能适用于上海的场景,不一定适用于北京的场景,因为该算法用于训练的历史数据多为上海地区数据。

两个待实现

5b7e0a0cd4d8792166bff9b24da93171.png

1.以最终目标为依据

比如智慧物流,最终的目标是降低成本、提高收入。所以算法本身的指标,比如灵敏度,召回率都不是最终的计算,甚至路程都不是最终的目标。可以设定一个f(x)=总收入-总成本,目标为总成本最低。再比如滴滴的推荐算法,加了一个滴滴司机提供的反馈信息,这个信息只包括一条“你会不会把这个app推荐给朋友”。该推荐算法的目标为提高司机的满意度以推广软件,即为司机将算法推荐给朋友的数量。

2.线上迭代验证

模型的验证指标,比如召回率,灵敏度等,作为一个指标放到线上去做验证。对于上线的模型选取部分测试数据对其进行迭代验证,在不满足指标的情况下发出告警。该情况可能是由于随着时间的推移,用于训练的历史数据已经不再适应新的情形导致,需要算法工程师重新对其进行评估。

一个贯穿始终的注意点

79c7f90029987e6615143223a184edd8.png

真实数据对于系统的验证非常重要,人为构造的数据无论是在分布形态还是异常场景覆盖上都比不上真实的生产数据。测试数据分布不同于真实数据时,可能会导致算法在测试阶段表现良好,而在进入到生产系统后表现欠佳。在测试数据构造困难的情况下,由于测试数据对异常场景的覆盖不足,在进入生产系统引入真实数据后,甚至有可能会导致算法实效或系统崩溃等严重后果。

而实际项目中,获取可用于测试的真实数据,往往也是一大挑战。通常在将真实数据引入测试环节前还需进行至关重要的一步:数据脱敏。由于真实数据中包含了大量的机密信息,故在将真实数据用于测试前通常会将如身份证号、电话、价钱等敏感信息进行脱敏处理。


目前在网上能找到的跟大数据项目测试相关的文章有限,便结合经历过的项目进行了以上的总结。若有同样在大数据项目中担任QA角色的同学,欢迎一起来交流讨论。

文/ThoughtWorks 王薇

大数据项目中的QA需要迎接新的挑战 - ThoughtWorks洞见​insights.thoughtworks.cn
6441ce330b9b1f06a2f440c1df0568c8.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/288559.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Enum枚举类型实战总结,保证有用!

一般在我们开发时如果能使用枚举罗列的,一般都会定义一个枚举类型。将枚举类型作为方法的参数,可以方便的进行调用,给我们带来不少的便利,当然有时候它还不如直接用一个int类型带来,带来一定灵活性。但只要能满足业务咱…

linux c之通过popen执行shell命令

1 popen介绍 我是在ubuntu上面进行man popen的,解释如下 这个函数通过创建一个管道通过fork一个进程,然后执行一个command,因为在管道中,所以数据流是单向的,然后type一般只能是读“r”或者写“w”,返回值在IO流里面,用了popen之后我们要记得用pclose函数。 2 使用 #inc…

用java调用.net的wcf其实还是很简单的

前些天和我们的一个邮件服务商对接,双方需要进行一些通讯,对方是java团队,而作为.net团队的我们,只能公布出去的是一个wcf的basicbinding,想不 到问题来了,对方不知道怎么去调用这个basic,可能他…

DbTool 2.0.0 Released

DbTool 2.0.0 ReleasedIntroDbTool 一个支持 DbFirst、ModelFirst 和 CodeFirst 的数据库小工具。DbFirst 是根据数据库中的表信息生成代码中的 Model,以及生成数据表结构文档ModelFirst 是根据数据表信息或者数据表结构文档生成创建数据库的脚本CodeFirst 是指根据…

[蓝桥杯] 蚂蚁感冒

[蓝桥杯] 蚂蚁感冒 峰值内存消耗 < 256M  CPU消耗 < 1000ms 【题目描述 - Problem Description】 长100厘米的细长直杆子上有n只蚂蚁。它们的头有的朝左&#xff0c;有的朝右。 每只蚂蚁都只能沿着杆子向前爬&#xff0c;速度是1厘米/秒。 当两只蚂蚁碰面时&#xff0…

Source Insight之Relation Window Properties配置和一些快捷键

1 Source Insight之Relation Window Properties配置 我们先点击source Insight的这个地方 然后鼠标右键&#xff0c;点击Relation Window Properties&#xff0c;配置如下 2 快捷键 目前就我知道的 1&#xff09;按亮和按熄这个变量 shift F8 2&#xff09;跳转到具体一行…

ArcGIS 10.2 Calculate Value(Data Management) 工具的使用

1、概述 Calculate Value tool returns a value based on a specified Python expression. 计算值工具返回一个基于特定Python表达式的值。 工具位置:ToolBox→Data Management Tools→General→Calculate Value 2、注意事项 (1)该工具只能用于MoudleBuilder,而不能用于Py…

vb6编写dll读取dat文件_【STM32Cube_15】使用硬件I2C读取温湿度传感器数据(SHT30)...

寻求更好的阅读体验&#xff0c;请移步Mculover666的个人博客&#xff1a;【STM32Cube_15】使用硬件I2C读取温湿度传感器数据&#xff08;SHT30&#xff09;​www.mculover666.cn本篇详细的记录了如何使用STM32CubeMX配置STM32L431RCT6的硬件I2C外设&#xff0c;读取SHT30温湿度…

tcp/ip ---数据封装过程

转载于:https://www.cnblogs.com/saryli/p/5306721.html

NuGet 新特性 -- 中心化的 NuGet 包版本管理

NuGet 新特性 -- 中心化的 NuGet 包版本管理IntroNuGet 支持了一个可以中心化管理 NuGet 包版本的方案&#xff0c;我们可以在一个地方统一管理 NuGet 包的版本Preface在之前的版本中我们通常在每个指定包版本引用的地方会设置 NuGet 包的版本号&#xff0c;如果项目比较多&…

Java面向对象编程学习

1、新建一个工程&#xff0c;在工程下新建一个类Method01&#xff08;勾选创建main函数&#xff09; package ClassStudy;class Person {String name; //默认为nullint age; //默认为0//构造函数public Person(){namenull;age0;}//方法public void say(){System.out.println(&…

查询工资最低的3名员工的职工工号、姓名和收入_普法课堂|你有多久没有收到工资条了?...

工资条对于现在的大多数劳动者而言&#xff0c;尤其是90、00后&#xff0c;可能是一个十分陌生的概念和事物&#xff0c;许多用人单位已经不再向劳动者发放&#xff0c;在司法实践中工资条越来越少的在庭审中予以呈现。工资条对于劳动者而言十分重要&#xff0c;即便未有用人单…

linux之通过tail命令动态跟踪日志文件里面的末尾信息

1 问题场景 比如在linux系统,我们服务端的错误日志在一个文件里面不断输入进去,我们需要动态查看,我们总不可能每次进行cat文件查看 2 tail命令和head命令 head命令默认是输出一个文件的最前面10行 tail命令默认是输出一个文件的最后面10行 1) -n参数 具体显示多少行 显示…

android数据持久化存储(2)

SharedPreferences 将数据存储到SharedPreferences中&#xff1a; 不同于文件的存储方式&#xff0c;SharedPreferences是使用键值对的方式来存储数据的。也就是说当保存一条数据的时候&#xff0c;需要给这条数据提供一个对应的健&#xff0c;这样再读取数据的时候就可以通过这…

清净布气门功夫介绍

如下图片摘自《[中国清净布气门正宗绝技].徐星俊》一书。窥一斑而知全貌&#xff0c;由此可见传统武术有多博大精深&#xff0c;简直是精深已极&#xff01;null转载于:https://www.cnblogs.com/mengshuai1982/p/7344087.html

URL里面携带了#是什么意思

1 问题 有一个链接里面包含了#&#xff0c;格式是这样的 https://域名/#*** 然后进行访问的时候&#xff0c;用Fiddler抓包链接分析&#xff0c;发现链接只有下面的了 https://域名/ 觉得很奇怪&#xff0c;为什么#后面的参数啥的都没有了呢&#xff1f;还以为这里有问题&…

斜率优化(CDQ分治,Splay平衡树):BZOJ 1492: [NOI2007]货币兑换Cash

Description Input 第一行两个正整数N、S&#xff0c;分别表示小Y 能预知的天数以及初始时拥有的钱数。 接下来N 行&#xff0c;第K 行三个实数AK、BK、RateK&#xff0c;意义如题目中所述Output 只有一个实数MaxProfit&#xff0c;表示第N 天的操作结束时能够获得的最大的金钱…

ArcGIS 10.2晕渲图+旋转图制作

晕渲图-通过模拟实际地面本影与落影的方法反映实际地形起伏特征的一种重要的地形图。晕渲图是DEM地表形态表达的一种形式,它通过设置光源的高度角和方位角更形象或者更符合人类视觉的方式展示一个地区的地形。通过晕渲图,可以很好的反应地形地势的变化,有很好的立体感,方便…

unity5.x C# 获取屏幕宽度 设置不受重力影响

在unity5.x中&#xff0c;获取屏幕宽度代码如下&#xff1a; float screenWeight Screen.width; //获取屏幕宽度 Screen.width 在此获取屏幕的宽度&#xff0c;从而赋值给screenWeight变量。 在unity5.x中在inspector中可以设置是否当前游戏对象是否受重力影响&…

sort命令详解及Nginx统计运用

sort命令是帮我们依据不同的数据类型进行排序&#xff0c;其语法及常用参数格式&#xff1a;  sort [-bcfMnrtk][源文件][-o 输出文件] 补充说明&#xff1a;sort可针对文本文件的内容&#xff0c;以行为单位来排序。参  数&#xff1a; -b 忽略每行前面开始出的空格字符…