阿里云大数据ACA及ACP复习题(121~140)

121.数据清洗(Data Cleaning)是用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。下列选项中,对数据清洗描述正确的是(ABC)
A:数据清洗可以检测表中的不准确或损坏的记录
B:数据清洗可以识别不正确,不完整,不相关,不准确或其他有问题(“脏”)的数据
C:数据清洗时检测出不正确的数据可以替换,修改或删除
D:数据清洗不可以纠正脏数据

解析:数据清洗或数据清理是从记录集、表或数据库中检测和纠正损坏或记录不准确的数据的过程。广义地说,数据清洗包括识别和替换不完整、不准确、不相关或有问题的数据和记录。

122.Flink在大数据处理与分析中的作用不包含(B)?
A:实时推荐
B:实时存储
C:实时反作弊
D:实时IOT数据分析

解析:Flink的功能有: 实时数仓、实时ETL、实时反作弊、 实时监测、实施推荐、实时IoT数据分析 ,Flink是实时处理引擎,不进行数据存储

123.数据采集是指使用技术手段进行(A)?
A:数据收集
B:数据存储
C:数据分析
D:数据挖掘

解析:数据采集是指对目标领域、场景的特定原始数据进行采集的过程。

124.Hadoop在底层维护多个数据副本,使应用运行稳定运作。这是Hadoop的©特点。
A:安全性
B:易扩展
C:高可靠
D:高效率

解析:“使应用运行稳定运作”体现了高可靠的特点

125.以下属于分布式文件系统的是哪个文件系统?(B)
A:FAT32
B:GFS
C:NTFS
D:EXT6

解析:GFS(Google File System)是Google公司专为满足公司需求而开发的基于Linux的可扩展的分布式文件系统,用于大型的、分布式的、对大数据进行访问和应用,成本低,应用于廉价的普通硬件上。

126.大数据的5V特征及其与《大数据时代》一书中提出的“4V”特征的区别(D)
A:Volume规模性
B:Velocity高速性
C:Variety多样性
D:Veracity准确性
E:Value价值性

解析:大数据的 5v 特征包括容量(Volume)、速率(Velocity)、多样性(Variety)和真实性(Veracity)以及价值(Value),区别于4V(容量,速率,多样性,价值),多了一项(Veracity)准确性。

127.HDFS主要采用主从结构模型,主节点负责数据请求与元数据的保存,以下选项中哪个节点负责数据存储?(C)
A:NameNode
B:Jobtracker
C:DataNode
D:SecondaryNameNode

解析:DataNode 负责存储数据的,提供真实文件数据的存储服务。

128.下列选项中属于阿里云数据可视化产品是?(AB)
A:Quick BI
B:DataV
C:DataX
D:Data Integration

解析:数据可视化DataV是阿里云一款数据可视化应用搭建工具; Quick BI通过智能的数据分析和可视化能力帮助企业构建数据分析系统 数据集成(Data Integration) DataX是异构数据源离线同步的工具

129.数据采集的技术有许多种,下列选项中不是采集技术的是(D)
A:Sqoop采集技术
B:Flume采集技术
C:网络爬虫技术
D:MapReduce处理技术

解析:大数据的并行处理利器——MapReduce

130.随着时代的发展,业务中需要保存的数据量成倍增长,传统的文件系统已不能满足业务发展的需要,而分布式文件系统的出现可以解决以下哪个向题?(A)
A:存储扩展
B:数据压缩
C:文件查找
D:文件命名

解析:存储扩展

131.案例:当用户在国外某地进行一笔5万块的线上交易,从风控模型库中读取相应的风控模型集合中对用户的额度和交易地点进行判断,从风控数据库中拿到的用户征信信息中,用户的额度为10万,但是上次交易发生在1个小时前,且地点为国内,那么额度判断PASS,交易地点判断FAIL,那么此次交易有盗刷或者欺诈嫌疑,系统则判定此次交易失败。该案例体现了大数据在( C )领域的应用。
A:电商
B:人工智能
C:金融风险管控
D:政府决策

解析:体现了在金融风险管控的应用

132.在数据预处理过程中,数据集成的方法有三种,以下正确的是(ACD)
A:联邦数据库
B:数据删除
C:中介者
D:数据仓库

解析:数据集成的一般方法可以概括为联邦式、中间件式、数据仓库模式等。

133.关于HDFS的特性,下列说法错误的是?(D)
A:数据分布式存储
B:强大的跨平台兼容性
C:兼客廉价的硬件设备
D:多次写入、多次读取

解析:HDFS的模式是一次写入多次读取

134.数据分析与数据挖掘的概念是容易被混淆。下列选项中,正确描述数据分析与数据挖掘之间的关系的是?(ABC)
A:数据分析强调结果,数据挖掘强调过程
B:数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据末知的模式与规律
C:数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据
D:数据分析是输出模型或规则,根据模型应用。数据挖掘是得到己知的指标预测值,根据预测值跟业务结合,发挥数据价值

解析:数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。 数据挖掘输出模型或规则,并且可相应得到模型得分或标签 数据分析目标明确,根据目标做出假设,得出结论。数据挖掘是寻找数据未知的模式与规律 数据分析常采用数学分析的方法,如对比分析、回归分析、交叉分析等。数据挖掘主要采用统计学、机器学习等常用方法挖掘数据

135.网络爬虫由控制节点、爬虫结点、资源库构成,以下关于网络爬虫特性的描述正确的有(ABD)。
A:网络爬虫中可以有多个控制节点
B:每个控制节点下可以有多个爬虫节点
C:多个控制节点间不允许相互通信
D:多个爬虫节点间可以进行互相通信

解析:网络爬虫中可以有多个控制节点; 每个控制节点下可以有多个爬虫节点,控制节点之间可以互相通信; 控制节点和其下的各爬虫节点之间也可以进行互相通信,属于同一个控制节点下的各爬虫节点间,亦可以互相通信。

136.MapReduce是一个分布式运算程序的编程框架,下面对MapReduce描述正确的是(ABD)。
A:MapReduce的核心为Map函数和Reduce函数
B:MapReduce用于大规模数据集的并行运算
C:MapReduce不需要应用开发者编写程序来实现功能
D:MapReduce设计理念就是“计算向数据靠拢”

解析:MapReduce 主要是依靠开发者通过编程来实现功能的

137.使用QuickBl进行数据可视化开发的过程中,需要了解Quick Bl的操作流程,下面哪一项属于Quick Bl正确的操作流程?(C)
A:准备工作-数据建模一连接数据源一数据可视化分析一发布共享
B:准备工作一连接数据源一数据可视化分析一数据建模一发布共享
C:准备工作一连接数据源-数据建模一数据可视化分析一发布共享
D:准备工作一数据可视化分析-连接数据源-数据建模一发布共享

解析
https://help.aliyun.com/document_detail/161417.html?spm=a2c4g.33813.0.i5
步骤一:连接数据源
步骤二:数据建模
步骤三:数据可视化分析
步骤四:发布共享

138.在进行数据预处理时,经常会遇到异常值,下列选项中处理异常值的方法有(ABC)
A:删除含有异常值的记录
B:将异常值视为缺失值,交给缺失值处理方法类处理如插补的方法
C:用平均值来修正
D:所有异常值不能删除

解析:异常值的的处理有删除含有异常值的观测(直接删除,当样本少时直接删除会造成样本量不足,改变变量的分布)、当作缺失值(利用现有的信息,对其当缺失值填补)、平均值修正(用前后两个观测值的均值修正该异常值)、不处理。

139.图比文本或电子表格更容易理解,人脑对视觉信息的处理速度要比书面信息快很多。这体现了数据可视化的哪个优势?( B )
A:传播速度快
B:数据更直观
C:多维展示
D:容易记忆

解析:数据更直观:图比文本或表格更加直观呈现

140.在进行数据清洗时,每个步骤有对应的注意事项。以下选项中,步骤和注意事项匹配的有 (ABCE)。
A:数据清洗时先处理缺失值、异常值和数据类型转换,最后进行重复值的处理
B:对缺失值和异常值处理时,一般根据业务需求进行填充,进行统计值填充、前/后值填充、零值填充
C:在数据清洗之前,要明确表的结构和发现需要处理的值,方便数据清洗的更彻底
D:数据量大且异常数据量也较大时,可直接删除异常数据:数据量小,则每个数据都可能影响分析结果,需要认真去对异常数据进行处理
E:确保数据表的每列都进行清洗

解析:如果总数据量较大,而异常的数据(包括缺失值和异常值)的量较少时可以选择直接删除处理,因为这并不太会影响到最终的分析结果;但是如果总数据量较小,则每个数据都可能影响这分析的结果,这时候就需要费心思去对数据进行处理(可能需要通过其他的关联表去找到想过数据进行填充)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/622036.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多进程实现案例

多进程 多进程(简单程序) from multiprocessing import Process, Queueclass MyProcess(Process):def __init__(self, q, i):super().__init__()self.q qself.i idef run(self):print(子进程%s 开始put数据 % self.i)self.q.put(我是%s 通过Queue通信…

ssh远程访问及控制

目录 一、ssh协议简介 1、实现远程访问的协议和程序 2、ssh协议的概念及功能 3、ssh协议的工作原理 3.1 对称加密与非对称加密 3.1.1 对称加密(Symmetric Encryption) 3.1.2 非对称加密(Asymmetric Encryption) 3.2 公钥传…

C //练习 5-3 用指针方式实现第2章中的函数strcat。函数strcat(s, t)将t指向的字符串复制到s指向的字符串的尾部。

C程序设计语言 (第二版) 练习 5-3 练习 5-3 用指针方式实现第2章中的函数strcat。函数strcat(s, t)将t指向的字符串复制到s指向的字符串的尾部。 注意:代码在win32控制台运行,在不同的IDE环境下,有部分可能需要变更。…

表对象的标识

表对象标识 kingbase中表作为数据库对象具有一个系统内部的唯一标识符,这个标识符被称为oid(对象标识符),它是kingbase用来在整个数据集群中唯一地标识每个数据库对象的一个字段。对于表来说,其OID可以在系统目录表sy…

Pandoc:markdown转word

简介:Pandoc是由John MacFarlane开发的标记语言转换工具,可实现不同标记语言间的格式转换,堪称该领域中的“瑞士军刀”。Pandoc使用Haskell语言编写,以命令行形式实现与用户的交互,可支持多种操作系统;Pand…

JavaScript-jQuery1-笔记

每个页面中一定要先引入jQuery文件 使用this 在jQuery中在一定要使用$(this) 代表当前对象 1.jQuery获取元素对象 $(选择器) 选择器可以是:标签选择器、类选择器、ID选择器、后代选择器、子元素选择器、全局选择器 $(button) 2.绑定事件 $(选择器).事件类型( 事件…

斯坦福CS231n学习笔记:DL与CV教程 (1) | 引言与知识基础

前言 📚 笔记专栏:斯坦福CS231N:面向视觉识别的卷积神经网络(23)🔗 课程链接:https://www.bilibili.com/video/BV1xV411R7i5💻 CS231n: 深度学习计算机视觉(2017&#xf…

Uibot (RPA设计软件)网页表单填写————课前材料四

微信群发助手机器人的小项目友友们可以参考小北的课前材料二博客~ (本博客中会有部分课程ppt截屏,如有侵权请及请及时与小北我取得联系~) 紧接着小北的前两篇博客,友友们我们即将开展新课的学习~RPA 培训前期准备指南——安装Uibot(RPA设计软件&#x…

USB micro输入口中三个问题详解——差分信号、自恢复保险丝SMD1210P050TF、电容滤波

前言:本文对USB micro输入口中遇见的三个问题进行详解:差分信号、自恢复保险丝SMD1210P050TF、电容滤波 目录: 差分信号 自恢复保险丝SMD1210P050TF 电容滤波 如下图,USB为U-F-M5DD-Y-1型号(9个引脚,除…

【软件工具】之 Sublime Text

目录 一、Sublime Text 简介二、Sublime 软件配置三、常用快捷操作四、常用插件 一、Sublime Text 简介 SublimeText 是一款非常好用的文本和代码编辑软件,该软件属于轻量级的,启动快、内存占用小、打开大体积文件非常快速。同时该软件有强大的全目录文…

【AIGC-文本/图片生成视频系列-9】MagicVideo-V2: 多阶段高美感视频生成

最近得益于扩散模型的快速发展,文本到视频(T2V)模型的激增。 今天要介绍的是字节的MagicVideo-V2,一个新颖的多阶段 T2V 框架,它集成了文本到图像 (T2I)、图像到视频 (I2V)、视频到视频 (V2V) 和视频帧插值 (VFI) 模块…

学习笔记-mysql-各种函数的基本使用

1. 聚合函数 count , sum , min , max ,avg , group_concat() -- 将所有员工的名字合并成一行 select group_concat(emp_name) from emp; -- 指定分隔符合并 select department,group_concat(emp_name separator ; ) from emp group by department; -- 指定排序方式和分隔…

LeetCode讲解篇之78. 子集

文章目录 题目描述题解思路题解代码 题目描述 题解思路 初始化一个start变量记录当前从哪里开始遍历搜索nums 搜索过程的数字组合加入结果集 然后从start下标开始遍历nums,更新start,递归搜索 直到搜索完毕,返回结果集 题解代码 class …

spring的事物传播机制

Spring的事务传播机制用于控制在多个事务方法相互调用时事务的行为。 在复杂的业务场景中,多个事务方法之间的调用可能会导致事务的不一致,如出现数据丢失、.重复提交等问题,使用事务传播机制可以避免这些问题的发生,保证事务的一…

探索YOLOv5微服务:gRPC Proto设计与优化策略

文章目录 一、前言1. YOLOv5简介2. gRPC简介 二、基础Proto文件解析三、优化建议1 性能优化2 功能扩展3 错误处理和日志4 新功能提案5 接口优化6 可扩展性和模块化 四、优化建议案例1. 异步处理和并发2. 流式传输优化3. 批处理接口设计4. 元数据和附加信息5. 错误处理和日志6. …

LabVIEW通过视频识别开发布氏硬度机自动化测量系统

LabVIEW通过视频识别开发布氏硬度机自动化测量系统 概述: 在当前的工业检测与自动化领域,对于精确测量技术的需求日益增长。特别是在材料硬度测试领域,布氏硬度机的自动化测量出现在越来越多的使用中。展示了一个基于LabVIEW开发的布氏硬度…

自定义C#类库(.dll文件)

环境配置 操作系统:Windows 10 开发工具:Visual Studio 2022 .Net桌面开发环境: 开发步骤 (一)创建C#类库项目 (二)配置项目名称和项目路径 (三)选择所使用的框架&a…

codeforces A -Cut Ribbon

思路 基础 d p dp dp , d p i , j dp_{i,j} dpi,j​ 表示长度为 i i i , p i e c e piece piece 为 j j j 的数量。题目范围 4000 4000 4000 常规定义可能会 M E L MEL MEL ,所以第二维为不同的 p i e c e piece piece 的个数。枚举不…

聊聊websocket那些事

前端必备工具推荐网站(免费图床、API和ChatAI等实用工具): http://luckycola.com.cn/ 一、什么是websocket? WebSocket 是一种在单个 TCP 连接上进行全双工通信的网络协议。 它是 HTML5 中的一种新特性,能够实现 Web 应用程序和服务器之间的实时通信,…

大量的视频如何批量随机分割的方法:批量剪辑不求人

在处理大量视频文件时,经常要进行随机分割,满足不同的需求。制作短视频、片段集锦等,批量随机分割视频都是一个高效的方法。下面来看云炫AI智剪如何操作的吧。 分割后的视频缩略图展示,被分割的视频自动分类保存在对应的文件夹中。…