《大数据分析》期末考试整理

一、单项选择题(1*9)

1.大数据发展历程:出现阶段、热门阶段和应用阶段  P2

2.大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

3. 人类在科学研究上先后经历了实验理论计算数据思维四种范式        P3

4.大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

5.ETL:提取转换加载        P7

6.大数据处理框架可分为三类:批处理系统流处理系统混合处理系统        P12

7.Requests状态码:200 成功,404 失败

8.正则表达式:

9.Scrapy命令:P88

10.pandas一维数组、二维数组、方法的使用

在pandas库中有两个最基本的数据类型,即Series和DataFrame。其中Series代表一维数组,DataFrame代表二维数组。P277

sum()                对每一列求和

sum(1)              对每一行求和

df- * / ()             做减法、乘法、除法

append()           对行或列扩充

reindex()           重新简历一个新的索引对象

drop()               丢弃不需要的数据值

sort_index()   对数据值 排序

idxmin              统计最小值索引

idxmax             统计最大值索引

cumsum           对数据值进行累加

11.python的使用

二、填空题(1*12)

1.命令:pip install beautifulsoup4

2.大数据类型:结构化数据非结构化数据半结构化数据

3.大数据存储是将数量巨大且难以收集、处理、分析的数据集合持久化到计算机中

4.大数据框架是可以进行大数据分析处理工具的集合,主要用于负责对大数据系统中的数据进行计算。

5.大数据获取方式包括爬虫爬取、用户留存、用户上传、数据交易和数据共享

6.UA:UserAgent

7.Scrapy是使用Python语言编写的开源网络爬虫框架,也是一个为了爬取网站数据,提取结构性数据而编写的应用框架,简单易用并且是跨平台的。

8.目前实现数据抽取的方式:关系库中的数据抽取非关系库中的数据抽取

数据抽取的关键技术:时间戳、触发器方式、全量删除插入

9.大数据分析与挖掘的主要内容:可视化分析和数据挖掘算法的选择

三、判断并改错(3*5)

1.Request对象用于描述一个HTTP请求,由Spider产生

2.Response对象用于描述一个HTTP响应

3.云数据库并非是一种全新的数据库技术,而只是以服务的方式提供数据库功能。

4.元组数据的元素不能改变,只能读取

5.Spider在项目中名称必须独一无二

6.Python的整型类似于Java的BigInteger类型,它的长度不受限制

7.Python区分整型和浮点型的唯一方式就是看有没有小数点

8.Python中布尔类型可以被当作整数来对待

9.min-max标准化方法是对原始数据进行线性变换

四、简答题(4*2)

大数据发展历程:出现阶段、热门阶段和应用阶段  P2

大数据影响        P3

1)大数据对科学活动的影响

2)大数据对思维方式的影响

3)大数据对社会发展的影响

4)大数据对就业市场的影响

大数据对思维方式的影响:

1.人们处理的数据从样本数据变成全部数据

2.人们不得不接受数据的混杂性,放弃对精确性的追求

3.人类通过对大数据的处理放弃对因果关系的渴求,转而关注相关关系

大数据特征:数据量大、数据类型繁多、数据产生速度快数据价值密度低        P5

大数据与云计算的联系:

        大数据与云计算都较好地代表了IT界发展的趋势,二者相互联系,密不可分。云计算就是计算机硬件资源的虚拟化,而大数据是对海量数据的高效处理。

区别:

        1.在概念上两者有所不同,云计算改变了IT,而大数据改变了业务。然而大数据必须有云作为基础架构才能得以顺畅运营

        2.大数据和云计算的目标受众不同,云计算是CIO等关心的技术层,是一个进阶的IT解决方案。而大数据是CEO关注的,是业务层的产品,大数据的决策者是业务层。

        综上,大数据与云计算二者已经彼此渗透,密不可分。

大数据与人工智能的区别:

1.在概念上两者有所不同,大数据和云计算可以理解为技术上的概念,人工智能是应用层面的概念,人工智能的技术前提是云计算和大数据

2.在实现上,大数据主要是依靠海量数据来帮助人们对问题做出更好判断和分析,而人工智能是一种计算形式,它允许机器执行认知功能。

综上所述,虽然它们有很大区别,但人工智能和大数据仍然能够很好地协同工作。二者相互促进,相互发展。

数据清洗流程:

1.预处理

2.缺失值清洗

3.格式与内容清洗

4.逻辑错误清洗

5.多余的数据清洗

6.关联性验证 

数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

数据抽取流程:

1.获取数据

2.整理、检查和清洗数据

3.将清洗好的数据集成,并建立抽取模型

4.开展数据抽取与数据转换工作

5.将转换后的结果进行临时存放

6.确认数据,并将数据最终应用于数据挖掘中

Spider开发流程:

1.继承scrapy.Spider

2.为Spider命名

3.设置爬虫的起始爬取点

4.实现页面的解析 

五、名词解释(3*2)

1.大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

2.1秒定律:要在秒级时间范围内给出分析结果,若超出这个时间,数据就失去价值了

3.大数据采集技术就是对数据进行ETL操作,通过对数据进行提取、转换、加载,最终挖掘数据的潜在价值,然后给用户提供解决方案或决策参考

4.网络爬虫又称网络机器人、网络蜘蛛,是一种通过既定规则能够自动提取网页信息的程序

5.数据可视化是关于数据视觉表现形式的科学技术研究

6.大数据存储是将数量巨大且难以收集、处理、分析的数据集持久化到计算机中

7.数据清洗的含义是检测和去除数据集中的噪声数据和无关数据,处理遗漏数据,去除空白数据域和知识背景下的白噪声

8.数据抽取是指从数据源中抽取对企业有用的或感兴趣的数据的过程

9.网页数据提取

10.数据采集又称数据获取,是指利用某些装置从系统外部采集数据并输入系统内部的一个接口

11.数据标准化是通过一定的数学变换方式将原始数据按照一定的比例进行转换,使之落入一个小的特定区间内 

六、阅读程序(10*1)

还要看P52代码

 七、操作题(10*4)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/28483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言适不适合新手学习?

C 语言,尽管从整体上看相对较为简单,但在实际编写 C 程序的过程中,会涉及到诸如指针等一些细节方面,这确实可能会给新手带来一定程度的困扰和挑战。不过,我们需要明确的是,这种挑战从某种意义上来说是具有积…

paddleocr实验过程

切割数据 Paddleocr/PPOCRLabel/gen_ocr_train_val_test.py;切割后的数据在train_data中,注意切割后的数据前缀默认是当前目录,因此建议切割数据在liunx中进行。建议在liunx中指定 python gen_ocr_train_val_test.py --datasetRootPathXX …

锁存器的工作原理及其在FPGA设计中的注意事项

锁存器(Latch)是数字电子中常用的一种基本元件,用于在特定的时间点或条件下“锁存”或保存输入的数据值。锁存器对脉冲电平敏感,它只在输入脉冲的高电平(或低电平)期间对输入信号敏感并改变状态。在数字电路…

vba学习系列(5)--指定区域指定字符串计数

系列文章目录 文章目录 系列文章目录前言一、需求背景二、vba自定义函数1.引入库 总结 前言 一、需求背景 想知道所有客诉项目里面什么项目最多,出现过多少次。 二、vba自定义函数 1.引入库 引用: CountCharInRange(区域,“字符串”) Function CountCh…

人有时候不逼自己一把,永远不知道自己有多牛逼!

大家好,我是墨云,一位看起来不像搞技术的IT男。 之前写过一篇文章,从零开始,如何在3个月内吸引3500用户:我的私域运营秘诀,现如今,我们的私域社群成员数已逾五千人。👫 今天的主题&a…

【漏洞复现】红海云eHR PtFjk.mob 任意文件上传漏洞

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

【图解IO与Netty系列】Netty编解码器、TCP粘包拆包问题处理、Netty心跳检测机制

Netty编解码器、TCP粘包拆包问题处理、Netty心跳检测机制 Netty编解码器编码器解码器编解码器Netty提供的现成编解码器 TCP粘包拆包问题处理Netty心跳检测机制 Netty编解码器 网络传输是以字节流的形式传输的,而我们的应用程序一般不会直接对字节流进行处理&#x…

System-Verilog 实现DE2-115 流水灯

文章目录 一、什么是SystemVerilog二、代码实现实现结果 一、什么是SystemVerilog SystemVerilog是一种硬件描述语言(HDL),它用于设计和验证电子系统,特别是在集成电路(IC)和系统级芯片(SoC)的设计过程中。SystemVerilog是Verilog语言的一个超集&#xf…

大模型生成的常见Top-k、Top-p、Temperature参数

参考: https://zhuanlan.zhihu.com/p/669661536 topK,topP https://www.douyin.com/video/7380126984573127945 主要是softmax产生的词表每个词的概率分布后, topK,比如K3,表示采样概率最大的前3个,其他全…

【Perl】与【Excel】

引言 perl脚本语言对于文本的处理、转换很强大。对于一些信息量庞大的文本文件,看起来不直观,可以将信息提取至excel表格中,增加数据分析的可视化。perl语言的cpan提供了大量模块。对于excel文件的操作主要用到模块: Spreadshee…

【论文速读,找找启发点】2024/6/16

ICME 2023 End-To-End Part-Level Action Parsing With Transformer 类似 DETR,通过 加 query的方式实现 端到端 ELAN: Enhancing Temporal Action Detection with Location Awareness 如何实现位置感知? > 重叠的卷积核? Do we really …

大数据开发流程解析

大数据开发是一个复杂且系统的过程,涉及需求分析、数据探查、指标管理、模型设计、ETL开发、数据验证、任务调度以及上线管理等多个阶段。本文将详细介绍每个阶段的内容,并提供相关示例和代码示例,帮助理解和实施大数据开发流程。 本文中的示…

基于WPF技术的换热站智能监控系统02--标题栏实现

1、布局划分 2、准备图片资源 3、界面UI控件 4、窗体拖动和关闭 5、运行效果 走过路过不要错过,点赞关注收藏又圈粉,共同致富,为财务自由作出贡献

CodeQL从入门到入土

为什么在现在写这文章 CodeQL传闻找到了Log4j的漏洞,这段时间上边要求,把公司系统内部常见的问题用CodeQL写检测脚本,用于系统长期检测。主要是记录这段时间的学习,以及自己总结的常用写法。 一个需求,不同人写出来的…

【Go语言】Gin 框架教程

Gin 框架教程 1.第一个 Gin 程序 1.1 Gin 安装 # 执行执行如下操作即可,安装Gin前需要安装Go环境 go get -u -v github.com/gin-gonic/gin # -v:打印出被构建的代码包的名字 # -u:已存在相关的代码包,强行更新代码包及其依赖包…

框架的使用

什么是框架? 盖房子,框架结构 框架结构就是房子主体,基本功能 把很多基础功能已经实现(封装了) 框架:在基础语言之上,对各种基础功能进行封装,方便开发者,提高开发效…

JavaFX 图像视图

JavaFX ImageView 控件可以在 JavaFX GUI 中显示图像。ImageView 控件必须添加到场景图中才能可见。JavaFX ImageView 控件由类表示 javafx.scene.image.ImageView。 创建一个 ImageView 通过创建类的实例来创建 ImageView 控件实例ImageView。类的构造函数ImageView需要一个…

02 设计过程概述

02 设计过程概述 2-1 设计需求2-2 飞机设计的各个阶段2-2-1 概念设计2-2-2 初步设计2-2-3 详细设计 2-3 飞机概念设计的流程2-4 集成产品开发和飞机设计2-5 补充2-5-1 布局设计(Configuration Design)关键任务:作用和重要性:使用领…

ARIMA模型与ARIMA-GARCH模型预测时间序列

上世纪 70 年代初,Ljung 等人提出 ARIMA 模型,又称求和自回归移动平均模型。其思想 是针对于非平稳时间序列进行数学建模,将其通过差分运算后 进行相关数据刻画 ,变为一个平稳的新序列,进而进行相关数据的刻画。 自 1…

Sping源码(九)—— Bean的初始化(非懒加载)— Bean的创建方式(自定义BeanPostProcessor)

序言 之前文章有介绍采用FactoryBean的方式创建对象,以及使用反射创建对象。 这篇文章继续介绍Spring中创建Bean的形式之一——自定义BeanPostProcessor。 之前在介绍BeanPostProcessor的文章中有提到,BeanPostProcessor接口的实现中有一个Instantiatio…