大数据技术(一)

大数据技术概述

大数据技术层面及其功能

数据采集与预处理

  • 利用ETL(extract-transform-load)工具将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础;
  • 利用日志采集工具把实时采集的数据作为流计算系统的输入,进行实时处理分析;
  • 利用网页爬虫程序到互联网网站中爬取数据。

数据存储和管理

利用文件系统、关系数据库、数据仓库、并行数据库,分布式文件系统、NoSQL数据库、NewSQL数据库等,实现对结构化、半结构化、非结构化数据的存储和管理。

数据处理与分析

利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘等算法,实现对海量数据的处理和分析。

数据可视化

对分析结果进行可视化呈现,帮助人们更好地理解数据、分析数据。

数据安全和隐私保护

在从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效保护个人隐私和数据安全。

数据采集与预处理

数据采集

定义:数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。

过程:它通过各种技术手段把外部各种数据源产生的数据进行实时或非实时地采集,获得各种类型的结构化、半结构化以及非结构化的海量数据并加以利用。

数据分类

 数据采集方式

大数据的采集通常采用多个数据库来接收终端数据,包括智能硬件端、多种传感器端、网页端、移动APP应用端等,并且可以使用数据库进行简单的处理工作。

数据采集数据源

  • 数据源: 企业业务系统数据:企业产生的业务数据,以数据库一行记录的形式,被直接写入到数据库中。企业使用传统的关系数据库MySQL和Oracle,或Redis和MongoDB这样的NoSQL数据库来存储业务系统数据。
  • 传感器:是一种检测装置,能感受到被测量的信息,并转化为其他形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求。
  • 日志文件:日志文件系统一般由数据源系统产生,用于记录数据源的执行的各种操作活动。比如网络监控的流量管理,金融应用的股票记账和Web服务器记录的用户访问行为。
  • 互联网数据:互联网数据采集是借助网络爬虫来实现的,通过对网页数据的定向抓取。数据存储与管理

数据采集要点

  • 全面性:数据量大具有分析价值;数据面全,支撑分析需求。比如对于“查看商品详情”这一行为,需要采集用户触发时的环境信息、会话、以及背后的用户id,最后需要统计这一行为在某一时段触发的人数、次数、人均次数、活跃比等。
  • 多维性:灵活、快速自定义数据的多重属性和不同类型,满足不同的分析目标。比如“查看商品详情”这一行为,通过埋点,我们才能知道用户查看的商品是什么、价格、类型、商品id等多个属性。从而知道用户看过哪些商品、什么类型的商品被查看的多、某一个商品被查看了多少次。而不仅仅是知道用户进入了商品详情页。
  • 高效性:高效性包含技术执行的高效性、团队内部成员协同的高效性、数据分析需求和目标实现的高效性。还要考虑数据的及时性。

数据清洗

数据清洗是指将大量原始数据中的错误信息“洗掉”,它是发现并纠正数据文件中可识别的错误的最后一道程序,包括:一致性检查、无效值和缺失值处理等。

需要清洗的数据的主要类型: 残缺数据、错误数据、重复数据。

数据清洗的内容

  • 一致性检查:根据每个变量的合理取值范围和相互关系,检查数据是否合乎要求,发现超出正常范围、逻辑上不合理或者相互矛盾的数据。
  • 无效值和缺失值的处理:由于调查、编码和录入误差,数据中可能存在一些无效值和缺失值,需要给予适当的处理。

无效值和缺失值的处理方法

  • 整例删除:适合关键变量缺失,或者含有无效值或缺失值的样本比重很小的情况。
  • 变量删除:如果某一变量的无效值和缺失值很多,且对研究内容的不是很重要,该变量可以删除。
  • 成对删除:用一个特殊码代表无效值和缺失值,同时保留数据集中的全部变量和样本。
  • 估算: 统计法:对于数值型的数据(连续值),使用均值、加权均值、中位数等方法补足;对于分类型数据(离散值),使用类别众数最多的值补足。
  • 模型法:基于已有的字段,将缺失字段作为目标变量进行预测,从而得到最为可能的补全值。如果带有缺失值的列是数值变量(连续值),采用回归模型补全;如果是分类变量(离散值),则采用分类模型补全。
  • 专家补全:对于少量且具有重要意义的数据记录,专家补足也是非常重要的一种途径。
  • 其他方法:例如随机法、特殊值法、多重填补等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/718058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言什么是循环嵌套?

一、问题 分⽀结构是可以进⾏嵌套的,循环结构同样也⽀持嵌套,那什么是循环嵌套呢? 二、解答 ⼀个循环体内⼜包含另⼀个完整的循环结构,就称之为循环嵌套。内嵌的循环中还可以嵌套循环,这就是多层循环,也叫…

类与对象详解 C++ (1)

1.struct和class 与C语言不同的是,C中struct和class可以定义成员变量和成员函数。更偏好用class。 2.类的定义 格式如下: class 为 定义类的 关键字, ClassName 为类的名字, {} 中为类的主体,注意 类定义结束时后面…

前端canvas项目实战——简历制作网站(五):右侧属性栏(字体、字号、行间距)

目录 前言一、效果展示二、实现步骤1. 优化代码,提取常量2. 实现3个编辑模块3. 实现updateFontProperty方法4. 一个常见的用法:仅更新当前选中文字的样式 三、Show u the code后记 前言 上一篇博文中,我们扩充了线条对象(fabric.…

springboot 整合oauth2

1、EnableOAuth2Client:客户端,提供OAuth2RestTemplate,用于客户端访问资源服务。 简要步骤:客户端访问资源->客户端发现没有资源访问token->客户端根据授权类型生成跳转url->浏览器 302 到认证授权服务进行认证、授权。…

Dockerfile构建过程详解

Dockerfile介绍 docker是用来构建docker镜像的文件!命令参数脚本! 构建步骤: 1、编写一个dockerfile文件 2、docker build构建成为一个镜像 3、docker run 运行镜像 …

PDF转Excel的未来:人工智能技术如何提升转换效率和准确性

随着信息技术的快速发展,PDF和Excel作为两种重要的文件格式,在日常生活和工作中扮演着至关重要的角色。PDF以其独特的跨平台阅读特性,成为了文件分享和传输的首选格式;而Excel则以其强大的数据处理能力,成为了数据分析…

【二分查找】【C++算法】378. 有序矩阵中第 K 小的元素

作者推荐 视频算法专题 本文涉及的基础知识点 二分查找算法合集 LeetCode378. 有序矩阵中第 K 小的元素 给你一个 n x n 矩阵 matrix ,其中每行和每列元素均按升序排序,找到矩阵中第 k 小的元素。 请注意,它是 排序后 的第 k 小元素&…

机器人持续学习基准LIBERO系列10——文件结构

0.前置 机器人持续学习基准LIBERO系列1——基本介绍与安装测试机器人持续学习基准LIBERO系列2——路径与基准基本信息机器人持续学习基准LIBERO系列3——相机画面可视化及单步移动更新机器人持续学习基准LIBERO系列4——robosuite最基本demo机器人持续学习基准LIBERO系列5——…

力扣日记3.3-【回溯算法篇】332. 重新安排行程

力扣日记:【回溯算法篇】332. 重新安排行程 日期:2023.3.3 参考:代码随想录、力扣 ps:因为是困难题,望而却步了一星期。。。T^T 332. 重新安排行程 题目描述 难度:困难 给你一份航线列表 tickets &#xf…

牛客小白月赛86

A-水盐平衡_牛客小白月赛86 (nowcoder.com) #include<bits/stdc.h> #define endl \n #define int long long using namespace std; int a,b,c,d; void solve() {cin>>a>>b>>c>>d;if((double)a/b>(double)c/d) cout<<S<<endl;els…

关于脉冲负载应用中电阻器,您需要了解的 11 件事?

不幸的是&#xff0c;电阻器在脉冲负载下可能会失效。当脉冲功率耗散到器件的电阻元件时&#xff0c;它会产生热量并增加电阻器的温度。过热会损坏电阻元件&#xff0c;导致电阻变化甚至设备开路。为了避免在设计中出现这种情况&#xff0c;以下是您在选择元件时应了解的有关电…

excel统计分析——拉丁方设计

参考资料&#xff1a;生物统计学 拉丁方设计也是随机区组设计&#xff0c;是对随机区组设计的一种改进。它在行的方向和列的方向都可以看成区组&#xff0c;因此能实现双向误差的控制。在一般的试验设计中&#xff0c;拉丁方常被看作双区组设计&#xff0c;用于提高发现处理效应…

Skipped breakpoint at because it happened inside debugger evaluation亲测可用

问题描述&#xff1a; 在多线程项目中&#xff0c;在idea中打断点时&#xff0c;有时会遇到下面这种情况&#xff1a; idea左下角出现一行红底或者绿底文字提示&#xff1a; Skipped breakpoint at because it happened inside debugger evaluation 然后我们能感受到的就是…

HTML中自定义鼠标右键菜单

今天突然有人跟我提到了HTML中如何自定义鼠标右键菜单&#xff0c;这里大概记录一下吧&#xff0c;方便下次直接复制。免得还去看API文档。 文章目录 HTML中自定义鼠标右键菜单结果如下所示可以稍微改一下鼠标悬浮到右键菜单时的样式结果如下所示 只在某个特定的div才可以显示…

javascript 的eval()和with是干嘛的

原来JavaScript 中的eval() 和 with 是两个强大的功能&#xff0c;但同时它们也具有潜在风险的特性&#xff0c;所以谨慎使用。 首先说说eval() 函数&#xff1a; 它接收一个字符串参数&#xff0c;并将其作为 JavaScript 代码来解析和执行。 这意味着你可以使用 eval() 动态地…

《Scratch等级认证CCF-GESP真题解析》专栏总目录

❤️ 专栏名称:《Scratch等级认证CCF-GESP真题解析》 🌸 专栏介绍:中国计算机学会GESP《CCF编程能力等级认证》Scratch图形化编程(1~4级)历届真题解析。 🚀 订阅专栏:订阅后可阅读专栏内所有真题解析,真题持续更新中,限时9.9元,欢迎订阅! Scratch图形化编程一级 序…

2368. 受限条件下可到达节点的数目

2368. 受限条件下可到达节点的数目 题目链接&#xff1a;2368. 受限条件下可到达节点的数目 代码如下&#xff1a; //深度优先遍历 //参考&#xff1a;https://leetcode.cn/problems/reachable-nodes-with-restrictions/solutions/2662538/shu-shang-dfspythonjavacgojsrust-…

C++自学精简实践教程

一、介绍 1.1 教程特点 一篇文章从入门到就业有图有真相&#xff0c;有测试用例&#xff0c;有作业&#xff1b;提供框架代码&#xff0c;作业只需要代码填空规范开发习惯&#xff0c;培养设计能力 1.2 参考书 唯一参考书《C Primer 第5版》​参考书下载&#xff1a; 蓝奏云…

Acwing---3777. 砖块

砖块 1.题目2.基本思想3.代码实现 1.题目 n 个砖块排成一排&#xff0c;从左到右编号依次为 1∼n。 每个砖块要么是黑色的&#xff0c;要么是白色的。 现在你可以进行以下操作若干次&#xff08;可以是 0 次&#xff09;&#xff1a; 选择两个相邻的砖块&#xff0c;反转它…

STL——stack

目录 stack stack都有哪些接口 模拟实现一个stack stack 1. stack是一种容器适配器&#xff0c;专门用在具有后进先出操作的上下文环境中&#xff0c;其删除只能从容器的一端进行元素的插入与提取操作。 2. stack是作为容器适配器被实现的&#xff0c;容器适配器即…