1.1 理解大数据(2)

小肥柴的Hadoop之旅 1.1 理解大数据(2)

  • 目录
    • 1.1 理解大数据
      • 1.1.3 大数据概述
      • 1.1.4 更多思考
    • 参考文献和资料

目录

1.1 理解大数据

1.1.3 大数据概述

step_0 大数据定义

【《大数据算法设计分析》】:
通常来讲大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

对这段定义的理解重点在加粗的两处:
(1)“一定时间范围内”:这半句话其实揭示了一个事实,即很多大数据问题不是无法求解,而是无法在有限时间内高效的求解! ==> 若非要上升到理论视角,那就是NP问题的讨论。
(2)“信息资产”:之所以那么多公司、机构和研究者投入精力去做大数据方向的理论研究和工程实践,不就是因为需要熔炼这些数据去获取价值嘛?说白了还是太史公的那句话:“天下熙熙皆为利来…”,因此大家在学习大数据相关知识和技术的时候,有必要多问自己一句:“这个技术/工具/知识能够帮助我在处理大数据的时候产生价值吗?”,方便及时止损。

step_1 大数据特性(4V),老生常谈的话题,有兴趣的话自己可以去翻看一下相关文献资料。
<1> Volume(大量)
<2> Velocity(高速)
<3> Variety(多样)
<4> Value(低价值密度)

step_2 几个需要提前理解概念(与数据库相关)
<1> 联机事务处理OLTP(On-Line Transaction Processing)
<2> 联机分析处理OLAP(On-Line Analytical Processing)
<3> 数据仓库DW(Data Warehouse)
<4> ETL(Extral——抽取,Transform——清洗转换,Load——加载)

此处我们给出几个学习链接([1]~[7])供大家自学,仅需要记住:
(1)OLTP 是传统的关系型数据库的主要应用,事务处理,效率优先。
(2)OLAP 主要针对于数据的分析汇总操作,是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
(3)数据仓库 是为数据分析准备的“预制菜”存放地,为更高层次的数据分析提供原料。
(4)数据仓库的主要工作可以简单概括为:针对具体业务的建模和对应模型的ETL实现。
(5)以上概念的提出和对应业务的软件实现其实是业务需要的结果,是一个逐渐演进的过程。

【注】建议大家去看看微信公众号“特大号”对数据仓库的理解,通俗易懂的漫画,我比较喜欢里面的猫猫,我们借用一下人家描述ETL的图,侵删。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

1.1.4 更多思考

最后有问题需要大家自己去寻找答案:
【Q1】数据仓库、数据湖、湖仓一体,究竟有什么区别?
【Q2】在《Hadoop权威指南》的P5(第一章 初识Hadoop)有一个观点 “大数据胜于好算法”
在这里插入图片描述
但是后来“吴恩达表示AI要转向小数据”,2023年大模型概念又出现了…请问咱们应该如何看待以上观点?
【浅显回答】大数据本身的价值含量不高,所以在使用前需要“提纯”,而高质量的数据集才是真正对分析和预测有益的。

【Q3】大数据计算的挑战和研究的问题有哪些?(偏理论向的问题,摘自《大数据算法设计分析》)
【A3】大数据计算面临的4个子问题:
(1)具有求解给定问题的高可用数据吗?
(2)若高可用数据存在,给定问题是可以计算的吗?
(3)若给定问题可以计算,那此问题的计算难吗?即:需要判定是否能在期望时间内求出问题的解?
(4)以上条件满足时,应该如何求解问题?即:合理设计求解给定问题的算法?

这些子问题的对应回答如下:

(1)大数据计算和应用亟需建立大数据可用性理论和相关算法。

(2)传统计算复杂性理论不适用于大数据计算。
<1> 计算模型是大数据计算复杂性理论的基础,现有传统模型不能基准刻画大数据计算:
i) 无法描述亚时间线性算法。
ii) 不能描述I/O复杂性和通信复杂性。
<2> 大量大数据问的计算复杂性问题未能有效解决。
i) 如何判定计算问题的难易?
ii) 如何判定难解问题是否可近似求解?
iii) 如何判断问题是否可并行求解?
iv) 问题的复杂性分类?空间计算复杂性? …

(3)传统的多项式时间算法不适于求解大数据计算问题。
<1>多项式算法执行时间长。
<2>数据密集型计算问题(e.g. 数据查询/挖掘/分析)具有多项式时间或者更高的计算复杂性。

(4)传统计算技术难以满足大数据计算需求:
<1> 传统高性能计算机系统是基于计算密集型计算需求设计的,不适用于分布式计算(不好蹭并行计算)。
<2> 云计算系统存在网络通信瓶颈(包括有线和无线的计算机网络和通信网络)。
<3> 需要面向大数据计算提供合适的计算软件框架。 ==> 这点工业界远远走在学术界前面。

综合以上描述,给出大数据研究的科学问题:
(1)建立能够准确描述大数据的计算模型。
(2)分析大数据计算问题空间的计算复杂性结构。
(3)确定大数据计算问题的固有复杂性。
(4)探索求解大数据计算问题的算法设计方法学。
(5)设计与分析求解大数据计算问题的高效算法。 => 有限资源做更多的事情,小马拉大车
(6)探索面向应用的大数据计算理论与方法。 => 交叉领域的应用
(7)探索大数据获取的理论与技术。 => 无价值数据最小化和有价值数据最大化,获取高可用数据
(8)探索大数据存储的理论与方法。 => 分布式存储,分布式数据库(体量/效率/安全/性能/能耗)
(9)探索大数据可用性的理论和方法。 => 评估、自动修复、近似计算
(10)研究支持大数据计算的计算机软硬件系统。 => 各种框架、生态和工具软件

参考文献和资料

[1] OLTP、OLAP介绍
[2] OLAP和OLTP的区别是什么?
[3] 数据库 与 数据仓库的本质区别是什么?(一)
[4] 数据库 与 数据仓库的本质区别是什么?(二)
[5] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(上篇)
[6] 秒懂数仓的前世今生:DBMS、DW、OLTP、OLAP到底是啥?(下篇)
[7] 数据仓库、数据湖、湖仓一体,究竟有什么区别?
[8] Small Data Challenges in Big Data Era: A Survey of Recent Progress on Unsupervised and Semi-Supervised Methods, Guo-Jun Qi, Senior Member, IEEE, and Jiebo Luo, Fellow, IEEE.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/593093.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生态系统服务构建生态安全格局中的实践技术应用

生态安全是指生态系统的健康和完整情况。生态安全的内涵可以归纳为&#xff1a;一&#xff0c;保持生态系统活力和内外部组分、结构的稳定与持续性&#xff1b;二&#xff0c;维持生态系统生态功能的完整性&#xff1b;三&#xff0c;面临外来不利因素时&#xff0c;生态系统具…

解决jenkins的Exec command命令不生效,或者执行停不下来的问题

Jenkins构建完后将war包通过 Publish Over SSH 的插件发布到服务器上&#xff0c;在服务器上执行脚本时&#xff0c;脚本中的 nohup 命令无法执行&#xff0c;并不生效&#xff0c;我配置的Exec command命令是后台启动一个war包&#xff0c;并输出日志文件。 nohup java -jar /…

批量美化图片:让您的图片库焕然一新!

您是否曾经遇到过这样的问题&#xff1a;在处理大量图片时&#xff0c;一张一张地调整时间和精力成本太高&#xff1f;现在&#xff0c;我们为您带来了一款全新的批量图片美化工具&#xff0c;让您轻松解决这个问题&#xff01; 首先&#xff0c; 我们要进入首助编辑高手主页面…

/etc/profile文件一不小心改坏了,所有命令无法执行了怎么办?

转载说明&#xff1a;如果您喜欢这篇文章并打算转载它&#xff0c;请私信作者取得授权。感谢您喜爱本文&#xff0c;请文明转载&#xff0c;谢谢。 问题描述&#xff1a; 在部署jdk的时候&#xff0c;修改/etc/profile文件&#xff0c;文件改得有问题&#xff0c;但是当时没有…

【elfboard linux开发板】5.vmware tools安装及uart属性的获取和设置

1. 安装VMware tools 系统&#xff1a;ubuntu22.04 虚拟机版本&#xff1a;VMware workstation 16 pro&#xff08;16.1.2&#xff09; VMware tools文件&#xff08;iso)一般在虚拟机目录下&#xff0c;如果没有&#xff0c;这是下载网址&#xff0c;找到对应的虚拟机版本下载…

ARM笔记-----输入捕获

输入捕获可以对输入的信号的上升沿、下降沿或者双边沿进行捕获&#xff0c;常用的有测量输入信号的脉 宽&#xff0c;和测量 PWM 输入信号的频率和占空比这两种。 输入捕获的大概的原理 当捕获到信号的跳变沿的时候&#xff0c;把计数器 CNT 的值锁存到捕获寄 存器 CCR 中…

2023机器人行业总结,2024机器人崛起元年(具身智能)

2023总结&#xff1a; 1.Chatgpt引爆了通用人工智能&#xff0c;最大的受益者或是机器人&#xff0c;2023年最热门的创业赛道便是人形机器人&#xff0c;优必选更是成为人形机器人上市第一股&#xff0c; 可以说2023年是机器人开启智能化的元年&#xff0c;而2024则将成为机器…

【动态规划】LeetCode-10. 正则表达式匹配

10. 正则表达式匹配。 给你一个字符串 s 和一个字符规律 p&#xff0c;请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配。 ‘.’ 匹配任意单个字符‘*’ 匹配零个或多个前面的那一个元素 所谓匹配&#xff0c;是要涵盖 整个 字符串 s的&#xff0c;而不是部分字符串。 …

winform简易用户权限管理系统

一、功能简介 1. 数据库可使用sqlite、mssql、mysql等 2. 管理员账号不管控&#xff0c;其余账号进行权限管控&#xff08;左侧菜单&#xff0c;表单按钮&#xff09;&#xff0c;且只能看到自己创建的角色、用户 二、操作界面 1. 管理员账号登陆后&#xff0c;左侧菜单栏自动…

基于矩阵乘的CUDA编程优化过程

背景&#xff1a;网上很多关于矩阵乘的编程优化思路&#xff0c;本着看理论分析万遍&#xff0c;不如实际代码写一遍的想法&#xff0c;大概过一下优化思路。 矩阵乘的定义如下&#xff0c;约定矩阵的形状及存储方式为: A[M, K], B[K, N], C[M, N]。 CPU篇 朴素实现方法 按照…

Redis命令---String篇 (超全)

目录 1.Redis Setnx 命令 - 只有在 key 不存在时设置 key 的值。简介语法可用版本: > 1.0.0返回值: 设置成功&#xff0c;返回 1 。 设置失败&#xff0c;返回 0 。 示例 2.Redis Getrange 命令 - 返回 key 中字符串值的子字符简介语法可用版本: > 2.4.0返回值: 截取得到…

2024年个人工作计划怎么写?新年待办计划这样写更方便

元旦的钟声还在耳边回响&#xff0c;2024年的新篇章已经开启。面对新的一年&#xff0c;我深知一个清晰、实用的个人工作计划是多么重要。它不仅是指引我前进的灯塔&#xff0c;更是我实现目标、提升效率的秘密武器。 但如何制定这样一个计划呢&#xff1f;在过去&#xff0c;…

嵌入式开发——ADC开发

学习目标 了解ADC开发流程掌握采样方式能够使用ADC进行芯片内部通道进行采样能够使用ADC对外部电路进行采样学习内容 GD32F4的ADC 特点: 16个外部模拟输入通道;1个内部温度传感通道(VSENSE);1个内部参考电压输入通道(VREFINT);1个外部监测电池VBAT供电引脚输入通道。ADC开…

《工具录》nslookup

工具录 1&#xff1a;nslookup2&#xff1a;选项介绍3&#xff1a;示例 - 命令行模式3.1&#xff1a;查询类型设置3.2&#xff1a;指定 DNS 服务器 4&#xff1a;示例 - 交互模式5&#xff1a;其他 本文以 kali-linux-2023.3-vmware-amd64 为例。 1&#xff1a;nslookup nsloo…

算法29:不同路径问题(力扣62和63题)--针对算法28进行扩展

题目&#xff1a;力扣&#xff08;LeetCode&#xff09;官网 - 全球极客挚爱的技术成长平台 一个机器人位于一个 m x n 网格的左上角 &#xff08;起始点在下图中标记为 “Start” &#xff09;。 机器人每次只能向下或者向右移动一步。机器人试图达到网格的右下角&#xff0…

什么是安全信息和事件管理(SIEM),有什么用处

安全信息和事件管理&#xff08;SIEM&#xff09;对于企业主动识别、管理和消除安全威胁至关重要。SIEM 解决方案采用事件关联、AI 驱动的异常检测以及机器学习驱动的用户和实体行为分析 &#xff08;UEBA&#xff09; 等机制来检测、审查和应对网络安全威胁。这些功能使 SIEM …

AntDB设计之CheckPoint——引言与功能简述

1.引言 数据库服务能力提升是一项系统性的工程&#xff0c;在不同的应用场景下&#xff0c;用户对于数据库各项能力的关注点也不同&#xff0c;如&#xff1a;读写延迟、吞吐量、扩展性、可靠性、可用性等等。国内不少数据库系统通过系统架构优化、硬件设备升级等方式&#xf…

数据库课程设计报告——音乐管理系统

目录 省流版word文档需求分析系统目标业务需求及处理流程功能需求及数据需求分析业务规则分析 概念设计命名规范实体集及属性联系集及属性系统总ER图 逻辑设计关系的设计关系的优化数据库基本表设计 物理设计关系模式存取方式选择数据库的存储结构 数据库应用设计数据库脚本数据…

VS2022 Android NativeActivity 开发指南

几年前最初使用VS时&#xff0c;记得是有Android NativeActivity的&#xff0c;今天更新到了2022最新版&#xff0c;发现找不到这个创建选项。 然后确保安装了C 跨平台开发工具后&#xff0c;开始排查原因。 Visual Studio 2022 中没有“本机活动应用程序” - android - SO中…

【Linux操作系统】探秘Linux奥秘:进程与任务管理的解密与实战

&#x1f308;个人主页&#xff1a;Sarapines Programmer&#x1f525; 系列专栏&#xff1a;《操作系统实验室》&#x1f516;诗赋清音&#xff1a;柳垂轻絮拂人衣&#xff0c;心随风舞梦飞。 山川湖海皆可涉&#xff0c;勇者征途逐星辉。 目录 &#x1fa90;1 初识Linux OS &…