【大数据学习-hadoop1】大数据如何处理

文章目录

  • 1. 大数据启蒙
    • 1.1 意义
      • 1.1.1 查找元素
      • 1.1.2 单机处理大数据问题
  • 1.2 历史
  • 1.3 hadoop

1. 大数据启蒙

学习视频
大数据多,复杂度很重要,

  • 内存不够,分治处理
  • IO仍成为瓶颈,多机器并行
  • 多机器间通信也可以并行,但仍是个问题
    • 分发上传,累计计算的话,多台同时跑+通信也比一台快

总结(大数据的重点)

  • 分而治之
  • 并行计算
  • 计算向数据移动:数据移动化成本高
  • 数据本地化读取

1.1 意义

1.1.1 查找元素

1w个元素中查找X?
线性查找:O(N)
想要O(4)呢?hash
在这里插入图片描述

1.1.2 单机处理大数据问题

大文本,仅两行一样,想要找出。
单机,内存小(几十兆)
在这里插入图片描述
2. 如果文件中全是数字,做排序呢?
桶排序:外部有序,内部无序
先分到不同桶里,再给桶内排序

归并:一次读50M排序,第二次在读50M对这个50M排序–外部无序,内部无序

单机IO瓶颈,所以多机器并行
在这里插入图片描述
多台机器并行操作,处理速度快,但不同机器间网络通信?

1.2 历史

Hadoop
NDFS(一开始的文件系统)
hadoop.apache.org:顶级项目

1.3 hadoop

hadoop项目包含:
1.x:
hadoop common
hdfs(hadoop distributed file system
hadoop mapreduce
2.x:
新增yarn:job管理、资源分配

其他相关项目(生态圈):
Hbase:
Hive:sql、数仓
Spark:用内存,更快,是hadoop的十倍
Zookeeper:协调服务

在这里插入图片描述
网站:www.cloudera.com
ducumentation:选择版本
目前企业版本:5.16.X–可靠,hadoop2.6
原来:batch批量计算
flink/spark:全栈的

  • flink:阿里用的多:流式计算,来一个搞一个/5min跑一次
    • 可以实时
  • spark:伪实时

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481440.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

自动驾驶数据之争,走向合规

报道数字经济 定义转型中国撰文 | 泰伯网 编辑 | 鹿野2015年12月,一辆百度无人车从京新高速到五环进行了最高时速达100公里的全自动行驶,将国内自动驾驶推向大众视野。当自动驾驶产业随时间沉淀驶入商业落地的下半场,百度对这场自动驾驶持久…

【推荐系统算法学习笔记1】基本架构、专有名词、构建流程

文章目录1.架构1.1 大数据框架:lambda 架构的1.2.基本概念2. 推荐模型构建流程2.1 数据2.1.1 数据来源2.1.2 数据清洗、处理2.2 特征工程2.3 算法(机器学习)来源1.架构 推荐算法架构 召回 协同过滤基于内容的基于隐语义的 排序 召回决定了推…

DeepMind专题之创始人访谈|DeepMind创始人Demis Hassabis:AI 的强大,超乎我们的想象...

来源:图灵人工智能作者:黄楠、王玥编辑:陈彩娴导读:DeepMind,位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯哈萨比斯(Demis Hassabis)等人联合创立的Google旗下 前沿人工智能企业。其将机…

世界首个!Meta AI开放6亿+宏基因组蛋白质结构图谱,150亿语言模型用两周完成...

来源:ScienceAI编辑:陈萍、杜伟如今,在蛋白质结构预测领域,各大厂也出现了「百家争鸣,百家齐放」。今年,DeepMind 公布了大约 2.2 亿种蛋白质的预测结构,它几乎涵盖了 DNA 数据库中已知生物体的…

谷歌用AI研发「乒乓球机器人」,4分钟对拉300多次,还能指哪打哪!

一个人怎么练习乒乓球?或许这事你可以问问谷歌。最近,谷歌又玩新花样,这回是乒乓球机器人AI 项目,号称和人类对战时能够连续接球340次?!要知道,让解说员激动到破音的「乒乓球史上最疯狂一球」—…

【网络搜索】学习资料

文章目录1.综述2.相关技术3.课程4. 论文4.1综述召回预训练4.2 相关模型及论文5.书6. 博客6.1 电商搜索QP:Query Processor相关性1.综述 微软综述视频,较老但不过时 2.相关技术 相关技术目录 3.课程 北邮《网络搜索原理》2020 4. 论文 sigir 4.1综…

论文新鲜出炉 - 数学家张益唐攻克 Landau-Siegel 零点猜想(2022-11-05)

来源:北大大纽约校友会感谢钱朝晖师兄、贾德星师兄的分享。张益唐老师厉害,出来了!虽然还有待数学权威机构认定,但以张老师的性格,没有攻克他不会轻易公开。看了一下PDF时间戳,是昨天的:2022-11…

神奇!一篇不足700字的论文,竟然能发表在Science上

来源:彭聃龄科学网博客 作者:彭聃龄(北京师范大学教授)文字:南方配图:南方排版 :南方一篇不足700单词的文章为什么能发表在国际顶级期刊 Science 杂志上?刊登在 Science 上的这篇文…

【搜索/推荐排序】FM,FFM,AFM,PNN,DeepFM:进行CTR和CVR预估

文章目录1.FM1.1代码-是否点击预测效果和参数量级1.3 和其他模型的比较SVMMF2. FFMone-hot的比较eg训练注意事项效果和参数量级实现3. AFM4.FNN/PNN4.1 FNN4.2 PNN5. DeepFM与Wide&Deep比较与NFMFM 本来就可以在稀疏输入的场景中进行学习,为什么要跟 Deep 共享稠…

科学家首次3D生物打印出血管化肿瘤,并成功使用免疫疗法治疗

近些年,癌症治疗领域不断取得了突破性进展,但仍缺乏标准化和生理相关的体外测试平台。一个关键性障碍是肿瘤微环境和免疫反应之间复杂的相互作用。因此,该领域研究人员不得不依赖临床试验来测试治疗效果,最终限制了抗癌治疗药物的…

【搜索/推荐排序】总结

文章目录1.进化路线2. 公式比较1.进化路线 LR:没有较叉项->FM:LR交叉项,一个特征一个向量->FFM:一个特征对每一个field(属性名)的交互有一个向量,一个特征有一个特征矩阵。->AFM:每个内积都有一个权重&#…

人工智能帮助揭秘生物衰老的原理

编辑 | 萝卜皮年龄是流行疾病和死亡的主要风险因素。然而,人们对与年龄相关的生理变化和寿命之间的关系知之甚少。新加坡 Gero PTE 公司的研究人员结合分析和机器学习工具来描述大量纵向测量中的老化过程。假设衰老是由有机体状态的动态不稳定性引起的,该…

DALL-E 2的错误揭示出人工智能的局限性

OpenAI的文字图像转换器与文本、科学和偏见作斗争。在2022年4月,人工智能(AI)研究实验室OpenAI继2021年推出的DALL-E后,又推出了DALL-E 2。这两个人工智能系统都可以根据自然语言的文本描述来生成令人惊奇的图像,包括照…

【搜索/推荐排序】NCF,DeepCross,Deep Crossing,高阶:AutoINt,AFN

文章目录0.交叉特征1.NCF1.1 问题:基于FM的问题问题动机:神经网络替代点积1.2 NCF模型图1.3代码2. Deep Crossing:微软:ResNet3.Deep&Cross4. AutoInt(19)摘要贡献相关工作:模型结构优缺点实…

中国指挥与控制学会关于申请加入《城市大脑系列建设标准规范》第二批团体标准参编单位的通知...

来源:中国指挥与控制学会各有关单位和相关专家:2022年04月14日,中国指挥与控制学会组织召开立项评审会,与会专家审议通过了8个相关团体标准的立项申请。2022年9月1日,《城市大脑系列建设标准规范》首批三项团体标准《城…

【搜索/推荐排序】Pairwise:BPR

1.BPR 1.1 做法 构建样本对假设背后是某个常见模型:如MF排序对成立情况下倒推U/V向量,计算UV乘积,得到完整评分矩阵 矩阵分解:XˉWHT\bar{X}WH^TXˉWHT 贝叶斯:P(θ∣>u)P(>u∣θ)P(θ)P(>u)P(\theta|>_…

见证历史!数学家张益唐北大讲座:本质上已证明“零点猜想”,111页论文已公开...

来源:AI前线整理:凌敏有数论学者表示,张益唐有关朗道 - 西格尔零点猜想的论文结果意义重大,使得以前的很多结果从假设性结果变成了确定性结果。张益唐在北大作“零点猜想”学术报告11 月 8 日上午 9 点,数学家张益唐在…

【搜索排序】召回综述Semantic Models for the First-Stage Retrieval: A Comprehensive Review

Semantic Models for the First-Stage Retrieval: A Comprehensive Review 文章目录管道语义模型1.召回形式化1.0 Indexing MethodsThe inverted index倒排索引approximate nearest neighbor (ANN)1.1 classical term-based retrieval methods,VSM概率方法BIM二元独立模型语言模…

Science 封面 4 文连发:大脑分区不是功能关键!智慧从脑区间连接中诞生

来源:深度学术搜索是时候重新认识一下我们大脑的运行原理了!最新一期顶刊Science,以特刊的形式连发 4 篇论文,剑指同一核心要点:大脑各种功能的关键,并不在于各脑区独立完成特定功能,而在于不同…

【信息检索导论1】布尔模型

1.Information Retrieval 定义: Information retrieval (IR) is finding material (usually documents) of an unstructured nature (usually text) that satisfies an information need from within large collections (usually stored on computers). web search…