大数据基础技术和应用

大数据概述

数据的表现形式:

  • 线下数据信息化:数据库、文字记录、照片……
  • 互联网-移动互联网:网页数据、用户行为记录、数字图像……
  • 传感器:设备监控、智能家居、摄像头……

大数据的4V特征:

  • 大量化(Volume):存储量大、增量大;
  • 多样化(Variety):来源多、格式多;
  • 快速化(Velocity):高速数据I/O;
  • 价值密度低(Value)

大数据基础技术


一、工程技术

Hadoop介绍

Hadoop是一个能够对大量数据进行分布式处理的软件框架。
Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS 实现存储,而 MapReduce实现分析处理。

关系型数据库Hadoop
数据量GBPB
使用场景点查询或更新整个数据集,一次写多次读,没有更新
结构化程度结构化半结构化及非结构化
扩展性线性非线性

Hadoop和网格计算的区别:
网格计算:CPU密集型,各个处理单元接收小批量数据,然后贡献CPU,最后提交计算结果;
Hadoop:数据本地化,传输数据量较大,对网络带宽要求较高。

HDFS(Hadoop Distributed File System)基本命令:
%hadoop fs -ls .
%hadoop fs -mkdir books
%hadoop fs -copyFromLocal input/docs/test.txt hdfs://loca1host/user/tom/test.txt

HDFS特点
1.流式访问:
跑在HDFS上的应用与一般的应用不同,它们主要是以流式读为主,做批量处理;比之关注数据访问的低延迟问题,更关键的在于数据访问的高吞吐量。
2.write-one-read-many
一个文件经过创建、写,关闭之后就不需要改变。这一假设简化了数据一致性问题,使高吞吐量的数据访问成为可能。
3.本地计算
移动计算的代价比之移动数据的代价低。一个应用请求的计算,离它操作的数据越近就越高效。将计算移动到数据附近,比之将数据移动到应用所在显然更好,HDFS提供给应用这样的接口。
4.容错及备份
Hadoop有健壮的数据校验+容灾备份。通过配置解决

HIVE
定义:一个构建在Hadoop上的数据仓库框架。
目的: 可以通过类SQL语句快速实现简单的MapReduce统计,使熟悉SQL的用户无缝使用Hadoop。
特点:语法基本和MySQL相同,但是功能没有MySQL丰富,满足最基本的SQL语法要求。

HIVE的实现逻辑

select year,count(temperature) 
from src 
where year>1990 
group by year 
having count(temperature)>1000;

这个sql的语义是:
1)(map)从src表中选出所有的记录,选出year>1990的记录;
2)(partition and shuffle)按照year进行分组(year相同的记录放到一组);
3)(reduce)对每个分组计算count(temperature),选出count(temperature)>1000的记录;
4)最后对于计算结果选出year和count(temperature)的值作为返回结果

小结:
小结

二、策略技术
机器学习中经典算法和对应问题
策略技术
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的岐义性高。聚类就是典型的无监督学习
定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。


典型应用


  1. 精准营销:广告变现
    `1
  2. 精准营销:推荐引擎
    2
  3. 实时监控:上海外滩踩踏事件
    3
  4. 智能链接:互联网+O2O
    4
  5. 智能链接:互联网+O2O:Uber
    5
  6. 辅助决策:智能选股
    6.1
    6.2
  7. 辅助决策:智能选址
    7

总结
总结

本文参考自牛客网。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/386050.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java线程池参数面试题,附赠复习资料

前言 作为同时具备高性能、高可靠和高可扩展性的典型键值数据库,Redis不仅功能强大,而且稳定,理所当然地成为了大型互联网公司的首选。 众多大厂在招聘的时候,不仅会要求面试者能简单地使用Redis,还要能深入地理解底…

java线程池有几种,讲的太透彻了

前言 该文档在Github上收获40Kstar的Java面试神技(这赞数,质量多高就不用我多说了吧)非常全面,包涵Java基础、Java集合、JavaWeb、Java异常、OOP、IO与NIO、反射、注解、多线程、JVM、MySQL、MongoDB、Spring全家桶、计算机网络、…

HIVE入门

Hive概述 什么是 Hive? * Hive 是建立在 Hadoop HDFS 上的数据库仓库基础建构 * Hive 可以用来进行数据库提取转化加载(ETL) * Hive 定义了简单的类似 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据 * Hi…

java线程面试题博客园,超详细

简介 HikariCP 是用于创建和管理连接,利用“池”的方式复用连接减少资源开销,和其他数据源一样,也具有连接数控制、连接可靠性测试、连接泄露控制、缓存语句等功能,另外,和 druid 一样,HikariCP 也支持监控…

java编写斐波那契数列,实战案例

前言 提到插件,相信大家都知道,插件的存在主要是用来改变或者增强原有的功能,MyBatis中也一样。然而如果我们对MyBatis的工作原理不是很清楚的话,最好不要轻易使用插件,否则的话如果因为使用插件导致了底层工作逻辑被…

java编程代写有哪些平台,学习路线+知识点梳理

前言 今天刚好有空,跟大家聊聊如何学好算法进大厂。 前两天一个读者和我说,他坚持刷算法题2个月,薪资翻番去了他梦寐以求的大厂,期间面字节跳动还遇到了原题…其实据我所知目前国内的大厂和一些独角兽,已经越来越效仿…

【工作感悟】java编程规范pdf下载

前言 要相信,你现在所有的努力和付出都会在将来的某一天回报给你! 首先阿里巴巴作为国内互联网行业的领头羊,培养了一代又一代的IT技术人才,很多想进阿里这些互联网大厂的程序员看中的不仅仅是高薪丰厚的福利待遇,同样…

【工作感悟】全网最经典26道Spring面试题总结

开头 学习如逆水行舟,尤其是IT行业有着日新月异的节奏。 而且现在这个浮躁而又拜金的社会,我相信很多人做技术并非出于热爱,只是被互联网的高薪吸引,毕竟技术岗位非常枯燥,不仅要面对奇奇怪怪的需求,还要…

大话数据结构——树

一、树的定义 树(Tree)是n(n>0)个结点的有限集。 n0又称为空树。在任意一课非空的树中:(1)有且仅有一个特定的称为跟(Root)的结点;(2&#xf…

大话数据结构——图

图(Graph)是由定点的又穷非空集合和顶点之间边的集合组成,通常表示为:G(V,E),其中,G表示一个图,V是图G中顶点的集合,E是图G中边的集合。 一、各种图的定义 …

【工作感悟】达内java大数据课程

前言 其实前几篇文章已经写了好多有关于Spring源码的文章,事实上,很多同学虽然一直在跟着阅读、学习这些Spring的源码教程,但是一直都很迷茫,这些Spring的源码学习,似乎只是为了面试吹逼用,我大概问过一些…

大话数据结构——查找

查找(Searching)是根据给定的某个值,在查找表中确定一个其关键字等于给定值的数据元素(或记录)。 一、顺序表查找 顺序查找又叫线性查找,是最基本的查找技术,它的查找过程是:从表中…

【工作经验分享】java图片转文字

前言 又到一年金九银十之际。 Java作为目前用户最多,使用范围最广的软件开发技术之一。 Java的技术体系主要由支撑Java程序运行的虚拟机,提供各开发领域接口支持的Java,Java编程语言及许多第三方Jvav框架构成。 其中,以Java的虚拟器为今天的着…

【干货】java课程实战培训

开头 消息队列 RocketMQ 是阿里巴巴集团基于高可用分布式集群技术,自主研发的云正式商用的专业消息中间件,既可为分布式应用系统提供异步解耦和削峰填谷的能力,同时也具备互联网应用所需的海量消息堆积、高吞吐、可靠重试等特性,…

【干货】mysql建表语句注释

前言 难道程序员的职业生命线是青春饭?答案是的。 35岁考虑转行,然后35岁又成了一个新人,而外国可以做到60岁,啥也不说了,可能是觉得中年大叔油腻,不及小鲜肉便宜,唉,可叹市场更新…

【干货】mysql查询重复数据sql

前言 本系列的目的是明明白白、彻彻底底的搞定日期/时间处理的几乎所有case。上篇文章铺设所有涉及到的概念解释,例如GMT、UTC、夏令时、时间戳等等,若你还没看过,不仅强烈建议而是强制建议你前往用花5分钟看一下,因为日期时间处…

【微信小程序】java最简单观察者模式

开头 对于一个Java程序员而言,能否熟练掌握并发编程是判断他优秀与否的重要标准之一。因为并发编程是Java语言中最为晦涩的知识点,它涉及操作系统、内存、CPU、编程语言等多方面的基础能力,更为考验一个程序员的内功。 那到底应该怎么学习并…

【性能优化实战】java验证码识别训练

前言 今天刚好有空,跟大家聊聊如何学好算法进大厂。 前两天一个读者和我说,他坚持刷算法题2个月,薪资翻番去了他梦寐以求的大厂,期间面字节跳动还遇到了原题…其实据我所知目前国内的大厂和一些独角兽,已经越来越效仿…

吸水间最低动水位标高_体验长安逸动EV460:再也不用为电动车续驶里程焦虑了...

文| 车突突车图腾出品,未经许可,谢绝转载● ● ●人们都在期待碧水蓝天,而且越来越多的消费者也开始践行环保理念,在买车时关注起了纯电动汽车。不过遗憾的是,纯电动汽车目前还没能成为主流。一方面,是因为…

java开发工具包jdk包括哪些

害怕干不过SpringBoot?莫慌,我送你套神级pdf文档 随着 Spring Boot 使用越来越广泛,Spring Boot 已经成为 Java 程序员面试的知识点,很多同学对 Spring Boot 理解不是那么深刻,经常就会被几个连环追问就给干趴下了&am…