在很多领域里面,在现在这个时代下面,很多公司产生的数据太多了,数据量太大了。用原来的技术去做,有种捉襟见肘的感觉,要么在性能上面,要么在速度上面遇到了瓶颈,这个时候需要新的技术来解决,我们能想到的,比如用高并发,1M的数据单机来处理就够了,如果1000M数据,一台机子一个节点就可能做不了。
可能考虑集群,分布式系统。但是分布式系统是很难编写的,要考虑的问题很多。线程,进程,网络通信等等很多问题。业务逻辑本来很简单,但因为考虑到分布式系统的协调问题,程序变得非常复杂,在传统的技术上花费太大。
比如 count(),order by的业务,几百兆Mysql可以搞定,几十TB,Mysql和Oracle都扛不住。
-------------------------------
于是hadoop框架就出现了,就像struts因为MVC而出现一样。
hadoop就是个框架,不是什么圣神的东西多了不起的东西,它就是个框架,为了解决一个特定领域的问题而出现,这个特定领域就是海量数据处理。
-------------------------------
hadoop不是数据库,是很多框架组成的生态系统。
hadoop不是在数据库里(mysql,oracle)处理,hadoop是把数据导成文本文件,或直接保存为文本文件,对文本文件进行处理
hadoop也有数据,就是NOSQL,非关系型数据。