hadoop入门书籍(一篇内容走进Hadoop的世界)
hadoop入门书籍(一篇内容走进Hadoop的世界)所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。为什么学习Hadoop有如下几个至关重要的原因:个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。
学习一门新知识的时候,首先我们要了解他的全貌,接下来和我一起了解:
- Apache Hadoop框架
- Apache Hadoop的发展
Hadoop是Apache软件基金会下的顶级开源项目,用以提供:
- 分布式数据存储
- 分布式数据计算
- 分布式资源调度
为一体的整体解决方案。
Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。
个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。
二、为什么学习Hadoop?近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。
随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。
为什么学习Hadoop有如下几个至关重要的原因:
- Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。
- Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术栈。
所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。
三、Hadoop的功能通常意义上来说,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:
所以,我们会说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。
四、Hadoop发展Hadoop创始人:Doug Cutting
Hadoop起源于Apache Lucene子项目:Nutch
Nutch的设计目标是构建一个大型的全网搜索引擎。
遇到瓶颈:如何解决数十亿网页的存储和索引问题
Google三篇论文
《The Google file system》:谷歌分布式文件系统GFS
《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce
《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统
其发型版本有两个,一个是开源社区版,一个是商业发行版。
Apache开源社区版本
http://hadoop.apache.org/
商业发行版本
CDH(Cloudera's Distribution including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版
HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购
星环,国产商业版,星环公司出品,在国内政企使用较多。