快捷搜索:  汽车  科技

hadoop入门书籍(一篇内容走进Hadoop的世界)

hadoop入门书籍(一篇内容走进Hadoop的世界)所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。为什么学习Hadoop有如下几个至关重要的原因:个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。

学习一门新知识的时候,首先我们要了解他的全貌,接下来和我一起了解:

  • Apache Hadoop框架
  • Apache Hadoop的发展
一、什么是Hadoop?

hadoop入门书籍(一篇内容走进Hadoop的世界)(1)

Hadoop是Apache软件基金会下的顶级开源项目,用以提供:

  • 分布式数据存储
  • 分布式数据计算
  • 分布式资源调度

为一体的整体解决方案。

Apache Hadoop是典型的分布式软件框架,可以部署在1台乃至成千上万台服务器节点上协同工作。

个人或企业可以借助Hadoop构建大规模服务器集群,完成海量数据的存储和计算。

二、为什么学习Hadoop?

近10年来,大数据技术体系一词一直和Hadoop是划上等号的,提起大数据技术基本就是在提及Hadoop。

随着近些年的发展,越来越多的新技术框架的出现,给大数据技术体系带来了丰富的生态,但是拥有元老地位的Hadoop依旧非常重要。

为什么学习Hadoop有如下几个至关重要的原因:

  • Hadoop是最早的一批大数据技术框架,在市面上拥有极高的占有率和庞大的用户群体。
  • Hadoop在大数据体系内,技术难度相对较低,非常适合作为大数据学习的入门技术栈。

所以,学习Hadoop不仅仅因为其适合入门,同时也可以为大数据学习打下良好的基础。

三、Hadoop的功能

通常意义上来说,Hadoop是一个整体,其内部还会细分为三个功能组件,分别是:

hadoop入门书籍(一篇内容走进Hadoop的世界)(2)

所以,我们会说Hadoop是一个集合了:存储、计算、资源调度为一体的大数据分布式框架。

四、Hadoop发展

Hadoop创始人:Doug Cutting

hadoop入门书籍(一篇内容走进Hadoop的世界)(3)

Hadoop起源于Apache Lucene子项目:Nutch

Nutch的设计目标是构建一个大型的全网搜索引擎。

遇到瓶颈:如何解决数十亿网页的存储和索引问题

Google三篇论文

《The Google file system》:谷歌分布式文件系统GFS

《MapReduce: Simplified Data Processing on Large Clusters》:谷歌分布式计算框架MapReduce

《Bigtable: A Distributed Storage System for Structured Data》:谷歌结构化数据存储系统

hadoop入门书籍(一篇内容走进Hadoop的世界)(4)

其发型版本有两个,一个是开源社区版,一个是商业发行版。

hadoop入门书籍(一篇内容走进Hadoop的世界)(5)

Apache开源社区版本

http://hadoop.apache.org/

商业发行版本

CDH(Cloudera's Distribution including Apache Hadoop) Cloudera公司出品,目前使用最多的商业版

HDP(Hortonworks Data Platform),Hortonworks公司出品,目前被Cloudera收购

星环,国产商业版,星环公司出品,在国内政企使用较多。

猜您喜欢: