快捷搜索:  汽车  科技

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)简单来说,Kylin的核心思想是预计算(以空间换时间),即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Kylin能够拥有很好的快速查询和高并发能力。Apache Kylin的基本原理Hadoop大数据生态系统及常用组件简介(3) Hadoop大数据生态系统及常用组件简介(4) Apache Kylin 是一个开源的、分布式分析引擎,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,能够处理TB乃至PB级别的分析任务。它能在亚秒内查询巨大的Hive表,并支持高并发。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(1)

Hadoop的生态系统庞大,上面这些组件图标,你熟悉其中哪些呢?

Hadoop大数据生态系统及常用组件简介(1)

Hadoop大数据生态系统及常用组件简介(2)

Hadoop大数据生态系统及常用组件简介(3)

Hadoop大数据生态系统及常用组件简介(4)

十八、分布式分析引擎 Kylin

Apache Kylin 是一个开源的、分布式分析引擎,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,能够处理TB乃至PB级别的分析任务。它能在亚秒内查询巨大的Hive表,并支持高并发。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(2)

Apache Kylin的基本原理

简单来说,Kylin的核心思想是预计算(以空间换时间),即对多维分析可能用到的度量进行预计算,将计算好的结果保存成Cube,供查询时直接访问。把高复杂度的聚合运算、多表连接等操作转换成对预计算结果的查询,这决定了Kylin能够拥有很好的快速查询和高并发能力。

Apache Kylin使用场景

作为一个 SQL 加速层,Kylin 可以下接各种数据源,例如 Hive/Kafka,上接各种 BI 系统,比如 Tableau,PowerBI,也可以直接进行 Ad hoc 的查询。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(3)

如果你们的产品 / 业务方找到你,说有一批查询太慢了希望能够加速,要求查询速度要快;查询并发要高;资源占用要少;完整支持 SQL 语法并且能够无缝集成 BI,然后又没有更多的机器给你,那么这个时候你可以考虑使用 Apache Kylin。

十九、列存储格式Parquet

Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开发完成并开源,2015年5月从Apache的孵化器里毕业成为Apache顶级项目。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(4)

访问Kafka技术专栏,该专栏从实战出发,通过零基础入门-环境搭建-项目案例实战,让初学者快速掌握Kafka相关技术要点并投入实际项目开发。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(5)

二十、文档型数据库MongoDB

MongoDB 是由C 语言编写的,是一个基于分布式文件存储的开源非关系型数据库系统。

MongoDB是高性能、无模式的文档型数据库,支持二级索引,非常适合文档化格式的存储及查询,但比较消耗内存。查询功能强大,类似JSON格式存储,一般可以用来存放半结构化数据。

特点是高性能、易部署、易使用,存储数据十分方便。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(6)

MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(7)

MongoDB基本概念:

* 文档:是MongoDB中数据的基本单元,非常类似于关系型数据库系统中的行(但是比行要复杂很多)。

* 集合:就是一组文档,如果说MongoDB中的文档类似于关系型数据库中的行,那么集合就如同表。

* MongoDB的单个计算机可以容纳多个独立的数据库,每一个数据库都有自己的集合和权限。

* MongoDB自带简洁但功能强大的JavaScript shell,这个工具对于管理MongoDB实例和操作数据库作用非常大。

* 每一个文档都有一个特殊的键"_id",它在文档所处的集合中是唯一的,相当于关系数据库中的表的主键。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(8)

关于Skywalking入门、集群模式部署、监控指标详细讲解以及和Spring Cloud 微服务框架的整合,可以参考Skywalking技术专栏。

hadoop大数据框架学习配置启动篇(Hadoop大数据生态系统及常用组件简介)(9)

猜您喜欢: