大数据平台数据流:data体系架构与相关大数据组件整合的入门思路
大数据平台数据流:data体系架构与相关大数据组件整合的入门思路组件特点:异构数据源离线同步,简称ETL,采用DataX组件,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase各种异构数据源之间稳定高效的数据同步功能数据量巨大,且需要长时间保存的数据;大量的数据需要复杂的计算;数据在计算前已经就绪,不会发生变化;
离线计算是大数据体系下,最重要的组成部分。
业界通用的离线计算,指的是与实时计算相对的数据计算体系,核心组件为Mapreduce。
大数据(big data)平台重新定义了离线计算,通过作业调度工具整合数据存储、数据同步、数据计算,后续将结合机器学习,使其成为完整离线计算解决方案。
适用场景:
数据量巨大,且需要长时间保存的数据;
大量的数据需要复杂的计算;
数据在计算前已经就绪,不会发生变化;
异构数据源离线同步,简称ETL,采用DataX组件,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、HBase各种异构数据源之间稳定高效的数据同步功能
组件特点:
完善的插件体系,支持业内主流的数据库
通过插件的方式连接数据源端及目标端,可以通过配置不同的插件完善数据同步体系。
DataX将复杂的网状的同步链路变成了星型数据链路