尚硅谷数据可视化(重磅来袭尚硅谷数据湖Hudi教程发布)
尚硅谷数据可视化(重磅来袭尚硅谷数据湖Hudi教程发布)04.Hudi概述-使用场景03.Hudi概述-发展历史&特性教程目录01.Hudi教程简介02.Hudi概述-简介
Apache Hudi是新一代的流式数据湖平台,其将数据库和数据仓库的核心功能直接引入数据湖,并提供了表、事务、高效的增删改、高级索引、流式摄取、数据集群、压缩优化和并发控制等服务。Hudi在任何云平台都能够便携地使用,高级的性能优化可以对接Spark、Flink、Hive等任何一款主流查询引擎。
本套视频教程由尚硅谷大数据教研团队与Apache Hudi开发团队联合出品。
教程延续了尚硅谷一贯风格:保姆式讲解,由浅入深,由点及面,娓娓道来,细致讲解了Hudi的内部架构和核心概念;败家式赠送,视频、代码、笔记、资料……帮助初学者轻松入门,快速上手。
教程还详细讲解了Hudi与当前最流行的三大大数据计算引擎:Spark、Flink和Hive的对接过程,包括环境准备、多种对接方式、重点配置参数分析、进阶调优手段讲解等,从入门到精通,学习后即可快速投入实际生产使用!
教程目录
01.Hudi教程简介
02.Hudi概述-简介
03.Hudi概述-发展历史&特性
04.Hudi概述-使用场景
05.Hudi编译-版本兼容&Maven安装配置
06.Hudi编译-解决与Hadoop3.x的兼容问题
07.Hudi编译-手动安装需要的kafka依赖
08.Hudi编译
-解决Spark写入Hudi的兼容性问题
09.Hudi编译-执行编译命令&jar包位置
10.Hudi基本概念-时间轴TimeLine
11.Hudi基本概念-文件布局-存储方式
12.Hudi基本概念-文件布局-文件管理
13.Hudi基本概念-索引-原理
14.Hudi基本概念-索引-索引选项
15.Hudi基本概念-索引
-全局索引与非全局索引
16.Hudi基本概念-索引-索引选择策略
17.Hudi基本概念-表类型-COW表
18.Hudi基本概念-表类型-MOR表
19.Hudi基本概念-表类型-两种表的区别
20.Hudi基本概念-查询类型
21.Hudi基本概念-不同表的查询类型
22.Hudi数据写-写操作&Upsert流程
23.Hudi数据写-Insert&Overwrite流程
24.Hudi数据写-Key生成策略&删除策略
25.Hudi数据读与Compaction
26.Hudi集成Spark-环境准备&启动Shell
27.Hudi集成Spark-Shell方式
-准备及插入数据
28.Hudi集成Spark-Shell方式
-查询数据&文件命名源码
29.Hudi集成Spark-Shell方式
-更新数据&时间旅行查询
30.Hudi集成Spark-Shell方式
-增量查询&指定时间点查询
31.Hudi集成Spark-Shell方式
-删除数据&覆盖数据
32.Hudi集成Spark-SQL方式
-环境准备&创建表
33.Hudi集成Spark-SQL方式-插入&查询
34.Hudi集成Spark-SQL方式
-更新数据-Update
35.Hudi集成Spark-SQL方式
-更新数据-MergeInto
36.Hudi集成Spark-SQL方式
-删除&覆盖数据
37.Hudi集成Spark-SQL方式
-修改表结构、分区&存储过程
38.Hudi集成Spark-IDEA编码方式
39.Hudi集成Spark-DeltaStreamer
-工具介绍
40.Hudi集成Spark-DeltaStreamer
-准备Kafka数据&配置文件
41.Hudi集成Spark-DeltaStreamer
-执行导入&查询结果
42.Hudi集成Spark-并发控制说明
43.Hudi集成Spark-并发控制-DF写入演示
44.Hudi集成Spark-并发控制
-DeltaStreamer写入演示
45.Hudi集成Spark-官方调优指南
46.Hudi集成Flink-环境准备
47.Hudi集成Flink-sql-client-local集群方式
48.Hudi集成Flink-sql-client
-yarn-session集群方式
49.Hudi集成Flink-sql-client
-插入&查询&更新
50.Hudi集成Flink-sql-client-流式插入
51.Hudi集成Flink-IDEA编码方式
-手动安装依赖
52.Hudi集成Flink-IDEA编码方式
-提交运行
53.Hudi集成Flink-类型映射
54.Hudi集成Flink-核心参数-去重参数
55.Hudi集成Flink-核心参数
-并发参数&Hints用法
56.Hudi集成Flink-核心参数
-Compation参数
57.Hudi集成Flink-核心参数
-Compation演示&hadoop依赖冲突解决
58.Hudi集成Flink-核心参数
-文件大小&Hadoop参数
59.Hudi集成Flink-核心参数
-内存参数&优化建议
60.Hudi集成Flink-读取方式
-流读&增量读&限流
61.Hudi集成Flink-写入方式-CDC入湖
62.Hudi集成Flink-写入方式-离线批量导入
63.Hudi集成Flink-写入方式-全量接增量
64.Hudi集成Flink-Changelog模式
65.Hudi集成Flink-Clustering&Bucket索引
66.Hudi集成Flink-Hudi Catalog
67.Hudi集成Flink-离线Compaction
68.Hudi集成Flink-离线Clustering
69.Hudi集成Flink-常见基础问题
70.Hudi集成Flink-核心原理简要回顾
71.Hudi集成Hive-集成步骤
72.Hudi集成Hive-Flink同步Hive
73.Hudi集成Hive-Spark同步Hive
74.Hudi集成Hive
-使用HiveCatalog&使用Hive自带函数
75.Hudi集成Hive-Hive外表创建&查询方式
76.Hudi集成Hive-hive sync tool使用说明
77.Hudi集成Hive
-解决依赖问题&JDBC方式同步
78.Hudi集成Hive-hive同步工具-HMS方式