apache分析软件哪个好：Apache Hudi 0.11.0

威哥 2022-11-08 17:28:47 569

apache分析软件哪个好：Apache Hudi 0.11.0最后，我们来讲其他功能和提升。其他功能和提升建议单个桶的大小控制在3GB左右。--04

从Flink输入了5条数据，然后通过一定的哈希策略将混合的Bucket Index进行关联，通过拿到FileGroupId写入文件。

利用Bucket分布做优化

Bucket分布优化主要有：Bucket Pruning、Bucket Aggregate、Bucket Join等。如下图所示：

apache分析软件哪个好：Apache Hudi 0.11.0(1)

Bucket限制。目前 Bucket Index 的桶数量，需要根据预估的数据量提前在建表时进行确定，且建表后不可更改。
Bucket使用

参数：hoodie.index.type 值：BUCKET

参数：hoodie.bucket.index.num.buckets 值：48（256MB）

建议单个桶的大小控制在3GB左右。

Bucket后续改进。Hashmap的扩容过程，将分桶数按倍数做到轻量级动态扩容。

其他功能和提升

最后，我们来讲其他功能和提升。

1. Spark DataSource 查询优化

我们在使用mor表做快照查询的时候，log文件会被读取，然后和base文件进行合并。在之前的版本中，当你做快照查询的时候，整条log文件记录会被读出来。这个版本我们做了优化，使用了内置的标准Payload来读取。例如：OverwriteWithLatestAvroPayload。我们会针对这个做了优化，只把必要的列读出来，这样就会极大的减少内存和压缩解码带来的CPU的消耗。其实是对于非常宽的上千列的表来说，效果会非常明细。

2. Schema 演进

在这个版本中，我们针对Spark 3.1、Spark 3.2版本增加了schema功能的演进。如果启用 set hoodie.schema.on.read.enable=true以后，我们可以对表列和对表进行一系列的操作。列的变更（增加、删除、重命名、修改位置、修改属性），表的变更（重命名、修改属性）等。

3. 保存点和恢复

保存点和恢复可以用call command做这些操作。新版本引进了mor表，用Hudi CLI设定保存点和执行恢复或者call command来手动设置保存点。保存点之后的数据将会被删除。

4. Pulsar 写提交回调