快捷搜索:  汽车  科技

apache分析软件哪个好:Apache Hudi 0.11.0

apache分析软件哪个好:Apache Hudi 0.11.0最后,我们来讲其他功能和提升。其他功能和提升建议单个桶的大小控制在3GB左右。--04

从Flink输入了5条数据,然后通过一定的哈希策略将混合的Bucket Index进行关联,通过拿到FileGroupId写入文件。

  • 利用Bucket分布做优化

Bucket分布优化主要有:Bucket Pruning、Bucket Aggregate、Bucket Join等。如下图所示:

apache分析软件哪个好:Apache Hudi 0.11.0(1)

  • Bucket限制。目前 Bucket Index 的桶数量 ,需要根据预估的数据量提前在建表时进行确定,且建表后不可更改。
  • Bucket使用

参数:hoodie.index.type 值:BUCKET

参数:hoodie.bucket.index.num.buckets 值:48(256MB)

建议单个桶的大小控制在3GB左右。

  • Bucket后续改进。Hashmap的扩容过程,将分桶数按倍数做到轻量级动态扩容。

--

04

其他功能和提升

最后,我们来讲其他功能和提升。

1. Spark DataSource 查询优化

我们在使用mor表做快照查询的时候,log文件会被读取,然后和base文件进行合并。在之前的版本中,当你做快照查询的时候,整条log文件记录会被读出来。这个版本我们做了优化,使用了内置的标准Payload来读取。例如:OverwriteWithLatestAvroPayload。我们会针对这个做了优化,只把必要的列读出来,这样就会极大的减少内存和压缩解码带来的CPU的消耗。其实是对于非常宽的上千列的表来说,效果会非常明细。

2. Schema 演进

在这个版本中,我们针对Spark 3.1、Spark 3.2版本增加了schema功能的演进。如果启用 set hoodie.schema.on.read.enable=true以后,我们可以对表列和对表进行一系列的操作。列的变更(增加、删除、重命名、修改位置、修改属性),表的变更(重命名、修改属性) 等。

3. 保存点和恢复

保存点和恢复可以用call command做这些操作。新版本引进了mor表,用Hudi CLI设定保存点和执行恢复或者call command来手动设置保存点。保存点之后的数据将会被删除。

4. Pulsar 写提交回调

  • Hudi写入commit支持Pulsar下游作业*
  • 主要配置 HoodieWriteCommitPulsarcallback

hoodie.write.commit.callback.pulsar.topic

hoodie.write.commit.callback.pulsar.broker.service.url

  • 可扩展的接口HoodieWriteCommitCallback

5. 多元化的Catalog同步

  • Google BigQuery 支持查询COW表*
  • DataHub 支持同步Schema
  • 通过AWS SDK原生同步Glue Data Catalog

今天的分享就到这里,谢谢大家。

阅读更多技术干货文章、下载讲师PPT,请关注微信公众号“DataFunTalk”。


分享嘉宾:许世彦、郭一骅、徐前进

编辑整理:郭苗苗 新瑞鹏集团

出品平台:DataFunTalk


01/分享嘉宾

apache分析软件哪个好:Apache Hudi 0.11.0(2)

apache分析软件哪个好:Apache Hudi 0.11.0(3)

apache分析软件哪个好:Apache Hudi 0.11.0(4)


02/报名看直播 免费领PPT

apache分析软件哪个好:Apache Hudi 0.11.0(5)

猜您喜欢: