apache分析软件哪个好:Apache Hudi 0.11.0
apache分析软件哪个好:Apache Hudi 0.11.0最后,我们来讲其他功能和提升。其他功能和提升建议单个桶的大小控制在3GB左右。--04
从Flink输入了5条数据,然后通过一定的哈希策略将混合的Bucket Index进行关联,通过拿到FileGroupId写入文件。
- 利用Bucket分布做优化
Bucket分布优化主要有:Bucket Pruning、Bucket Aggregate、Bucket Join等。如下图所示:
- Bucket限制。目前 Bucket Index 的桶数量 ,需要根据预估的数据量提前在建表时进行确定,且建表后不可更改。
- Bucket使用
参数:hoodie.index.type 值:BUCKET
参数:hoodie.bucket.index.num.buckets 值:48(256MB)
建议单个桶的大小控制在3GB左右。
- Bucket后续改进。Hashmap的扩容过程,将分桶数按倍数做到轻量级动态扩容。
--
04
其他功能和提升
最后,我们来讲其他功能和提升。
1. Spark DataSource 查询优化
我们在使用mor表做快照查询的时候,log文件会被读取,然后和base文件进行合并。在之前的版本中,当你做快照查询的时候,整条log文件记录会被读出来。这个版本我们做了优化,使用了内置的标准Payload来读取。例如:OverwriteWithLatestAvroPayload。我们会针对这个做了优化,只把必要的列读出来,这样就会极大的减少内存和压缩解码带来的CPU的消耗。其实是对于非常宽的上千列的表来说,效果会非常明细。
2. Schema 演进
在这个版本中,我们针对Spark 3.1、Spark 3.2版本增加了schema功能的演进。如果启用 set hoodie.schema.on.read.enable=true以后,我们可以对表列和对表进行一系列的操作。列的变更(增加、删除、重命名、修改位置、修改属性),表的变更(重命名、修改属性) 等。
3. 保存点和恢复
保存点和恢复可以用call command做这些操作。新版本引进了mor表,用Hudi CLI设定保存点和执行恢复或者call command来手动设置保存点。保存点之后的数据将会被删除。
4. Pulsar 写提交回调
- Hudi写入commit支持Pulsar下游作业*
- 主要配置 HoodieWriteCommitPulsarcallback
hoodie.write.commit.callback.pulsar.topic
hoodie.write.commit.callback.pulsar.broker.service.url
- 可扩展的接口HoodieWriteCommitCallback
5. 多元化的Catalog同步
- Google BigQuery 支持查询COW表*
- DataHub 支持同步Schema
- 通过AWS SDK原生同步Glue Data Catalog
今天的分享就到这里,谢谢大家。
阅读更多技术干货文章、下载讲师PPT,请关注微信公众号“DataFunTalk”。
分享嘉宾:许世彦、郭一骅、徐前进
编辑整理:郭苗苗 新瑞鹏集团
出品平台:DataFunTalk
01/分享嘉宾
02/报名看直播 免费领PPT