智能湖仓:那你必须了解下国产唯一开源湖仓了
智能湖仓:那你必须了解下国产唯一开源湖仓了1. 实时数据快速导入湖仓LakeSoul 应用场景举例LakeSoul 使用 Parquet 作为文件存储格式,支持云上对象存储,并提供抽象统一的存储访问层,能够很方便的对接各类计算引擎。目前能够支持 Spark、Flink,并支持将表分区自动导入到 Hive Meta 中。近期 LakeSoul 还将支持对接 Presto 等 MPP 计算引擎,从而更加完整地支持 ETL、OLAP、AI 模型训练等各类数据智能计算业务。LakeSoul 的业务价值LakeSoul 现代湖仓数据智能架构能够带来如下几个核心业务价值:
通过这样的方式,写入时不需要读取并合并数据,提供了很高的写入性能。而经过优化的 Merge Reader 保证了读性能不受损失。
4. 实时数仓功能
LakeSoul 支持流式和批量的写入,行列级别更新,通过 SQL 即可完成绝大部分更新操作,使用体验更接近于数据库。同时,LakeSoul 支持 MVCC 多版本控制,并提供了快照读(Time Travel)和版本回滚的功能。在 2.0 版本更新中,还支持了 Flink CDC 实时写入,通过将 CDC 更新流转化为 LakeSoul 的 Upsert 操作,能够实现高效的实时入湖。通过对接 Flink Table API,同样能够通过几行 SQL 完成在线数据库的 CDC 入湖。
5. 开放生态
LakeSoul 使用 Parquet 作为文件存储格式,支持云上对象存储,并提供抽象统一的存储访问层,能够很方便的对接各类计算引擎。目前能够支持 Spark、Flink,并支持将表分区自动导入到 Hive Meta 中。近期 LakeSoul 还将支持对接 Presto 等 MPP 计算引擎,从而更加完整地支持 ETL、OLAP、AI 模型训练等各类数据智能计算业务。
LakeSoul 的业务价值
LakeSoul 现代湖仓数据智能架构能够带来如下几个核心业务价值:
- 大幅简化数据智能架构,降低运维成本
- 计算成本降低,不需要多套存储
- 不依赖 Kafka 或 Flink 等有状态服务
- 避免资源潮汐效应
- 简化开发流程,降低人力成本
- 使用 SQL、Python 即可快速开发数据智能业务
- 现有数仓逻辑可以快速迁移,改造难度低
- 数据可靠,状态可见透明,提升数据使用效率
- 每层计算结果实时可见、可查询,数据可复用
- 上游补数、修复简单快捷,避免单点故障
- 避免数据孤岛、数据冗余、数据沼泽
- 全链路 T 0 实时计算
- 计算延迟大幅降低,天级降低到分钟级
- 业务效果快速反馈
LakeSoul 应用场景举例
1. 实时数据快速导入湖仓
使用 LakeSoul 提供的 Flink CDC Sink 功能,可以将在线数据库的变更实时同步到 LakeSoul 湖仓,不再需要 T 1 导入作业,从数据源头实现实时化。并且得益于 Flink CDC,也不再需要额外部署 Kafka 等组件。实时数据入湖的架构流程:
可以看到 LakeSoul 实时入湖只需要一条流式的链路即可完成入湖,不需要额外的批处理流程,既简化开发工作量,消除数据口径不一致,也简化了部署架构,显著降低了运维成本。
2. 实时分析报表
LakeSoul 的流批一体更新的特性,使得报表开发者不需要使用复杂的计算引擎接口来开发流式计算的作业,通过 SQL 即可完成实时的数据提取和转换和开发,无论是 ETL 还是数据分析的流程都更加简单:
通过 LakeSoul 能够快速上线实时 BI 报表,随时高效支撑商业决策。
3. AI 应用落地
在互联网搜广推业务中,需要不断积累用户的实时反馈,并结合历史数据进行模型训练,自然是流批一体发挥巨大价值的重要场景。通过 LakeSoul 可以很好地支持实时搜广推的 Online Learning 范式,构建实时的机器学习样本库,无缝对接 AI 模型的实时训练和在线推理,实现数据智能化的应用。
结语
LakeSoul 作为当前国产唯一的开源湖仓一体框架,近期发布了 2.0 版本,增加了 Flink CDC、快照回滚、Hive 对接等业务生态功能,进一步增强和丰富了在实际生产环境中的业务落地能力。LakeSoul 带来现代化的湖仓数据智能架构,能够大幅降低数据智能应用的开发运维门槛,让数据智能成为触手可及的技术,充分释放数据的业务价值红利。
通过「下文链接」,直接访问 Github:https://github.com/meta-soul/LakeSoul