物化视图刷新原理（了解物化视图-）

小君 2022-11-28 03:33:52 681

物化视图刷新原理（了解物化视图-）相比之下，有状态的流处理是复杂的，因为它处理的是 "状态"。" 大多数流处理应用都关注聚合、连接和时间窗口操作。例如，我们可以通过商店的ID来聚合零售交易，以查看每个商店的销售业绩。无状态流处理处理单个事件这篇文章探讨了有状态流处理中的两个基本概念：流和表；以及流如何变成表，形成物化视图。在文章的最后，我们将学习这些物化视图如何被扩展和从失败中恢复。流处理有两大类；无状态和有状态处理。在无状态模式下，你孤立地处理每个事件。最基本的模式是将不必要的事件从流中过滤掉，或对单个事件进行转换。过去的事件对当前事件的处理没有影响。

利用有状态流处理来维护增量更新的物化视图

杜尼特-达努什卡 8分钟阅读

物化视图刷新原理（了解物化视图-）(1)

照片：Etienne Boulanger on Unsplash

在本系列的第一部分，我们了解了物化视图的基本原理，以及它们的缺点。然后，我向你介绍了流处理，作为维护自我更新的物化视图的一种可扩展方式。

这篇文章探讨了有状态流处理中的两个基本概念：流和表；以及流如何变成表，形成物化视图。在文章的最后，我们将学习这些物化视图如何被扩展和从失败中恢复。

有状态的流处理

流处理有两大类；无状态和有状态处理。

在无状态模式下，你孤立地处理每个事件。最基本的模式是将不必要的事件从流中过滤掉，或对单个事件进行转换。过去的事件对当前事件的处理没有影响。

物化视图刷新原理（了解物化视图-）(2)

无状态流处理处理单个事件

相比之下，有状态的流处理是复杂的，因为它处理的是 "状态"。" 大多数流处理应用都关注聚合、连接和时间窗口操作。例如，我们可以通过商店的ID来聚合零售交易，以查看每个商店的销售业绩。

这些聚合需要为流维护一个状态。在前面的情况下，每个存储的运行总量必须在其他地方维护。例如，在一个键/值存储中。下次有交易事件发生时，我们可以查找该事件的商店ID的当前总数，然后进行递增。

物化视图刷新原理（了解物化视图-）(3)

聚合、连接和窗口操作都需要保持一个状态。

本地状态与外部状态

通常情况下，流处理器会将这种状态保存在本地，以便更快地访问。它首先被写入内存，然后最终被刷新到磁盘上的键/值存储，如RocksDB。

但在某些情况下，状态被存储在一个外部地方，如数据库。虽然它引入了额外的延迟，但对于简单的工作负载来说效果很好，并为你提供良好的可扩展性。

有状态的处理引入了许多挑战，尤其是在状态管理方面。你必须在状态的扩展和容错方面花费大量的心思。我们将在接下来的章节中详细讨论这些问题。

物化视图刷新原理（了解物化视图-）(4)

用有状态流处理维护物化视图

传统的数据库支持的物化视图有一个主要问题，那就是它不能增量地更新视图的内容。整个视图必须不时地被重建，这是很昂贵的。

但是，一个有状态的流处理器可以解决这个问题，它将事件流具体化为一个持久的视图，然后在新的数据进来时更新它。流处理器负责视图的维护，这是自动和增量的。一旦有新的事件到来，视图就会被更新，并以尽可能小的方式基于增量进行调整，而不是从头开始重新计算。因此，避免了视图的完全重建。

理解这一点需要你首先熟悉一些概念和行话。让我们在接下来的章节中慢慢解读这些概念。

流和表

在流处理中，有两个基本概念需要我们去理解--流和表。

一个流是一个不可改变的、只附加的事件序列，代表了变化的历史。一个表包含世界的当前状态，它是许多变化的结果。

在我们上面的零售商店的例子中，一系列的商店交易代表一个流，而商店销售的汇总代表一个表。管理层感兴趣的是当前的销售报告，而不是单个销售。

物化视图刷新原理（了解物化视图-）(5)

有时，我们想要的是当前的状态而不是状态的变化

将一个数据流物化为一个表

为了将一个流转换为一个表，我们需要应用流中包含的所有变化。这也被称为流的物化。

为了具体化一个流，我们从头到尾看一遍流中的所有事件，一边看一边改变状态。当我们完成后，我们有一个代表特定时间的状态的表，我们可以使用。这个表可以在内存中，在本地状态中，或者在一个外部数据库中。

实践中的物化视图

为了更好地理解这一点，让我向你展示如何用kafka原生流处理框架ksqlDB构建我们的零售实例。

一个典型的零售交易有以下格式。

{ "order_id":123456767 "customer_id":1232。 "store_id":2123。 "created_at": "2021-09-23" }

然后我们可以定义一个流来代表一系列的交易。

CREATE STREAM transactions ( order_id INT KEY customer_id INT store_id INT total DOUBLE created_at VARCHAR ) WITH ( Kafka_topic = 'trasactions' partitions = 2 value_format = 'json' );

你可能想检查一下当前每个商店的总销售额明细。你可以通过物化一个流的视图来做到这一点。

CREATE TABLE sales_by_store AS SELECT store_id SUM(total) as total FROM TRANSACTIONS GROUP BY store_id EMIT CHANGES;

当你在ksqlDB上运行这个语句时会发生什么？

服务器创建了一个新的持久性查询，永远运行，在数据到达时进行处理。当每条记录从事务流中读取时，持久化查询会做两件事。