快捷搜索:  汽车  科技

工业互联网大数据中心建设(产业互联网大数据平台建设)

工业互联网大数据中心建设(产业互联网大数据平台建设)2、在技术选型上注重高容错性,保证系统稳定;1、自上而下 自下而上地设计,数据驱动和应用驱动整合;二、建设方案2.1设计原则数据仓库建设过程,遵循如下原则:

一、背景

数据仓库作为面向主题的、集成的、反映历史变化的数据集合,主要用于支持管理决策。随着大数据、云计算等技术的应用和普及,互联网环境下数据处理呈现出新的特征:业务变化快、数据来源多、系统耦合多、应用深度深。传统仓库必然面临着挑战:数据量增长过快导致运行效率下降;数据集成代价大;无法处理多样性的数据;数据挖掘等深度分析能力欠缺。

产业互联网平台,数据内容涵盖交易、供应链金融、物流等海量数据,对数据仓库提出了更高要求:数据快速获取、支持实时数据、访问途径多样便捷等。平台的数据需求不仅要满足于传统报表分析,在大数据环境下则更多地进行算法分析,建立数据模型去预测分析和决策支持。

因此,产业互联网平台需要构建自身的大数据系统(数据仓库),具备海量的数据存储及处理能力、多样的计算框架、丰富的数据采集通道等特征。

二、建设方案

2.1设计原则

数据仓库建设过程,遵循如下原则:

1、自上而下 自下而上地设计,数据驱动和应用驱动整合;

2、在技术选型上注重高容错性,保证系统稳定;

3、数据质量监控贯穿整个数据处理流程;

4、允许数据冗余,充分利用存储交换易用,减少复杂度和计算量。

2.2设计过程

一般来说,数据仓库的构建需要经历以下几个过程:

工业互联网大数据中心建设(产业互联网大数据平台建设)(1)

2.3平台架构

大数据仓库平台架构,如下图:

工业互联网大数据中心建设(产业互联网大数据平台建设)(2)

2.4数据内容

平台(以黑色大宗商品产业互联网平台为例)数据主要内容,详见下表:

工业互联网大数据中心建设(产业互联网大数据平台建设)(3)

2.5平台构建

大数据平台构建主要分为数据整合、数据体系、数据应用三个层次:

工业互联网大数据中心建设(产业互联网大数据平台建设)(4)

(一)数据整合

结构化数据采集通常涉及到全量采集和增量采集。全量采集是整个数仓的数据初始化,将历史数据快速地同步到计算平台;增量采集是初始化之后的数据同步。日志数据原始结构越规范,解析的成本越低,在日志采集到平台之前尽量不做结构化,后续再通过UDF或MR计算框架实现日志结构化。

(二)数据体系(数据仓库)

构建数据仓库首要任务是模型设计,业界一般采用的建模方法有两种:

1、维度建模:结构简单,便于事实数据分析,适合业务分析报表和BI;

2、实体建模:结构复杂,便于主题数据打通,适合复杂数据内容的深度挖掘。

在实际数据仓库中,维度建模(星型模型)和实体建模(雪花模型)是并存的,有利于数据应用和减少计算资源消耗。

在数据处理分层上,一般采用较多的是上下三层结构:压缩整体数据处理流程长度,扁平化的数据处理流程有助于数据质量控制和数据运维;流式处理作为数据体系的一部分,能够更加关注数据的时效性,使得数据价值更高。

工业互联网大数据中心建设(产业互联网大数据平台建设)(5)

1、基础数据层

  • 数据采集:把不同数据源的数据统一采集到一个平台;
  • 数据清洗:清洗不符合质量要求的数据,避免脏数据参与后续数据计算;
  • 数据归类:建立数据目录,在基础层一般按照来源系统和业务域进行分类;
  • 数据结构化:对于半结构化或非结构化的数据,进行结构化;
  • 数据规范化:规范维度标识,统一计量单位。

2、数据中间层

围绕数据实体打通行为,将数据源进行整合;从行为抽象关系上来说,将是上层应用一个很重要的数据依赖。适度冗余,能够保证主题的完整性,提高数据易用性。

3、数据集市层

工业互联网大数据中心建设(产业互联网大数据平台建设)(6)

需求场景驱动的集市层建设,各集市之间是垂直构建的,需要能够快速试错,深度挖掘数据价值。

(三)数据应用

大数据平台主要数据应用场景,如下:

1、数据报表:满足平台运营分析需要的日常数据报表;

2、数据可视化:满足大屏数据可视化需求,支持批处理、流式数据的实时分析;

3、商品推荐:构建用户画像,实现供求信息线上智能匹配,向目标用户提供商品推荐;

4、大数据风控模型:利用大数据挖掘分析,打造数字化风控系统,为供应链金融服务的线上化提供可操作性;

5、……

猜您喜欢: