快捷搜索:  汽车  科技

如何提高数据的质量和真实性(数据和信息质量)

如何提高数据的质量和真实性(数据和信息质量)波动率表征数据随时间变化的频率。例如,出生日期等稳定数据的波动率等于0,因为它们根本不变。相反,股票报价是一种频繁变化的数据,由于它们仅在非常短的时间间隔内保持有效,因此具有高度的波动性。及时性是表达数据是否根据现实世界中发生的变化而及时更新了。作为图1中的示例,电影4的属性#Remakes具有低时效性,因为电影4已经完成了重制,但是该信息没有增加重制项的值。类似地,如果该值及时更新了,则它的时效性很高。图1 电影数据示例表上面的例子清楚地表明了句法准确性和语义准确性之间的区别。请注意,虽然使用距离函数测量句法准确度是合理的,但使用<yes,no>或<correct,not correct>域可以更好地衡量语义准确性。 因此,语义准确性与正确性的概念一致。与语法准确性发生的情况相反,为了测量值v的语义准确性,必须知道相应的真值。数据拥有随时间变化和更新的特点。按照数

第二章 数据质量维度引用

Batini C Scannapieco M . [Data-Centric Systems and Applications] Data and Information Quality[J]. Data-Centric Systems and Applications 2016 10.1007/978-3-319-24106-7.

摘要

本章是《数据和信息质量》的第二章,侧重于介绍数据质量的具体维度。在数据质量研究领域,每个维度都捕获了数据某些方面的特征。数据质量和模式质量都很重要,低质量的数据深刻地影响业务过程的质量,而低质量的模式(例如,关系模型中的非标准化模式)导致了数据生命周期期间的冗余和异常。因此,可以认为数据维度比模式维度更加与应用相关。本文后面内容用DQ(Data Quality)代表术语“数据质量”。

更具体地说,质量维度可以指数据的扩展,即数据值,或者指的是它们的内涵,即它们的模式。数据维度和模式维度通常以定性方式定义,参考数据和模式的一般属性,相关定义不提供任何为维度本身赋值的工具。具体而言,定义不提供定量度量,并且一个或多个度量与维度相关联,作为单独的不同属性。对于每个度量,将提供一种或多种测量方法。

对于模式质量,概念模式和逻辑模式的质量在数据库设计和使用中非常重要。概念模式通常在信息系统(IS)开发的第一阶段内生成。错误的概念架构设计强烈影响系统开发,必须尽快检测。逻辑模式是任何数据库应用程序实现的基础。

图1 电影数据示例表

上面的例子清楚地表明了句法准确性和语义准确性之间的区别。请注意,虽然使用距离函数测量句法准确度是合理的,但使用<yes,no>或<correct,not correct>域可以更好地衡量语义准确性。 因此,语义准确性与正确性的概念一致。与语法准确性发生的情况相反,为了测量值v的语义准确性,必须知道相应的真值。

如何提高数据的质量和真实性(数据和信息质量)(1)

如何提高数据的质量和真实性(数据和信息质量)(2)

时效准确性

数据拥有随时间变化和更新的特点。按照数据的变化情况,分为稳定型数据,缓慢变化和频繁变化三种类型。为表征上述三类数据而提出的主要时间相关维度是及时性,波动性和时效性。

及时性是表达数据是否根据现实世界中发生的变化而及时更新了。作为图1中的示例,电影4的属性#Remakes具有低时效性,因为电影4已经完成了重制,但是该信息没有增加重制项的值。类似地,如果该值及时更新了,则它的时效性很高。

波动率表征数据随时间变化的频率。例如,出生日期等稳定数据的波动率等于0,因为它们根本不变。相反,股票报价是一种频繁变化的数据,由于它们仅在非常短的时间间隔内保持有效,因此具有高度的波动性。

时效性表示当前数据对手头任务有效的程度。时效性维度表达的是,如果数据对于手头的任务是姗姗来迟的,那么它就具有低时效性。例如,大学课程的时间表需要在上课前更新,但如果只在课程开始后才可以获得,那么它具有低时效性。

类似的,对于上述三种度量指标可以给出其数学定义:

及时性定义为:

如何提高数据的质量和真实性(数据和信息质量)(3)

其中Age测量时的时间,DeliveryTime是信息产品交付给客户的时间,InputTime是获取数据单元的时间。

波动率定义为数据保持有效时长。

时效性定义为:

如何提高数据的质量和真实性(数据和信息质量)(4)

时效性范围是从0到1,其中0表示时效性低,1表示时效性高。

完整性类

完整性通常可以定义为“数据在多大程度上具有足够的广度,深度和胜任手头任务的程度”[2]。

在[3]中,确定了三种类型的完整性。模式完整性定义为模式中概念及其属性完整的程度。列完整性定义为表中特定属性或列的缺失程度。值完整性评估度量值与真值的距离。

如果专注于特定的数据模型,可以给出更精确的完整性表征。

关系型数据的完整性

直观地说,表的完整性表征了表代表相应现实世界的程度。关系模型的完整性可以表征为(1)空值的存在/不存在,(2)开放世界假设(OWA)和闭合世界假设(CWA)的两个假设之一的有效性。我们现在分别介绍这两个问题。

让我们考虑具有Name,Surname,BirthDate和Email属性的Person关系。 关系如图2所示。 对于Id等于2 3和4的元组,Email值为NULL。让我们假设由元组2表示的人没有电子邮件:没有不完整的情况发生。如果由元组3表示的人有电子邮件,但其值未知,则元组3表示不完整。最后,如果不知道由元组4表示的人是否有电子邮件,则不完整性可能不同。

如何提高数据的质量和真实性(数据和信息质量)(5)

图2 Person关系表

在数据库的逻辑模型中,例如关系模型,对关系实例r中表示的数据的完整性有两种不同的假设。 CWA声明只有实际存在于关系表r中的值才表示事实。 在OWA中,我们既不能说明r的元组中没有表示的事实的真实性,也不能表示虚假性。

Web型数据的完整性

在Web上发布的数据拥有随时间变化的特征。在传统的纸质媒体中,信息被一劳永逸地发布,网络信息系统的特点是不断发布信息。

以一所大学的网站为例,其中公布了本年课程表。在某一特定时刻,该列表可以被认为是完整的,因为它包含了所有经过官方批准的课程。尽管如此,在获得批准之前,该列表还将添加更多课程。因此,有必要了解清单在各个时刻的完整性。传统的完整性维度仅提供完整性的静态表征。为了考虑Web信息系统中所需的完整性的时间动态,本文引入了可完成性的概念。

如何提高数据的质量和真实性(数据和信息质量)(6)

其中t_curr是评估完成性的时间,t_curr <t_max。

如何提高数据的质量和真实性(数据和信息质量)(7)

图3 可完成性的图形化表示

如图3所示,可完成性可以图形描绘为函数的区域Cb,其表示在观察的瞬时t_curr和t_max之间的完整性。对应于t_curr的值表示为c_curr; c_max是针对t_max估计的完整性的值。 值c_max是实际可达的最大值,可以为一系列元素指定完整性的最大值;如果不存在该最大值,则c_max等于1。在图3中,还给出了参考区域A,定义为:

如何提高数据的质量和真实性(数据和信息质量)(8)

与Cb相比,我们可以使用[High Medium Low],来实现可完成性的定义。

可访问性类

在网站上发布大量数据并不是每个人都可以使用它的充分条件。为了访问它,用户需要访问网络,理解用于导航和查询Web的语言,并用他的感官来感知所提供的信息。可访问性衡量用户利用他自己的文化,物理状态/功能和可用技术访问数据的能力。我们主要考虑可能降低物理或感知能力的因素,这些因素降低了数据的可访问性,我们将简要概述相应的指导方针以定义可访问性。其中,万维网联盟[4]将残疾人定义为受试者:

  1. 可能无法轻易地看到,听到,移动或处理某些类型的信息;
  2. 可能难以阅读或理解文本;
  3. 可能没有或无法使用键盘或鼠标;
  4. 可能有纯文本屏幕,小屏幕或慢速Internet连接;
  5. 不会说话或无法理解自然语言;

国际机构提供了若干准则来管理数据,应用程序,服务和网站,以确保可访问性。一些国家制定了具体的法律,以强制公共和私人网站以及公民和雇员使用应用程序的可访问性,以便为他们提供有效访问并减少数字鸿沟。

一致性类

一致性维度捕获违反语义规则的数据项,其中数据项可以是关系表中的元组或文件中的记录。参考关系理论,完整性约束(Integrity Constraints)就是一种语义规则。在数据统计中,数据编辑(Data Edits)是另一种可以用于检查完整性的语义规则。

完整性约束是由数据库模式定义,数据库中的所有实例必须满足这些属性。 但是,如果数据不是关系数据,仍然可以定义一致性规则。 例如,在统计领域,来自人口普查问卷的数据具有与问卷调查方案相对应的结构。 因此,语义规则以非常类似于关系约束的方式定义在这样的结构上。这样的规则称为编辑规则。原文深入介绍了这些规则,感兴趣的读者请查阅原文。

定义数据质量维度的方法

本文描述了一些维度定义方法。主要采用三种方法来提出数据质量维度的定义。这三种方法分为,理论法,经验法和直观法。理论方法采用形式模型来定义或证明维度。经验方法从实验,访谈和问卷调查开始构建一组维度。直观的方法根据常识和实践经验简单地定义维度。原文对这三种方法进行了深入剖析,本文不多赘述。

模式的质量维度

在前面的部分中,我们提供了数据质量维度的深入表征。 在本节中,重点是架构质量维度。但是,模式的质量和数据质量之间存在关系,这二者并不等同。许多数据质量的维度,在模式质量中有了新的定义。原文对该节进行了深入剖析。

本文主要贡献

本文我们看到了各种维度和指标,这些维度和指标表征了结构化数据的信息质量概念。这些维度为那些对数据质量感兴趣的组织提供了参考框架,使他们能够在一定程度上表征并衡量数据集的质量,并且质量维度是任何测量和改进数据质量的基础。此外,本文给出了众多维度的一般建议,然而,还存在与特定域相关的提议,在特定的领域需要使用特定维度以捕获该领域的数据特性。

参考文献

[1] Batini C Palmonari M Viscusi G (2012) The many faces of information and their impact on information quality. In: Proceedings of the 17th International Conference on Information Quality (IQ 2012) pp 212–228

[2] Wang RY Strong DM (1996) Beyond accuracy: what data quality means to data consumers. Journal of Management Information Systems 12(4):5–33

[3] Pipino LL Lee YW Wang RY (2002) Data quality assessment. Communications of the ACM 45(4)

[4] W3C (accessed 2014) w3/WAI/

致谢

此文由南京大学软件学院2017级硕士廉昊翻译转述

猜您喜欢: