快捷搜索:  汽车  科技

数据质量指标要求(数据质量指标要求)

数据质量指标要求(数据质量指标要求)要求2(R2)(间隔标度指标值)。数据质量度量的值必须按时间间隔缩放。根据测量尺度的分类,这意味着可以确定差异和时间间隔,并且具有意义。当一个数据质量度量由一个数学函数表示时,(R1)意味着这个函数必须从下到上有界,并且必须达到最小值和最大值。然而,一些现有的指标未达到最小值或最大值,因此可能导致对决策备选方案的错误评估。例如,在这些情况下,不可能决定评估的数据质量水平是否可以或应该提高,以便做出更好的决策。因此,可以对已经非常好的数据质量的数据进行不必要的改进措施,因为度量值不能代表已经达到非常好的数据质量这一事实。此外,当使用不满足(R1)的指标多次评估数据质量时,不保证不同评估中度量值的可比性和可验证性。此外,当执行特定的数据质量改进指标时,没有以最小值和最大值来比较时间进程中的排名基准,这与经济导向的数据质量管理相矛盾。图1.决策导向框架在本节中,本文介绍了一组明确定义的数据质量度

引用:Bernd Heinrich Diana Hristova Mathias Klier Alexander Schiller and Michael Szubartowicz. 2018. Requirements for Data Quality Metrics. J. Data and Information Quality 9 2 Article 12 (January 2018) 32 pages. https://doi.org/10.1145/3148238

摘要:

数据质量,特别是数据质量的评价,在研究和实践中都得到了深入的探讨。为了支持以经济为导向的数据质量管理和不确定性下的决策,有必要通过有根据的指标来评估数据质量水平。然而,如果没有充分定义,这些指标可能会导致错误的决策和经济损失。因此,基于面向决策的框架,本文提出了数据质量度量的五个要求。这些要求与支持以经济为导向的数据质量管理和不确定性下的决策相关。本文从不同数据质量维度评估五个数据质量指标,进一步证明了这些要求的适用性和有效性。此外,本文还讨论了运用这些要求的实际意义。

1 引言

由于技术的快速发展,企业越来越依赖数据来支持决策并获得竞争优势。为了做出明智有效的决策,评估并确保基础数据质量是至关重要的。Experian Information Solutions在2016年进行的一项调查(参见[1])中有83%的受访者表示,糟糕的数据质量实际上损害了他们的业务目标,66%的受访者表示,过去12个月,糟糕的数据质量对他们的组织产生了负面影响。另一份报告(参见文献[1 2])显示,84%的首席执行官担心他们用于决策的数据质量。此外,Gartner还指出,数据质量差对财务的平均影响为每年970万美元,对组织的影响也是如此(参见文献[3])。总的来说,据估计,数据质量的不达标每年给美国经济造成3.1万亿美元的损失(参见文献[4])。鉴于目前大数据的激增以及数据大量的异构、快速变化,确保数据质量以支持决策、评估变得更加重要。体积、速度和多样性,通常被称为大数据的三大特征,却使数据质量的保证变得越来越具有挑战性(参见文献[5 6])。因此错误决策的后果变得更加昂贵(参见文献[7 8]).。这导致增加了第四个特征——准确性,反映了大数据背景下数据质量的重要性。本文的重点是从数据视图和存储在IS中的数据值等维度评估数据质量指标,但是,数据方案质量的指标没有考虑。

数据质量指标要求(数据质量指标要求)(1)

根据关于(i)和(i i)的文献,图1给出了用于证明本文的要求的决策导向框架。数据质量指标应用于数据视图以评估数据质量级别。评估的数据质量水平影响在不确定的情况下进行的决策,特别是选择的替代方案,以及决策者的预期回报。因此,决策者可以采用改进措施来提高以指标值表示的数据质量水平。然而,应用数据质量改进措施会产生成本。这也适用于指标的应用,包括其参数的确定。因此,必须从经济角度确定最佳数据质量水平。

数据质量指标要求(数据质量指标要求)(2)

图1.决策导向框架

3 数据质量指标要求

在本节中,本文介绍了一组明确定义的数据质量度量要求。它们结合、具体化并增强了已有的六组需求的现有方法。此外,基于面向决策的框架,本文证明本文的需求支持(i)不确定性下的决策,以及(i i)经济性的数据质量管理。

要求1(R1)(存在最值)。度量值必须从下面和上面进行限制,并且必须能够达到最小值(表示完全糟糕的数据质量)和最大值(表示完全良好的数据质量)。

当一个数据质量度量由一个数学函数表示时,(R1)意味着这个函数必须从下到上有界,并且必须达到最小值和最大值。然而,一些现有的指标未达到最小值或最大值,因此可能导致对决策备选方案的错误评估。例如,在这些情况下,不可能决定评估的数据质量水平是否可以或应该提高,以便做出更好的决策。因此,可以对已经非常好的数据质量的数据进行不必要的改进措施,因为度量值不能代表已经达到非常好的数据质量这一事实。此外,当使用不满足(R1)的指标多次评估数据质量时,不保证不同评估中度量值的可比性和可验证性。此外,当执行特定的数据质量改进指标时,没有以最小值和最大值来比较时间进程中的排名基准,这与经济导向的数据质量管理相矛盾。

要求2(R2)(间隔标度指标值)。数据质量度量的值必须按时间间隔缩放。根据测量尺度的分类,这意味着可以确定差异和时间间隔,并且具有意义。

(R2)具有重大的实际影响。许多现有的数据质量指标没有提供区间标度值,在评估不同的决策备选方案时,可能会导致错误的决策(参考文献[11])。此外,在评估、解释和比较不同数据质量改进措施对以经济为导向的数据质量管理的影响时,区间尺度指标值具有高度相关性。例如,让一个按序缩放的度量值取“非常好”、“好”、“中等”、“差”和“非常差”的值,那么就不可能指定“非常好”和“中等”之间的差异的含义,决策者无法评估500美元或600美元的余款是否有相同的业务价值。相比之下,这种回报差异可能相当于间隔尺度指标值的差异为0.2。特别是,仅仅说明哪种度量方法能够最大程度地提高基于有序比例的数据质量水平还不够。在上面的一个序数尺度的例子中,无法确定从“非常差”到“中等”的改进是否与从“中等”到“非常好”的改进具有相同的程度。同样,不清楚从“非常差”到“中等”的改进是否是从“非常差”到“中等”的改进的两倍。相比之下,对于间隔尺度的度量,0.2的改进是0.1的两倍。为了确保选择有效的数据质量改进措施,需要精确地确定数据质量水平明显提高所带来的好处(即额外的预期回报),并将其与成本进行比较。

要求3(R3)(配置参数的质量与指标值的确定)。必须有助于确定数据质量指标的配置参数,以满足质量标准客观性、可靠性、和有效性的要求。同样的控件,以确定指标值。

配置参数和数据质量度量值的客观性表示各自参数和值以及确定程序的程度。它们(如SQL查询)独立于外部影响(如面试官)。对于需要专家估计以确定配置参数或度量值的数据质量指标,此标准尤其重要。测量可靠性是指确定参数的精度。可靠性概念化了用于确定配置参数或度量值的方法的结果的可复制性。有效性被定义为“度量它所声称的度量”或“度量在多大程度上度量利益的理论结构”。因此,确定配置参数或度量值的方法的有效性是指所建议的方法实际测量其应测量的精度。

要求4(R4)(指标值的合理集成)。数据质量度量必须适用于单个数据值以及数据值集(如元组、关系和整个数据库)。此外,必须确保结果度量值的集成在所有级别上都是一致的。

当数据质量度量被视为数学函数时,(R4)意味着不同数据视图级别的这些函数必须与集成兼容。决策情况通常依赖于数据值的数据质量。然而,文献中的许多数据质量度量没有为不同的数据视图级别提供一致的集成规则。正如上述理由所揭示的,在评估不同的决策备选方案时,这可能导致错误的决策。此外,对所有集成级别上的度量值进行一致的解释对于支持面向经济的数据质量管理很重要。否则,重复对数据质量的测量将提供不一致或错误的结果,从而无法准确地确定改进措施的好处,并从成本效益的角度来决定是否应用这些措施。

要求5(R5)(指标经济效率)。从经济角度来看,数据质量指标的配置和应用必须是有效的。特别是,应用指标的额外预期收益必须大于确定配置参数和度量值的预期成本。

关于(R5),特别是需要用户不能直接使用的配置参数的度量,必须详细分析。如果指标没有实现(R5),与估计的额外预期收益相比,确定配置参数或确定指标值的程序预计成本过高。在某些情况下,可以使用自动近似和估计(尤其是配置参数)以减少工作量。从理论上讲,没有实现的度量(R5)仍然是有价值的,但它们没有实际意义。(R5)在数据治理和数据质量管理非常重要。事实上,不满足R5的指标通常不适合用于数据质量评估的数据治理倡议,因为在这些倡议中采取的行动(如应用数据质量指标)的评估和成功最终将由经济效率决定。

4 指标要求的应用

本文通过评估文献(参考[12 13 14 15 16]).中的五个指标来证明本文的需求的适用性和有效性。本文选择了这些涵盖及时性、完整性、可靠性、正确性和一致性的指标,以提供对数据质量不同维度的广泛看法,并表明所提出的需求确实可以应用于信息系统中存储的数据视图和数据值的各个维度。为了使度量的评估更加透明和易于理解,本文参考了以下应用(参考[17]),在CRM邮件活动中,公司必须决定与哪些客户联系以获得新产品。对于数据库中的每个客户,公司有两种选择:A1:为活动选择客户,A2:不选择客户。可能的自然状态(取决于接受的概率)是s1:客户接受,或者s2:客户拒绝报价。在这种情况下应用数据质量度量的好处通常是不可忽略的。实际上,考虑到客户数据的质量将导致更好的决策。

4.1 Ballou等人的及时性指标(1998年)

Ballou等人提出的及时性数据质量指标定义如下:

数据质量指标要求(数据质量指标要求)(3)

数据值的参数年龄表示实际事件发生(即数据值在真实世界中创建的时间)与数据值的及时性评估之间的时间差。参数保存期限定义为所考虑属性值保持最新的最大时间长度。因此,参数保质期的值越高,则表示时间性度量值越高,反之亦然。s>0的指数会影响度量值对比率

的敏感性,必须根据专家估计确定。

4.2 Blake和Mangiameli的完整性指标(2011年)

Blake和Mangiameli的完整性指标定义如下。在数据值的级别上,当且仅当数据值为“空”时,数据值不完整(即,指标值为零);否则,它是完整的(即,指标值为1)。此处,表示特定应用程序方案中缺少或未知的所有数据值(例如空格或“9/9/9999”作为日期)由数据值“null”表示。关系中的元组定义为完整的,前提是当且仅当所有数据值都是完整的(即,其任何数据值都不是“null”)。对于关系R,设

为R中至少有一个“空”值的元组数,设NR为R中的元组总数,则R的完整性定义如下:

数据质量指标要求(数据质量指标要求)(4)

4.3 Yang等人的可靠性度量(2013)

Yang等人提出的可靠性数据质量度量是根据对n个同样重要的10个问题的答案来定义的,这些问题涉及给定数据集的可靠性(例如数据库)。特别是,问题i的答案用三角模糊数qi=(a1i,a2i,a3i)表示,其中

数据质量指标要求(数据质量指标要求)(5)

是问题i和ci∈[0;1]的满足度。数据集的可靠性由总分定义:

数据质量指标要求(数据质量指标要求)(6)

然后将该可靠性与三个模糊集中的一个相匹配,表示不同的可靠性水平。为了根据本文的需求评估这个指标,本文考虑了作者在决策支持背景下(如前面提到的CRM邮件活动)提出的方法,以消除上一方程式中的总得分。本文最常用的方法是质心法。常用的去模糊方法。在此基础上,给出三角形模糊数qi=(a1i,a2i,a3i),解模糊算子为:

数据质量指标要求(数据质量指标要求)(7)

数据集的非模糊可靠性定义为:

数据质量指标要求(数据质量指标要求)(8)

4.4 Hinrichs的正确性指标(2002年)

Hinrichs提出的正确性数据质量度量在数据值级别上定义如下:

数据质量指标要求(数据质量指标要求)(9)

这里,ω是要评估的数据值,ωm是对应的现实世界值,d是特定于领域的距离度量,例如欧几里得距离或汉明距离。ω和ωm之间的较大差异由距离函数的较大值表示,该值反过来导致较大的分母,从而导致较小的度量值。

4.5 Alpar和winkelsträter一致性度量(2014年)

alpar和winkelsträter定义的一致性度量定义如下:

数据质量指标要求(数据质量指标要求)(10)

其中r是一组关联规则(Agrawal等人1993);w (r)和w−(r)分别表示满足和违反关联规则的得分;w0(r)是不适用关联规则的得分(建议等于零)。一般来说,满足的关联规则有助于提高总分,而违反的规则会导致总分下降,得分较高的元组被评估为更一致。

5 实际意义

在本节中,本文讨论了需求的相关性和优先级,重点讨论了它们的实际含义。本文提供了(R1)和(R2)的组合分析,以及(R3)、(R4)和(R5)的单独讨论。下表总结了这些发现。

数据质量指标要求(数据质量指标要求)(11)

6 结论、局限性和未来研究

在本文中,本文提出了一组数据质量度量的五个需求,以支持不确定性下的决策和面向经济的数据质量管理。本文的要求对现有文献有两种贡献。首先,与现有方法不同的是,本文提出了一组明确定义的需求,从而可以轻松、透明地验证这些需求,而现有的方法是零碎的,并留有解释空间。这对于实际应用非常重要。第二,与现有工程相比,本文证明了本文的要求是合理的。基于完善的决策导向框架。如果缺少这样一个框架,就不可能证实需求的相关性,也不可能清楚如果不满足需求会发生什么。因此,本文的需求对于现有度量的评估以及新度量的设计(例如,在设计科学研究的背景下)是必不可少的。根据本文的要求,可以识别和改进不充分的指标,这些指标可能导致错误的决策和经济损失。通过五个著名的数据质量度量来证明所提出的需求的适用性和有效性。Blake和Mangiameli对完整性度量的应用揭示了满足所有需求的度量的存在。Ballou等人对度量的应用,Yang等人(2013年)、Hinrichs(2002年)、Alpar和Winkelstr_ter(2014年)表明,这些要求并不容易满足。从系统和实践的角度来看,这两个结果都是至关重要的。

提出的需求是支持不确定性下的决策和面向经济的数据质量管理的第一步,也是必不可少的一步。尽管如此,它们也有局限性。首先,它们是为有关数据视图的数据质量度量而设计的,因此,不直接考虑解决数据方案质量问题的数据质量度量。然而,在未来的研究中,需求派生的基础思想可以类似地转移到其他类型的数据质量度量中。此外,正如已经讨论过的许多其他需求集(例如,在软件工程的上下文中),不可能证明一组需求的完整性和充分性。实际上,扩展一组需求是一个迭代过程,应该同时考虑理论和实践方面。因此,未来的研究应该以一种有根据的方式扩展建议的需求集。

致谢

此文由南京大学软件学院2019级硕士汪汇翻译转述。

参考文献

[1] KPMG. 2016. Now or Never - 2016 Global CEO Outlook. Retrieved July 31 2017 from https://home.kpmg.com/content/dam/ kpmg/pdf/2016/06/2016-global-ceo-outlook.pdf.

[2] Forbes Insights. 2017. The Data Differentiator. How Improving Data Quality Improves Business. Forbes Media New York.

[3] Moore. 2017. How to Create a Business Case for Data Quality Improvement. Retrieved July 19 2017 from http://www. gartner.com/smarterwithgartner/how-to-create-a-business-case-for-data-quality-improvement/.

[4] IBM Big Data and Analytics Hub. 2016. Extracting Business Value from the 4 V’s of Big Data. Retrieved July 19 2017 from http://www.ibmbigdatahub.com/infographic/extracting-business-value-4-vs-big-data.

[5] Cappiello T. Di Noia B. A. Marcu and M. Matera. 2016. A quality model for linked data exploration. In International Conference on Web Engineering (ICWE’16). 397–404.

[6] Debattista S.Auer andC.Lange.2016.Luzzu—a methodology and framework for linked data quality assessment. Journal of Data and Information Quality (JDIQ) 8 1 4.

[7] SAS Institute. 2013. 2013 Big Data Survey Research Brief. SAS Institute Cary NC.

[8] Forbes Insights. 2017. The Data Differentiator. How Improving Data Quality Improves Business. Forbes Media New York.

[9] Y. Wang. 1998. A product perspective on total data quality management. Communications of the ACM 41 2 58–65.

[10] Laux. 2007. Decision Theory. Springer Gabler Wiesbaden (in German).

[11] S. Stevens. 1946. On the theory of scales of measurement. Science 103 2684 677–680.

[12] Ballou R. Wang H. Pazer and G. K. Tayi. 1998. Modeling information manufacturing systems to determine information product quality. Management Science 44 4 462–484.

[13] Hinrichs. 2002. Datenqualitätsmanagement in Data-Warehouse-Systemen. Dissertation. Universität Oldenburg.

[14] Blake and P. Mangiameli. 2011. The effects and interactions of data quality and problem complexity on classification. Journal of Data and Information Quality (JDIQ) 2 2 8.

[15] Yang D. Neagu M. T. D. Cronin M. Hewitt S. J. Enoch J. C. Madden and K. Przybylak. 2013. Towards a fuzzy expert system on toxicological data quality assessment. Molecular Informatics 32 1 65–78.v

[16] Alpar and S. Winkelsträter. 2014. Assessment of data quality in accounting data with association rules. Expert Systems with Applications 41 5 2259–2268.

[17] Even G. Shankaranarayanan and P. D. Berger. 2010. Evaluating a model for cost-effective data quality management in a real-world CRM setting. Decision Support Systems 50 1 152–163.

猜您喜欢: