数据开放和数据共享区别(开放数据质量测量框架)
数据开放和数据共享区别(开放数据质量测量框架)本文由南京大学软件学院2018级硕士张舒翻译转述。目前文献中关于OGD质量问题的方法缺乏全面的理论框架。此外,大多数评估都集中在开放数据平台上,而不是数据集上。在这项工作中,我们解决了这两个限制,并提供了一个测量框架来定量评估OGD的质量。我们通过将其应用于来自两种不同披露策略的OGD样本来测试框架的适用性:1.集中的,即在国家层面监测,数据汇集来自多个区域来源,并且存在数据质量过程,2.分散的,具有较低的质量。在同一领域选择一组市政当局的数据。我们观察了两种比较释放策略之间的共同模式和差异。这些指标能够显示作为优质OGD示例的集中数据的好处,以及源自我们分析的分散数据披露样本的质量问题。我们还提供了改进特定质量方面的开放政府数据的指导方针和参考资料,这些资料可能对那些由于相关成本相关而无法系统地应用数据质量过程的主管部门有用,并作为有用的指示。也用于未来的研究。正在进行的进一步工作旨在了
引用Morando F Iemma R Torchiano M et al. Open Data Quality Measurement Framework: Definition and Application to Open Government Data[J]. Government Information Quarterly 2016 33(2):325-337.
摘要近年来开放政府数据(OGD)的传播速度非常快。然而,证据实施者表明,在没有适当质量控制的情况下披露数据可能会危害数据集的重用,并对公民参与产生负面影响。目前解决文献中问题的方法缺乏全面的理论框架。此外,大多数评估都集中在开放数据平台上,而不是集中在数据集上。在这项工作中,我们解决了这两个局限,并建立了一个指标框架,以便在最细粒度的一系列数据质量维度上衡量开放政府数据的质量。我们对评估框架进行了评估,将其用于比较意大利OGD数据集的两个案例:一个国际公认的OGD良好示例,采取了集中披露和大规模的数据质量控制,以及分散的数据披露(市政级别)的样本,没有可能如同前一种情况下进行了广泛的质量控制,因此质量较低。从基于质量框架的测量开始,我们能够验证质量的差异:这些措施显示了一些常见的良好做法和弱点,以及一系列与数据集类型和整体方法有关的区别因素。在此评估的基础上,我们还提供了技术和政策指导方针,以克服分散发布政策中存在的弱点,解决具体的质量问题。
介绍开放数据是“可以出于任何目的由任何人自由使用,修改和共享”的数据。与专有框架相比,开放数据等数字公共区域的特征从法律和技术角度来看,对其循环和重用具有较低的限制。这一特征应该最终促进合作,创造和创新。在所有行政层面,公共部门是信息的主要产品和持有者之一,其范围包括地图公司注册等。在过去的几年中,世界各地公共行政部门发布的公开数据的数量和种类都在不断增长(例如,开放知识基金会的OpenData普查),同时提高了政治意识。关于这个问题的政治意识的提高已被转化为监管,包括2013年欧盟公共部门信息重用指令的修订,以及国家路线图和技术指南。将公共部门信息作为开放数据发布可以提供可观的附加值,满足各种行为者的需求,从公司到非政府组织,从开发人员到简单公民。
下一步是从SPDQM中选择质量特征的子集以及这些特征的度量的定义。关于从SPDQM定义的全套中选择质量特征子集,我们使用了作者先前进行的调查的结果。我们收集了15位开发人员的答案,我们在调查问卷中重点关注了两个项目。分析项目(“您发现哪些问题与开放数据一起工作?”,“您希望改进哪些方面的数据质量?”)收集从业人员报告的问题。我们从答案开始构建了一个最常见问题的完整列表,并将它们映射到SPDQM的数据质量特征。虽然这种方法具有有限的普遍性,但与仅基于研究团队的个人信仰的选择相比,这种方法的偏见要小得多。
关于指标的定义,我们依赖Kaiser,Klier和Heinrich(2007)的原则:
- 可衡量性:应该对指标进行标准化,并至少缩放间隔。
- 可解释性:指标必须易于理解。 他们的定义应该有适量的信息才能被解释。
- 聚合:应该可以在属性级别以及元组,数据集或数据库级别量化数据质量。 通过这种方式,度量在所有级别上都具有语义一致性。 此外,度量应该允许在特定级别的值聚合,以便在更高级别获得度量。
- 可行性:为了使度量以实用的方式适用,它们应该基于可确定的输入参数并且优选地是自动化的。
除了这些指标之外,当度量基于定量度量时,或者基于用户的定性评估(如调查)时,可以将度量分类为客观的,或主观的。 在这项工作中,我们将更加重视量化指标:量化指标对于三角测量很重要,评估基于定性测量,如问卷调查或专家意见,这些评估受到主观性和不一致性的影响。 有了这些所需要求的清单,我们搜索了所选SPDQM特征满足它们的指标,当没有找到指标时,我们从头开始制定它。 此外,如果可能,这是以数据集的单元格作为度量单位进行的,否则,度量在数据集级别。 我们考虑了质量特性的定义,并尽可能考虑了开发人员报告的问题类型。
表2总结了调查中出现的问题类型,并将其与SPDQM的数据质量特征联系起来。通过比较特征的定义和开发人员强调的问题来实现映射。在涉及这项工作的四位作者的会议上商定了分类。部分映射非常简单:“不完整数据”,“缺乏数据源可追溯性”,“不一致数据”,“错误”和“高时间理解数据”等问题非常适合SPDQM的质量特性。对于其他映射,必须花费更多的单词。问题“过时数据”可能同时涉及时间有效性和数据过时,因此表2中提到了期限和当前性。必须就“缺少元数据”问题进行一些讨论。调查问卷的答案表明,开发人员遇到了可理解性问题。在我们的理论中,这是由于元数据不佳而无法提供有用的指导。虽然我们无法测试这种因果关系,但我们认为将代码“缺少元数据”映射到可理解性是安全合理的。此外,由于开放政府数据集中存在元数据标准,“缺乏元数据”也会映射到合规性。最后,“格式不符合众所周知的标准”的问题没有明确的相应质量特征:我们还将其映射到合规性,我们测量它与Tim Berners-Lee的五星开放数据格式方案(2006年) )。表3包含我们为每个选定的质量属性定义的指标,报告名称和描述。
结论目前文献中关于OGD质量问题的方法缺乏全面的理论框架。此外,大多数评估都集中在开放数据平台上,而不是数据集上。在这项工作中,我们解决了这两个限制,并提供了一个测量框架来定量评估OGD的质量。我们通过将其应用于来自两种不同披露策略的OGD样本来测试框架的适用性:1.集中的,即在国家层面监测,数据汇集来自多个区域来源,并且存在数据质量过程,2.分散的,具有较低的质量。在同一领域选择一组市政当局的数据。我们观察了两种比较释放策略之间的共同模式和差异。这些指标能够显示作为优质OGD示例的集中数据的好处,以及源自我们分析的分散数据披露样本的质量问题。我们还提供了改进特定质量方面的开放政府数据的指导方针和参考资料,这些资料可能对那些由于相关成本相关而无法系统地应用数据质量过程的主管部门有用,并作为有用的指示。也用于未来的研究。正在进行的进一步工作旨在了解度量标准显示的问题是否能够预测开发人员在重用数据时遇到的问题。最后,未来的工作将侧重于使框架也适用于非表格数据,并确定其他内在质量特征的指标。例如,为框架选择的特征和相关度量标准无法检测数据集中的冗余值和重复值,也无法检测特定数据格式的正确性。此外,无法根据某些特性进行评估,例如由于某些因素而无法仅使用手头的数据集计算的当前性会损害框架的适用性,并且可能需要修改。本研究的长期目标是将数据质量框架提升到一个水平,在这个水平上,它可以变成一个工具,根据不同的特征自动评估数据集的质量,从而可以在集合之前加强负面影响。
致谢本文由南京大学软件学院2018级硕士张舒翻译转述。
参考文献[1] Aichholzer G. & Burkert H. (2004). Public sector information in the digital age: Between markets public management and citizens' rights. Edward Elgar Publishing.
[2] Alexopoulos C. Loukis A. & Charalabidis Y. (2014). A platform for closing the open data feedback loop based on Web2. 0 functionality. Journal of Democracy and & Open Government 6(1).
[3] Allison B. (2010). My data can't tell you that. In D. Lathrop & L. Ruma (Eds.) Open government — Collaboration trasparency and participation in practice (pp. 257–265). O'Reilly Media Inc.
[4] Atz U. (2014). The tau of data: A new metric to assess the timeliness of data in catalogues. Proceedings of the International Conference for E-Democracy and Open Government (CeDEM2014) Krems Austria.
[5] Ballou D. P. Wang R. Y. Pazer H. & Tayi G. K. (1998). Modeling information manufacturing systems to determine information product quality. Management Science 44(4).
[6] Detlor B. Hupfer Maureen E Ruhi U. & Zhao L. Information quality and community municipal portal use Government Information Quarterly Volume 30 Issue 1 January 2013 Pages 23-32 http://dx.doi.org/10.1016/j.giq.2012.08.00 (ISSN 0740-624X).
[7] English L. (1999). Improving data warehouse and business information quality. Wiley & Sons. Even A. & Shankaranarayanan G. (2009). Utility cost perspectives in data quality management. The Journal of Computer Information Systems 50(2) 127–135.
[8] Ferro E. & Osella M. (2013). Eight business model archetypes for PSI re-use. “Open data on the web” workshop Google campus London. Haug A. Pedersen A. & Arlbjørn J. S. (2009). A classification model of ERP system data quality. Industrial Management & Data Systems 109(8) 1053–1068. http://dx.doi. org/10.1108/02635570910991292.
[9] Heinrich B. (2002). Datenqualitätsmanagement in Data Warehouse-Systemen. (doctoral thesis Oldenburg). Heinrich B. Klier M. & Kaiser M. (2009). A procedure to develop metrics for currency and its application in CRM. Journal of Data and Information Quality 1(1) 5.
[10] Helbig N. Nakashima M. & Dawe Sharon S. (June 4–7 2012). Understanding the value and limits of government information in policy informatics: A preliminary exploration. Proceedings of the 13th Annual International Conference on Digital Government Research (dg.o2012).
[11] Hofmokl J. (2010). The Internet commons: toward an eclectic theoretical framework. International Journal of the Commons 4(1) 226–250. Iemma R. Morando F. & Osella M. (2014). Breaking public administrations' data silos. eJournal of eDemocracy & Open Government 6(2).
[12] Janssen M. Charalabidis Y. & Zuiderwijk A. (2012). Benefits adoption barriers and myths of open data and open government. Information Systems Management 29(4) 258–268. Vassiliou Y. (1995). In M. Jarke M. Lenzerini & P. Vassiliadis (Eds.) Fundamentals of data warehouses. Springer Verlag.
[13] Jeusfeld M. Quix C. & Jarke M. (1998). Design and analysis of quality information for datawarehouses. Proceedings of the 17th International Conference on Conceptual Modeling.
[14] Kaiser M. Klier M. & Heinrich B. (2007). “How to measure data quality? — A metric- based approach” (2007). ICIS 2007 Proceedings. Paper 108.
[15] Kim W. (2002). On three major holes in data warehousing today. Journal of Object Technology 1(4) 39–47. http://dx.doi.org/10.5381/jot.2002.1.4.c3.
[16] Kuk G. & Davies T. (2011). The roles of agency and artifacts in assembling open data complementarities. Thirty Second International Conference on Information Systems.
[17] Madnick S. Wang R. & Xian X. (2004). The design and implementation of a corporate householding knowledge processor to improve data quality. Journal of Management Information Systems 20(1) 41–49.
[18] Maurino A. Spahiu B. Batini C. & Viscusi G. (2014). Compliance with Open Government Data Policies: an empirical evaluation of Italian local public administrations. Twenty Second European Conference on Information Systems Tel Aviv.
[19] Mayer-Schönberger V. & Zappia Z. (2011). Participation and power: intermediaries of open data. 1st Berlin Symposium on Internet and Society.
[20] Moraga C. Moraga M. Calero C. & Caro A. (2009). SQuaRE-aligned data quality model for web portals. Quality Software 2009. QSIC’09. 9th International Conference on (pp. 117–122).
[21] Naumann F. (2002). Quality-driven query answering for integrated information systems. Lecture Notes in Computer Science 2261.
[22] Redman T. (1996). Data quality for the information age. Artech House.
[23] Reiche K. & Hofig E. (2013). Implementation of metadata quality metrics and application on public government data. Computer software and applications conference workshops (COMPSACW) 2013 IEEE 37th annual (pp. 236–241).
[24] Sachs L. (1982). Applied statistics. A handbook of techniques. New York — Heidelberg — Berlin: Springer-Verlag (734 pp. 59 figs. DM 118 -).
[25] Sande M. V. Dimou A. Colpaert P. Mannens E. & Van de Walle R. (2013). Linked data as enabler for open data ecosystems. Open data on the web 23–24 April 2013 Campus London Shoreditch.