摘要开放数据集的数据质量存在不确定性,这对其可能产生的价值构成威胁。现有的数据质量管理方法通常基于组织内部的数据集,具有已知的元数据和数据语义的相关领域知识,然而用户对开发数据不熟悉且缺乏元数据。本研究报告的目的是概述处理开放数据集的数据质量所面临的挑战,并为未来的研究制定计划,以解决这一风险,从开放数据投资中获取价值。 1. 引言开放数据是政府、组织、研究人员等免费提供的数据,可以没有版权限制地供任何人使用。过去数年间公开数据集的增加和数据市场的出现为政府、企业和企业家提供了前所未有的机会,他们可以利用数据的力量获得经济、社会和科学收益。数据驱动型创新可以通过开放数据实现经济和社会收益。 虽然开放数据竞赛已经在初创企业和应用程序方面取得了一些成功,但也有一些证据表明开放数据集的价值仍然未被完全开发, 这主要是因为使用数据前缺乏对数据质量特征的了解。此外,元数据和数据集的潜在数据质量是有缺陷的。比如,许多开放数据集的数据有重复、不一致和缺失的情况,并且通常缺少易于访问的模式描述。案例有MusicBranz.org开放数据集,它由324个无模式CSV文件组成,数据量为35.1GB。由对开放数据集的分析表明开放数据中存在许多此类问题。比如,在公共交通数据中,公交车站名称的数据一致性较低,这严重影响需要分组或搜索车站名称的数据的使用,例如时间表和交通监控。类似地,如图1所示,美国枪支犯罪者数据库中可以找出若干个数据质量问题。 数据集的价值一定是与数据的潜在质量有关的,但它们在概念上是不同的。例如,一份完整准确的亚洲所有国家名单可能没有太大价值。然而,来自公共交通工具的不完整和嘈杂的GPS数据可能对交通工程师和城市规划者有很高的感知价值。在处理如此庞大和未知的数据集时,用户可能会经历很长的查询处理时间,并在此过程中意识到获得的结果质量很差。或者,用户可能没有意识到数据质量不够,从而影响根据查询结果做出的任何后续决策。 尽管存在这些问题,越来越多的人倾向于将大量的外部和内部数据收集到所谓的数据池中,这些数据池通常被称为企业数据管理平台,用于存储、组织和分析来自多个不同来源(包括开放数据源)的数据。尽管人们对大数据现象的兴趣越来越高,但多年的信息系统使用研究经验表明,“更多使用更好”的假设显然不正确。随着开放数据集和数据源数量以指数级的速度持续增长,这给数据消费者留下大量未经探索、不熟悉的数据集,他们可能会也可能不会产生有价值的见解。因此,各组织开始面临“暗数据”综合症,很大一部分信息资产未得到充分利用。如果没有科学可靠的知识能够有效地评估数据的基本质量特征,组织和政府将积累大量低价值的数据、落入分析陷阱,投资ROI值(投资回报率)低的数据风险很大。 在本文中,我们首先概述了数据质量评估的最新进展,强调了应用这些技术评估开放数据空间中具有典型特征的数据集的质量所面临的挑战,并思考这些挑战如何破坏从开放数据使用中产生价值的能力,提出未来研究的计划,以便对开放数据的“使用质量”动态进行必要的了解。 2. 数据质量评估研究人员和从业者已经对数据质量进行了广泛的研究。数据质量维度如准确性、完整性、一致性,是数据质量定义和测量的基本概念。在大多数(如果不是全部的)数据质量管理项目中,评估数据集的质量是一项基本任务。数据质量通常根据特定的要求进行评估。过去20年的数据质量研究都是基于这一适用性的基本原则。因此现有的数据质量管理方法自然是自上而下的,其中,数据质量要求是根据充分理解的使用要求以自上而下的方式确定的,并使用良好的数据治理实践加以实施。 Batini等人(2009)对现有的数据质量评估和需求识别方法进行了全面分析,认为这些方法通常包括三个核心方面:数据和过程分析,数据质量需求分析,数据质量分析。数据和流程分析包括检查数据模式、进行访谈和与数据用户会面,以完全了解数据、相关约束和规则,以及创建或使用数据的流程。数据质量需求分析通常包括对数据用户和管理员的调查,以确定质量问题,旨在确定关键数据集、定义数据质量度量和设置质量目标。数据集探索、评估和分析一般根据定义好的数据质量度量进行,然后数据质量分析与这些活动相关。 对数据质量评估和需求识别的显著贡献有如下这些:Lee.Strong、Kahn和Wang提出了一种由PSP/IQ模型(信息质量的产品和服务性能模型)、信息质量评估(IQA)方法和信息质量(IQ)差距分析技术三个部分组成的数据质量评估和改进方法,通过用户调查对信息质量进行评估。同样,Naumann和Rolker提出了一种基于IQ分数来源的新的IQ标准分类,即对用户、数据源和评估信息的查询过程的感知。评估方法中,个人用户的体验和他们对某些标准的理解都是主观的。例如,“可解释性”和“简要表达”标准都是“用户抽样”的评估方法。然而在某些应用的上下文中,简要表达受到行业规则的约束,因此数据的可解释性程度取决于单个用户的感知。 很明显,这些方法中的大多数(如果不是全部)都遵循以用户为中心、自上而下的方法,在这些方法中,探索数据之前要先从用户那里获得需求。这种方法涵盖了很多方面,但一定要与特定公司的组织设置和数据治理环境绑定在一起,使它们对外部不熟悉的数据集的评估无效。在当前的数据环境中,用户面临着新的、未开发的、潜在的大型数据集,这些数据集可以说具有相关性和对业务的感知价值。在这种情况下,应用自上而下的方法是不可行的。用户需要获得探索性功能的授权,这将允许他们调查数据集的质量,并自然而然地调查其使用的影响。现有的两个领域考虑了自下而上的数据质量评估方法——数据探查和数据剖析。 过去十多年间有很多关于数据探查的研究用统计方法揭露了数据的事实。通过这些事实来制定质量标准,进而评估质量,再通过数据清理提高数据质量。Dasu和Johnson(2003)提供了一份当时数据勘探统计方法的综合清单,尽管他们强调了将这些方法用于数据质量问题检测的可能性,但对任意数据集探索方法或指南仍然很缺乏。 数据剖析是数据探查的一个相关概念,它具有重要的商业工具市场。Gartner(Friedman,2013)估计,到2012年底,该市场的收入达到9.6亿美元。大约50%的市场由几家大型的成熟供应商主导,如IBM、Informatica、Pitney Bowes、SAP和SAS。剩下的50%被分配给了大量的供应商,包括Microsoft、Oracle、Talend、Ataccama、Human Inference和Experian QAS等等。这些剖析工具集中关注很多功能,包括数据的分布统计分析、冗余检查、故障检测、功能依赖性分析、列相关性分析、有效性检查等。这些工具通常不附带如何将剖析报告用于确定可操作的数据质量要求的指南。 虽然根据特定维度,比如数据质量剖析(Abedjan, Golab, & Naumann, 2015)、统计方法(Dasu & Johnson, 2003)以及通过发现数据依赖性约束 (Fan & Geerts, 2012)来评估数据质量来进行数据质量测量的研究已经有了一些成果,但这些解决方案仅针对特定的维度(如一致性或新鲜度),只根据一个维度不足以准确完整地描述跨越大量维度的整个数据的质量(Jayawardene et al., 2013)。此外,这些解决方案通常以数据分布(Dasu&Johnson,2003年)、阈值(Song&Chen,2011年)和概率(K_hler,Link,&Zhou,2015年)等与某些元数据的可用性相关假设为基础,这些假设可能不适用于开放数据集。 3. The need for change以前有很多成功的评估并有效地将数据用于商业结果的方法,开放式数据的创建、访问和使用的特定设置会使许多方法不可用。然而,“垃圾进,垃圾出”这句古老的格言仍然存在重大的风险,对有效使用开放数据实现创新和提高生产力方面有负面影响或令人望而却步的延迟。我们认为,要实现信息社会开放数据的价值主张,就必须把注意力集中在三个关键的研究领域。 3.1. Shared understanding of data quality dimensions 最近有几项研究分析了选定开放数据集的数据质量,尽管数据质量维度和指标不同 (Rekatsinas, Dong, Getoor, & Srivastava, 2015),他们指出了与上文所写类似的问题。评估数据质量之前,其在上下文中的使用在很大程度上是未知的,需要有用通用的方式声明要评估的数据质量维度的能力。尽管数据质量维度的概念是非常基础的,但有证据表明,在几十年的数据质量研究中,基本定义已经有了很多重叠和矛盾,从而对在通用级别上对数据质量维度进行推理产生障碍。Jayawardene et al. (2013) 已经将来自学术界、从业者和产业界的大量定义整合到了一个由广泛的使用案例和示例库(来源于学术界和产业界文献)支持的33种数据质量模式(Sadiq, Jayawardene, &Indulska, 2015) 的库中,并对其完整性和应用性进行了验证。尽管综合的数据质量维度对过去20年的数据质量研究和实践进行了统一,但在数据提供者和消费者组成的庞大而多样的群体中发展共同理解仍然是一项重要的工作。对如何定义数据质量以及如何使用数据质量进行推理缺乏共同理解,会妨碍协同处理开放数据社区内零碎和孤立的行为的数据质量的工作。此外,我们初步的研究工作表明,人们对各种国际开放数据门户数据集中数据质量问题的规模和影响缺乏了解。因此,我们认为在努力解决问题之前需要进行一项全球研究,使用一致的比较基准,以探索问题的严重程度。 3.2对质量感知的支持 使用开放数据相关的最大风险之一是对数据的固有质量缺乏认识。人们使用开放数据的目的经常与搜集数据时的计划不一样,因此一个数据集对实现某一个目的来说质量可能是足够好的,但它不一定适合完成另一个目的。开放数据的消费者通常不是生产者,因此没有明确的数据清理策略,而这通常会导致错误的数据处理和转换方式 (Arocena et al., 2016)。因此,开放数据的消费者可能会投入大量精力,想从数据中产生有价值的结果,但最后只能得到不充分的结果,或者他们甚至可能没有意识到数据本身的质量很差,并且依据错误的结果做出判断。我们认为,迫切需要一些探索性的工具和方法让用户了解在其期望的用途方面数据的缺点。已经有一些质量感知的查询系统 (Yeganeh et al., 2014)、探索和可视化方法 (Ehsan, Sharaf, & Chrysanthis, 2016)和理解数据和模式属性(Kruse, Papenbrock, Harmouch, & Naumann, 2016)的方法被开发出来了。然而,在向用户提供足够的质量感知支持之前,技术和经验研究人员仍面临许多公开的挑战。 3.3加强“质量-使用”关系 数据质量、使用意图和数据的有效使用之间的关系在学术文献中还未被探索。我们认为,有必要进行理论开发和经验测试,以确定影响开放数据使用有效性的环境和因素,进而从开放数据中获得价值。探索这些因素的研究将为实际的开放数据项目提供有价值的指导。虽然最近的一些工作涉及信息系统环境中的有效使用(Burton Jones & Grange, 2012),但它们的重点是系统而不是数据的有效使用。这些系统还包含组织所知的数据,而不是开放(不熟悉)的数据,因此,目前关于信息系统环境有效使用的理论无法解释开放数据的有效使用。 4结论在本文中,出于缺乏理解、甚至没有能力理解可用开放数据潜在的质量,我们对其数量提出了质疑,我们概述了三个需要研究和开发的领域,以进一步构建有效使用开放数据的知识体系。这些挑战需要跨研究社区的信息系统、计算机科学、统计学、社会科学和商业,以及管理开放数据的机构等等跨学科团队的支持。 致谢此文由南京大学软件学院18级硕士严格翻译转述。 参考文献Abedjan, Z., Golab, L., & Naumann, F. (2015). Profiling relational data: A survey. The VLDB Journal The International Journal on Very Large Data Bases, 24(4), 557–581. Abiteboul, S., Dong, L., Etzioni, O., Srivastava, D., Weikum, G., Stoyanovich, J., et al.(2015). The elephant in the room: Getting value from Big Data. Proceedings of the 18th international workshop on web and databases. Arocena, P. C., Glavic, B., Mecca, G., Miller, R. J., Papotti, P., & Santoro, D. (2016). Benchmarking data curation systems. IEEE Data Engineering Bulletin, 39(2), 47–62, 2016. Batini, C., Cappiello, C., Francalanci, C., & Maurino, A. (2009). Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR), 41(3), 16. Belkin, R., & Patil, D. J. (2016). Everything we wish we’d known about building data products (Accessed 16 February). http:///review/everything-we-wish-wed-known-about- building-data-products/ Burton-Jones, A., & Grange, C. (2012). From use to effective use: A representation theory perspective. Information Systems Research, 24(3), 632–658. Curry, M. (2010). The value density of information.. September 14, (Accessed 16 February 2016). https://mikecurr55./2010/09/14/the-value-density-of-information/ DATA.GOV. (2015). Gun offenders. December 17. http://catalog./dataset/gun-offenders Dasu, T., & Johnson, T. (2003). . Exploratory data mining and data cleaning (Vol. 479)John Wiley & Sons. Duus, R., & Cooray, M. (2016). The future will be built on open data – Here’s why..February 6, (Accessed February 16). http:///the-future-will-be-built-on-open-data-heres- why-52785 Ehsan, H., Sharaf, M. A., & Chrysanthis, P. K. (2016). MuVE: Efficient multi-objective view recommendation for visual data exploration. ICDE. Elbaz, G. (2012). Data markets: The emerging data economy.. September 30, (Accessed 16 February). http:///2012/09/30/data-markets-the-emerging-data-economy/English, L. P. (2009). Information quality applied: Best practices for improving Business information processes and systems. Wiley Publishing. Fan, W., & Geerts, F. (2012). Foundations of data quality management. Synthesis Lectures on Data Management, 4(5), 1–217. Friedman, T. (2013). Magic quadrant for data quality tools. Gartner Group. ISO. (2011). ISO/TS 8000-1 Data quality part 1: Overview. ISO. Jayawardene, V., Sadiq, S., & Indulska, M. (2013). The curse of dimensionality in data quality. ACIS 2013: 24th Australasian conference on information systems. Johnston, H. R., & Carrico, S. R. (1988). Developing capabilities to use information strategically. MIS Quarterly, 37–48. Juran, J. M., Gryna, F. M., & Bingham, R. S., Jr. (1974). Quality control handbook, 1974. McGraw-Hill Book Company. Chapters 9:22. Köhler, H., Link, S., & Zhou, X. (2015). Possible and certain sql keys. Proceedings of the VLDB Endowment, 8(11), 1118–1129. Kruse, S., Papenbrock, T., Harmouch, H., & Naumann, F. (2016). Data anamnesis: Admitting raw data into an organization. Bulletin of the Technical Committee on Data Engineering, IEEE Computing Society, 39(June (2)). Lee, Y. W., Strong, D. M., Kahn, B. K., & Wang, R. Y. (2002). AIMQ: A methodology for information quality assessment. Information & Management, 40(2), 133. Loshin, D. (2001). Enterprise knowledge management: The data quality approach. San Francisco, Calif and London: Morgan Kaufmann and Brace Harcourt. McGilvray, D. (2008). Executing data quality projects: Ten steps to quality data and trusted information TM. Elsevier. Naumann, F., & Rolker, C. (2000). Assessment methods for information quality criteria. O’Reilly, C. A. (1982). Variations in decision makers’ use of information sources: The impact of quality and accessibility of information. Academy of Management Journal, 25(4), 756–771. (2014) . Deciding with data. Australia: PricewaterhouseCoopers. September. https://www.pwc. com.au/consulting/assets/publications/data-drive-innovation-sep14.pdf Queensland Government.(2016). Queensland Government data.. Last accessed on 25th October 2016. https://data./case-studies Redman, T. C., & Blanton, A. (1997). Data quality for the information age. Artech House Inc. Rekatsinas, T., Dong, X. L., Getoor, L., & Srivastava, D. (2015). Finding quality in quantity: The challenge of discovering valuable sources for integration. CIDR. Sadiq, S., Yeganeh, N. K., & Indulska, M. (2011). 20 years of data quality research: themes, trends and synergies. Proceedings of the twenty-second Australasian database conference-volume 115. Sadiq, S., Jayawardene, V., & Indulska, M. (2015). Data quality patterns. (Accessed 16 February 2016). http://dke./DataQualityPatterns/ Sadiq, S. (2013). Handbook of data quality. Springer. Seddon, P. B. (1997). A respecification and extension of the DeLone and McLean model of IS success. Information Systems Research, 8(3), 240–253. Silver, N. (2012). The signal and the noise: Why so many predictions fail-but some don’t. Penguin. Song,S., & Chen, L. (2011). Differential dependencies: Reasoning and discovery. ACM Transactions on Database Systems (TODS), 36(3), 16. Stamford, Conn. (2014). Gartner says beware of the data lake fallacy.. July 28. http://www./newsroom/id/2809117 Tittel, E. (2014). The dangers of dark data and how to minimize your exposure..September 24, (Accessed 16 February, 2016). http://www./article/2686755/data-analytics/the-dangers-of- dark-data-and-how-to-minimize-your-exposure.html Yeganeh, N. K., Sadiq, S., & Sharaf, M. A. (2014). A framework for data quality aware query systems. Information Systems, 46, 24–44. Zhang, R., Jayawardene, V., Indulska, M., Sadiq, S., & Zhou, X. (2014). A data driven approach for discovering data quality requirements. In ICIS 2014: 35th international conference on information systems. |
|
来自: blackhappy > 《我的图书馆》