配色: 字号:
第六章第四次作业
2017-06-26 | 阅:  转:  |  分享 
  






















数据查重去重解决方案



????本站提供的数据去重解决方案主要是为了清理信息系统中近似重复的企业信息(如客户数据,供应商数据等)。英文叫做:deleteduplicates,简写为:Dedupe.?????它区别于硬件存储厂商的重复数据删除概念,那些产品的目的是为了压缩或减少用于存储和备份的硬件空间。?????而我们的目的是保证数据一致性和正确性,来支持信息系统正确的决策和应用。?????另外,这也区别于单条数据的查询或搜索。我们所讨论的是大批量的数据匹配和数据去重。?

1.问题的提出和定义:

????在建造数据仓库,或者从不同信息系统间迁移数据的过程中,需要从各种数据源导入大量数据。这些数据中存在数据录入错误,或者同一对象在不同数据源中以不同的形式表示等数据质量问题,这将影响信息服务的质量(informationquality)。因此,一个重要的任务是通过数据清理(datacleansing),将数据转换为一致的形式,保证数据的正确性。数据清理主要涉及到数据映射(datamapping)、数据匹配(datamatching)和合并(datamerging/purging).通过映射,将数据格式标准化(dataStandardization);通过匹配,发现重复的记录;通过合并,保留或生成一个完整的记录。数据清理活动的核心是近似重复数据的识别。所谓近似重复数据,是指表现形式不同但语义上相同的数据,从狭义的角度来看,如果两条记录在某些字段上的值相等或足够相似,则认为这两条记录互为近似重复,我们称为重复记录或重复数据(duplicates)。为了提高数据质量,必须要查找重复数据和删除重复数据。这又叫做数据查重,或者数据去重。?

2.通常简单的解决方法:

????a)利用数据库SQL语句中的“distinct”或“Groupby”,来合并相同信息。速度快,无需人工参与。但只能除去完全相同的情况,相似的数据无法清理。?????b)排序记录,并对相邻的记录检查是否重复。只能筛选出少量问题数据,遗漏较多。?????c)人工将每一条记录与数据表中其他记录逐一比较。数据比对需耗费大量人工,效率低下。?

3.我们见过的较高级,复杂,有特点的解决方案:

????d)逐条数据用人工来找出关键字(企业的字号),然后在数据库中查询包含此关键字的数据。效率中等,遗漏少,准确度高。数据量大时仍耗费很多人工。?????e)数据之间两两比对,系统自动对相似度打分,并按照数据的相似度排序,然后由人工做最后的判断。依赖少量人工。打分算法的性能和准确性是此解决方案能否成功的关键。?????f)使用统计方法结合相似度打分的系统,全自动找出最可能的相似数据。目前看到的产品,速度挺快,但需依赖较多数据栏位的完整信息,也有一定的遗漏率和错误率。?????g)有一种数据清理和数据匹配的软件平台,用户可以在咨询顾问的帮助下自由配置规则。匹配时为每条数据找到第一个符合规则的记录,然后跳到下一条数据处理。这套系统速度很快,但很依赖于用户所创建的规则,因此匹配的准确率和遗漏率如果不满意,就是用户的规则没有设好了。?????h)某套系统自称能自动取出公司名称中的关键字(企业的字号)。并运用这个关键字配合电话或地址的一部分来自动去重。据说那套系统处理出来的数据,质量并不妙,因此那套系统应该还不是一个成熟的产品。?

4.关于本站的解决方案

????本站的解决方案,借鉴了各种老方法中的优势部分,并结合十多年数据清理项目中的经验,重新开发了数据匹配的引擎。经测试,本站的去重和匹配的引擎在性能和准确性方面都达到了新的境界。我们接下来还会不断调优这个引擎。市面上的同类数据匹配或数据去重工具,都没有提供实际的测试环境来让客户测试体验。我们搭建这个平台,希望弥补市场空白,欢迎大家踊跃试用,并多提宝贵意见和建议,帮助我们成长完善。

献花(0)
+1
(本文系时光静好你...首藏)