数据处理和分析离不开数据分析--检查源数据的内容和质量。随着数据越来越大,基础设施向云端转移,数据分析变得越来越重要。需要用有限的时间和资源实现大数据概要分析吗? 什么是数据分析?数据分析是审查源数据、理解结构、内容和相互关系以及确定数据项目潜力的过程。 数据分析是以下工作的关键部分:
数据分析包括:
数据分析的类型数据分析有三种主要类型: 结构发现验证数据的一致性和格式是否正确,并对数据执行数学检查(例如总和、最小值或最大值)。结构发现有助于了解数据的结构如何,例如,有多少百分比的电话号码没有正确的位数。 内容发现查看单个数据记录以发现错误。内容发现标识表中哪些特定行包含问题,以及数据中出现哪些系统性问题(例如,没有区号的电话号码)。 关系发现发现部分数据是如何相互关联的。例如,数据库表之间的键关系、电子表格中单元格或表之间的引用。理解关系对于重用数据至关重要;相关的数据源应该合并成一个数据源,或者以保留重要关系的方式导入。 数据分析步骤数据分析的有效过程数据仓库体系结构之父Ralph Kimball提出了数据分析的四个步骤:
数据分析和数据质量分析最佳实践基本数据分析技术:
高级数据分析技术:
6数据分析工具开源和商用数据分析是一项繁琐且劳动密集型的活动,可以通过工具实现自动化,从而使大型数据项目更加可行。这些对于数据分析堆栈来说是必不可少的。 开源数据分析工具 1. QuaClient DataCleaner的主要功能包括:
2. Aggregate Profiler(开源数据质量和分析)-主要功能包括:
3.Talend Open Studio—一套开源工具,数据质量功能包括:
4.Informatica中的数据分析主要功能包括:
5.Oracle Enterprise Data Quality的主要功能包括:
6.SAS DataFlux的主要功能包括:
基于云的数据管道中的数据分析:对速度的需求如本文所述,传统的数据分析是数据工程师在将数据接收到数据仓库之前和期间执行的一项复杂活动。在数据准备好进入管道之前,会对其进行细致的分析和处理(部分自动化)。 如今,越来越多的组织正在将数据基础设施移动到云上,并发现只要点击一个按钮,数据摄取就可以发生。云数据仓库、数据管理工具和ETL服务与数百个数据源进行了预集成。但是,如果您可以单击一个按钮并将数据立即移动到目标系统中,那么数据分析呢? 数据分析比以往任何时候都更为重要,大量数据流经大数据管道,非结构化数据盛行。在基于云的数据管道体系结构中,您需要一个自动化的数据仓库,它可以自己处理数据分析和准备工作。与使用数据分析工具分析和处理数据不同,只需将数据倒入自动化数据仓库,它就会被自动清理、优化,并为分析做好准备。 由【超级工程师】编译,全网同号。 本文:http:///node/1474 |
|
来自: shawnsun007 > 《概念术语》