配色: 字号:
大数据分析理论和技术(2)
2022-05-04 | 阅:  转:  |  分享 
  
大数据分析理论和技术(2)

胡经国





目前,大数据分析是一个非常热门的行业。虽然,大数据分析行业尚处于发展初期,但是它是一个快速发展的领域,每时每刻都在产生新的变化。下面谈谈大数据分析行业的五大发展趋势。数据分析挖掘体系

总体而言之,数据分析挖掘体系可分为数据预处理、分析挖掘、数据探索、分析工具和数据展现五个部分。数据预处理

数据预处理包括:数据清洗、数据集成、数据变换和数据规约几种方法。数据清洗

包括缺失值处理和异常值处理数据集成

包括同名同义、异名同义、单位不统一的实体识别和冗余性识别。数据变

包括函数变换、规范化、连续属性离散化、属性沟通和小波变换。数据规约

包括属性规约和数值规约。分析挖掘

分析挖掘的内容较多包括假设检验、方差分析、回归分析、主成分分析、因子分析、典型相关分析、对应分析、多维尺度分析、信度分析、生存分析、分类预测、聚类分析、关联规则算法、时间序列分析和著名的灰色理论。其中,后面几个应用较多。分类预测方法

包括决策树、神经网络、支持向量机SVM)、Logistic回归、判别分析和贝叶斯网络。聚类分析

包括K-Means聚类、Kohonen网络聚类、两步聚类和层次聚类。关联规则算法Apriori算法、GRI算法和Carma算法。时间序列分析

包括:简单回归分析法。趋势外推法

是指数平滑法、自回归法、ARIMA模型、季节调整法。灰色理论

分为灰色关联和灰色预测。数据探索

数据探索主要分为两大类:数据质量分析和数据特征分析。数据质量分析

包括缺失值分析、异常值分析和一致性分析。数据特征分析

包括分布分析、对比分析、统计量分析、周期性分析、贡献度分析和相关性分析。分析工具

常用的分析工具如下

Excel、Clementine、Eviews、R语言、Matlab、Stata、SAS、Tableau、报表工具FineReport、商业智能FineBI数据展现

在数据展现方面要做的内容可分为图表制作和数据分析报告的撰写图表制作可以用柱形图、条形图、折线图、饼图、面积图、雷达图、散点图等等。其展现的方式可以是单图,组合图,多图搭配的dDashboard或者深入分析的联动钻取等。







4







献花(0)
+1
(本文系胡经国图书...原创)