分享

大数据时代,数据分析师眼中最理想的数据分析技术是R语言么

 xxcc140 2017-07-28

R语言是一款优秀的开源统计应用语言,它直观、易用、低成本,而且还有庞大的社区支持,随着数据挖掘技术的兴起,R 语言得到了广泛的应用。今天我们从两个角度讨论一下R语言是否是数据分析的最理想技术。

1、数据分析的前期准备有哪些?

(1)数据清理:数据清理是数据准备过程中最花费时间、最乏味,但也是最重要的步骤。该步骤可以有效减少学习过程中可能出现相互矛盾情况的问题。初始获得的数据主要有以下几种情况需要处理:含噪声数据、错误数据、缺失数据、冗余数据。

(2)数据集成:数据集成是一种将多个数据源中的数据(数据库、数据立方体或一般文件)结合起来存放到一个一致的数据存储(如数据仓库)中的一种技术和过程。由于不同学科方面的数据集成涉及到不同的理论依据和规则,因此,数据集成可以说是数据预处理中比较困难的一个步骤。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

(3)数据转换:数据变换是采用线性或非线性的数学变换方法将多维数据压缩成较少维数的数据,消除它们在空间、属性、时间及精度等特征表现的差异。这类方法虽然对原始数据通常都是有损的,但其结果往往具有更大的实用性。数据转换的方法有数据平滑、数据聚集、数据概化、数据规范化、属性构造等。

(4)数据归约:数据经过去噪处理后,需根据相关要求对数据的属性进行相应处理。数据规约就是在减少数据存储空间的同时尽可能保证数据的完整性,获得比原始数据小得多的数据,并将数据以合乎要求的方式表示。数据归约方法主要有:数据立方体聚集、维规约、数据压缩、数值压缩、离散化和概念分层。

(1)R是统计分析、绘图功能的自由开源软件,拥有完整体系的数据分析和挖掘工具,能够有效的数据存储和处理;

(2)R语言向量化运算功能强大,R语言使用apply函数系列取代传统的for循环做运算节约内存和时间。

(3)R有丰富的数据挖掘工具包(Packages)方便使用。拥有完整体系的数据统计和分析工具,为数据分析和显示提供的强大图形功能;

(4)R是一种面向对象的编程语言,和其它编程语言及平台、数据库之间有很好的接口。它是一套完善、简便而有效的编程语言(源自S语言),可操纵数据的输入和输出,可实现条件、分支、循环及自定义函数

个人观点:

R语言在数据分析方面有其独特的优势--软件包生态系统,特别在机器学习方面,R语言体现出了强大的联运效应,即在大数据领域的任何新型研究成果可能都会马上以R软件包的形式体现出来。因此从这个角度看,R语言始终站在技术发展的尖端位置。当然,R语言也有它的缺点。。所以根据个人喜好和公司要求选择最合适的工具,才是这个行业的魅力所在。 

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多