分享

想去研究大数据,我该自学什么?python还是c语言?

 昵称25832105 2018-07-28

大数据是我的研究方向之一,我在头条上也会陆续写一些关于大数据、Python、Java等内容的系列科普文章,想学习这些内容的朋友可以关注我,相信一定会有所收获,有具体的问题也可以私信咨询我。

要学习大数据一定要先了解什么是大数据,大数据都包含哪些内容,以及需要学习哪些针对性的技术。

大数据是一个统称,具体研究的内容包括数据的采集、整理、传输、存储、分析和呈现,这一系列关于数据的操作统称为大数据。大数据是一个交叉学科,不仅涉及到计算机科学,还涉及到数学、物理、统计等一些列学科,同时大数据与物联网、云计算都有十分紧密的联系。

大数据本身的特点包括数据量大、结构多样、价值密度低、分析速度快等,由此需要对传统数据处理方式做很多革新,以便于完成大数据的各种应用。大数据带来的技术变化一是体现在存储方式的变化上,一是体现在数据分析处理上。

作为一名非计算机专业的人士要学习大数据首选要从搭建大数据平台开始,了解大数据平台最为关键的两个内容:数据存储和数据分析。大数据在存储上要采用分布式存储方式,原因是大数据已经突破了单点存放的极限,需要采用分布式存储的方式才能满足存储空间的要求,所以现在很多大数据的存储采用了云计算平台提供的服务。云计算平台往往都是基于强大的数据中心,通过虚拟化资源池的方式灵活的为客户提供服务,所以大数据和云计算关系密切。

搭建大数据实验平台是初学者第一个要解决的问题,目前比较成熟的选择是Hadoop、Spark,各有优缺点,Hadoop生态体系健全、对硬件要求不高,但是缺点是配置复杂一些,Spark相对能好一些。在搭建平台之前要熟悉Linux系统的使用,因为这些大数据平台都是基于Linux系列操作系统搭建的。

做大数据分析的编程语言可以采用Python、Java、Scala,还可以使用R语言。这几个编程语言目前在大数据领域有广泛的使用,由于Python在数据分析上更加简单、方便,所以很多开发者选择使用Python,虽然R语言在分析领域应用也较多,但是R语言本身的落地能力还是差距较大,所以建议从Python、Java、Scala三个语言中进行选择。

C语言目前在大数据应用领域的开发主要体现在数据采集端,大数据的来源依赖于物联网,大量的非结构化数据出自物联网系统,而C语言在物联网开发领域有广泛的应用,所以如果要从事这方面的研发就需要掌握C语言了。

大数据领域需要大量的人才参与,不仅需要计算机人才,也需要数学、物理、统计等方面的专业人才,所以很多不同学科的人都可以从事大数据领域。目前大数据行业有较大的人才缺口,而且未来很长一段时间内大数据人才会有比较大的发展空间,如果对大数据感兴趣可以深入学习一下。

如果大家有大数据方面的问题可以咨询我,相信我能帮助你更好的理解大数据。

非计算机系学习大数据的路径如下:

Python or C?

如果非要从这里面选一个学习大数据,肯定是Python。Python良好的数据处理环境和近几年跟着人工智能的潮流出现了很多相适应的工具包,如numpy、pandas、sklearn和tensorflow等。C语言也是一门史诗级的语言,如果入门Python后有余力学习我很建议再把C家族语言看一下。

数理统计知识

学习数据方面必要要有一定的数理统计知识,如果大学有学习足够的数学课程那么足够了,也可以去可汗学院参考以下课程去复习这些知识点:

  • 概率和统计视频课;

  • 线性代数视频课;

  • 概率和统计视频课。

大数据工具

Hadoop:

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,工业上大数据热门的工具之一。其中最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

对于大数据的学习,我推荐阿里云的一篇文章,头条似乎不能放链接,请自行搜索关键词:Hadoop学习资源集合-博客-云栖社区-阿里云。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多