“第一砖”从相认到相识 什么是大数据?可能有人会说写字楼的所有人的资料信息就是个大数据。NO!这里的数据只能说比较大,但却不能称之为大数据。百度百科上给出了很明确的解释“大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。” 大数据有五个特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。其中Volume就是普遍认为的数据足够大,因此数据大并不能说就是大数据,话句话说数据大只是大数据其中的一个特点。 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 现在我们“从相认到相识”,清楚的认识什么是大数据,如果区分大数据和数据大,是我们学习大数据走的第一步。 “第二砖”拜师学艺,融汇百家 拥有了“第一砖”后就是你即将选择师门的时候了,敲开山门的“第二砖”则是学习大数据的基础,就如同在门派中修炼内功,有助你行走江湖,话不多说我们来看看会涉及到哪些基础吧! 1、 javaSE,EE(SSM) 90%的大数据框架都是java写的。 如:MongoDB--最受欢迎的,跨平台的,面向文档的数据库。 Hadoop--用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理。 Spark --Apache Software Foundation中最活跃的项目,是一个开源集群计算框架。 Hbase--开放源代码,非关系型,分布式数据库,采用Google的BigTable建模,用Java编写,并在HDFS上运行。 2、 MySQL(必须需要掌握的) SQLon Hadoop又分: batch SQL(Hive):一般用于复杂的 ETL 处理,数据挖掘,高级分析; interactive SQL:交互式 SQL 查询,通常在同一个表上反复的执行不同的查询; operation SQL:通常是单点查询,延时要求小于 1 秒,该类系统主要是HBase。 3、Linux Linux(一种操作系统,程序员必须掌握的,我的博客里有我对Linux的介绍)大数据的框架安装在Linux操作系统上 “第三砖”进阶提高,力挽狂澜 学习了大数据基础后,我们要做到就是在实际的数据分析上,如何去解决问题,所以如何分析数据就是我们的重点了,在数据中分析出有利于我们的数据则是我们的目标,小编我总结了以下几种方法,供大家参考,但方法是死的,人是活的,如何融会贯通就靠我们自己不断是尝试学习哦! 1、大数据离线分析 一般处理T+1数据(T是指日、周、月、年),处理历史数据 模块1:Hadoop 包括四大块(common、yarn、MapReduce、HDFS) 主要掌握环境搭建、处理数据的思想 模块2:Hive 大数据数据仓库 通过写SQL对数据进行操作,类似于mysql数据库中的sql 模块3:HBase 基于HDFS的NOSQL数据库 面向列的存储 2、大数据机器学习 spark MLlib:机器学习库 pyspark编程:Python和spark的结合 推荐系统 python数据分析 Python机器学习 总结:学习大数据的三个“敲门砖”,希望能对大数据有兴趣的朋友一种启发式作用,方法的学习还需要在有兴趣的基础上刻苦专研、融会贯通。 |
|
来自: 昵称11935121 > 《未命名》