信息技术基础主讲人:马琳琳任务7.3 认识大数据【知识储备】一、大数据的概念及特点 1. 大数据的概念 顾名思义,就是一个庞大海量的数据集,或称为巨量资料。也就是说,如果一个数据集,在一定时间范围内,无法用传统数据软件工具进行撷取、管 理和处理,我们就把这样的一个数据集合称之为“大数据”【知识储备】2. 大数据的数据来源 大数据的数据来源于每一个人。我们在 互联网的每一个操作都可以产生各种行为数据,这些数据集合到一块,就可以称之为“大数据”。【知识储备】2. 大数据的数据来源 这些也都会产生数据,这些数据与我们人类也息息相关,也都可以称之为“大数据”。大数据的数据来源,又并非单纯指个人在互联网上产生的数据 。【知识储备】3. 大数据的特点 大数据的“大”,主要体现在下面5个方面,又称为大数据的5V特性。【知识储备】3. 大数据 的特点 淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书Facebook约10亿的用户每天产生的日志数据超过300 TB【知识储备】3. 大数据的特点 (3)非结构化数据:特点:先有数据,再有模式例子:文档、图片、音视频 (1)结构化数据 (关系型)特点:先有结构、再有数据例子:二维表存储(2)半结构化数据特点:先有部分数据 例子:XML,HTML等的文档数据,树、图 表示的数据结构类型数据。【知识储备】3. 大数据的特点 比如,亿信BI大数据分析平台,对不同行业,不同地区的,数据 处理速度都相当惊人。 也只有这样的数据处理平台,才能在大数据时代争的一席之地。因此,对于大数据平台来说,谁的速度更快,谁就更有优 势。【知识储备】3. 大数据的特点 指合理运用大数据,以低成本创造高价值。相比于传统的小数据,大数据最大的价值在于,对大量 不相关的各类数据,通过机器学习、人工智能、数据挖掘等方法深度分析,挖掘出对未来趋势与模式预测分析有价值的数据,将发现的新规律和新知 识,运用于各行各业,从而推动社会的发展。【知识储备】3. 大数据的特点 大量不相关数据数据挖掘人工智能机器学习有价值的数据 应用在各行各业【知识储备】3. 大数据的特点 【知识储备】二、大数据的关键技术 【知识储备】 1. 数据采集数据采集位于数据感知层,主要通过RFID射频、传感器、社交网络交互及移动互联网等方式,获得海量数据。这些数据是大数据知识 服务模型的基础。 【知识储备】 2. 数据存储及管理技术大数据存储与管理,主要用存储器,或建立响应的数据库,把采集到的 数据存储起来,并进行管理和调用。需要开发可靠的分布式文件系统(HDFS),存储、管理海量的数据。【知识储备】 3. 数 据处理技术主要通过Hadoop并行处理框架完成,该平台框架中的分布式文件系统(HDFS)、分布式数据库存储系统(Hbase)、分布 式计算构(MapReduce)实现对数据的高速并行处理。【知识储备】4. 数据挖掘与分析技术 数据挖掘是从大量的、不 完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但潜在的有用信息和知识的过程。 【知识储备】4. 数据 挖掘与分析技术数据挖掘的的过程就是如何获取有用知识的过程。它的基本业务流程是:问题定义-数据获取-数据预处理-特征选择-模型建立- 预测效果。【知识储备】5.数据可视化与决策大数据可视化就是将前期挖掘分析到的数据,通过可视化手段呈现出来,便于用户更直观的看到数据 的分布、发展趋势、关联性等。【任务小结】本次课主要从大数据的概念、特点、关键技术等方面进行学习。希望同学们多去学习、探索这门新技术 ,未来为社会创造价值。【任务小结】课程思政:“绿色上网,健康你我他”,“网络‘眼睛’处处有,输入资料有保留”。大数据时代给人们的生 活带来便利,但是也面临着很大的挑战。警戒同学们在绿色上网的同时,还要预防个人信息泄露,提高信息安全意识,共筑信息隐患防火墙。谢 谢 大 家 |
|