分享

一图看懂大数据关键技术(一)——数据获取

 youxd 2016-06-24

编辑:西和西 校对排版:吴双

大数据关键技术涵盖从数据存储、处理、应用等多方面的技术。如下图所示,根据大数据的处理过程,可将其分为数据获取、数据预处理、数据存储与管理、数据检索与分析、数据呈现与应用、数据安全等环节。由于大数据具有大规模、异构、多源等特点,大数据技术与传统的数据处理技术也有所不同。在大数据处理的每个环节中,都出现了许多针对大数据独特需求的新兴技术。

一图看懂大数据关键技术(一)——数据获取

数据采集处于大数据生命周期中第一个环节,它通过RFID射频数据、传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。由于可能有成千上万的用户同时进行并发访问和操作,因此,必须采用专门针对大数据的采集方法,其主要包括以下三种:

一图看懂大数据关键技术(一)——数据获取

一、系统日志采集

许多公司的业务平台每天都会产生大量的日志数据。日志收集系统要做的事情就是收集业务日志数据供离线和在线的分析系统使用。

高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。

目前常用的开源日志收集系统有Flume、Scribe等。Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输系统,目前是Apache的一个子项目。Scribe是Facebook开源日志收集系统,它为日志的分布式收集、统一处理提供一个可扩展的、高容错的解决方案。

一图看懂大数据关键技术(一)——数据获取

二、网络数据采集

网络数据采集是指通过网络爬虫或网站公开API等方式从网站上获取数据信息的过程。这样可将非结构化数据、半结构化数据从网页中提取出来,并以结构化的方式将其存储为统一的本地数据文件。它支持图片、音频、视频等文件的采集,且附件与正文可自动关联。对于网络流量的采集则可使用DPI或DFI等带宽管理技术进行处理。

一图看懂大数据关键技术(一)——数据获取

三、数据库采集

一些企业会使用传统的关系型数据库MySQL和Oracle等来存储数据。除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。这种方法通常在采集端部署大量数据库,并对如何在这些数据库之间进行负载均衡和分片进行深入的思考和设计。

近年来,各类大数据公司在互联网时代下如雨后春笋般涌现。不论规模大小,是否能持续地获取可供挖掘的数据是判断某公司是否有前景和价值的标准之一。互联网企业巨头存在规模庞大的用户,通过对用户的电商交易、社交、搜索等数据进行充分挖掘后,拥有了稳定且安全的数据资源。

一图看懂大数据关键技术(一)——数据获取

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多