大数据分析的8个趋势

当以读书通世事 2018-09-29

展开全文

大数据分析的8个趋势

大数据和分析的前沿，包括以原生格式存储大量数据的数据湖，当然还有云计算，是一个不断变化的目标。虽然技术还远未成熟，但等待并不是一种选择。

1. 云中的大数据分析

Hadoop是一个用于处理非常大数据集的框架和工具集，最初设计用于处理物理机器集群。这已经发生了改变。弗雷斯特研究公司(Forrester Research)分析师布莱恩·霍普金斯(Brian Hopkins)表示:“现在，越来越多的技术可以在云计算中处理数据。”示例包括Amazon的Redshift托管的BI数据仓库、谷歌的BigQuery数据分析服务、IBM的Bluemix云平台和Amazon的Kinesis数据处理服务。他表示:“大数据的未来状态将是本地和云计算的混合体。”

Smarter Remarketer是一家基于saas的零售分析、细分和营销服务提供商，最近从内部的Hadoop和MongoDB数据库基础设施转移到了基于云计算的数据仓库Amazon Redshift。这家总部位于印第安纳波利斯的公司收集在线和实体零售销售数据、客户人口统计数据以及实时行为数据，然后分析这些信息，帮助零售商创建有针对性的信息，以引起购物者的预期反应，有时是实时的。

Abbott说，Redshift对于Smart Remarketer的数据需求来说更具成本效益，特别是因为它对结构化数据有扩展的报告功能。作为托管服务，它既可扩展又相对容易使用。他表示:“在虚拟机上扩展业务比购买物理机器来管理自己更便宜。”

位于加州山景城(Mountain View)的Intuit公司则谨慎地转向云分析，因为它需要一个安全、稳定和可审计的环境。就目前而言，这家金融软件公司将一切都保留在其私有的Intuit分析云计算中。Loconzolo说:“我们正在与亚马逊和Cloudera合作，研究如何建立一个公私合作、高度可用和安全的分析云，可以跨越两个世界，但还没有人解决这个问题。”然而，对于像Intuit这样销售云计算产品的公司来说，进军云计算是不可避免的。他表示:“将所有数据转移到私有云上的成本将会高得令人望而却步。”

2. Hadoop.新的企业数据操作系统

Hopkins说，分布式分析框架，比如MapReduce，正在进化成分布式资源管理器，逐渐将Hadoop变成一个通用的数据操作系统。他说，有了这些系统，“通过将它们作为分布式文件存储系统插入Hadoop，您可以执行许多不同的数据操作和分析操作。”

这对企业意味着什么?由于SQL、MapReduce、内存、流处理、图形分析和其他类型的工作负载能够在Hadoop上运行，并具有足够的性能，更多的企业将使用Hadoop作为企业数据中心。Hopkins说:“在Hadoop中对数据运行许多不同种类的查询和数据操作的能力将使它成为一个低成本、通用的地方，可以放置你想要分析的数据。”

Intuit已经在其Hadoop基础上进行了建设。Loconzolo说:“我们的策略是利用Hadoop分布式文件系统，它与MapReduce和Hadoop紧密合作，作为一个长期的策略来支持所有类型的人和产品的交互。”

3. 大数据的湖泊

传统的数据库理论要求在输入任何数据之前设计数据集。普华永道(PricewaterhouseCoopers)美国咨询业务的首席技术专家克里斯·柯伦(Chris Curran)说，一个数据湖(又称企业数据湖或企业数据中心)颠覆了这种模式。“它说，我们将把这些数据源都转储到大型Hadoop存储库中，我们不会事先尝试设计数据模型，”他说。相反，它为人们提供了分析数据的工具，以及湖中存在哪些数据的高级定义。“随着时间的推移，人们将视图构建到数据中。这是建立大规模数据库的一个非常渐进的、有机的模型。缺点是，使用它的人必须是高度熟练的。

作为Intuit Analytics Cloud的一部分，Intuit拥有一个数据湖，其中包括clickstream用户数据、企业和第三方数据，Loconzolo说，但重点是“民主化”围绕它的工具，使业务人员能够有效地使用它。Loconzolo说他对在Hadoop中构建数据湖的担忧之一是这个平台还没有真正为企业准备好。他表示:“我们希望拥有传统企业数据库几十年来所拥有的功能——监控访问控制、加密、保护数据以及跟踪数据从源到目的的传承。”

4. 更多的预测分析

霍普金斯说，有了大数据，分析师不仅可以处理更多的数据，而且还有处理大量具有多种属性的记录的处理能力。传统的机器学习使用基于总体数据集样本的统计分析。他说:“现在你可以对每条记录做大量的记录和大量的属性”，这增加了可预测性。

大数据和计算能力的结合也让分析师全天都能探索新的行为数据，比如访问的网站或地点。霍普金斯把这称为“稀疏数据”，因为要找到感兴趣的东西，你必须涉猎大量无关紧要的数据。试图用传统的机器学习算法来处理这类数据在计算上是不可能的。现在我们可以为这个问题带来廉价的计算能力。“当速度和记忆不再是关键问题时，你就会用完全不同的方式来表述问题，”阿伯特说。“现在你可以通过大量的计算资源来分析问题，找到最适合分析的变量。它真的是一个游戏规则改变者。

Loconzolo说:“在同一个Hadoop核心上实现实时分析和预测建模，这是我们的兴趣所在。”问题在于速度，Hadoop回答问题的时间比更成熟的技术长20倍。因此Intuit正在测试大型数据处理引擎Apache Spark及其相关的SQL查询工具Spark SQL。Spark具有快速的交互式查询、图形服务和流媒体功能。它将数据保存在Hadoop中，但提供了足够的性能来弥补我们之间的差距，”Loconzolo说。

5. Hadoop上的SQL:更快更好

如果你是一个聪明的程序员和数学家，你可以在Hadoop中插入数据并对任何东西进行分析。高德纳(Gartner)分析师马克·拜尔(Mark Beyer)表示，这是一个承诺，也是一个问题。“我需要有人把它转换成我熟悉的格式和语言结构，”他说。这就是Hadoop产品的SQL出现的地方，尽管任何熟悉的语言都可以工作，Beyer说。支持SQL样查询的工具允许已经了解SQL的业务用户对数据应用类似的技术。Hopkins说，Hadoop上的SQL“打开了企业中Hadoop的大门”，因为企业不需要投资高端数据科学家和业务分析师，他们可以使用Java、JavaScript和Python编写脚本——这是Hadoop用户传统上需要做的事情。

这些工具并不新鲜。Apache Hive为Hadoop提供了一种结构化的、类似sql的查询语言。但是，来自Cloudera、Pivotal Software、IBM和其他供应商的商业替代品不仅提供了更高的性能，而且一直在加快速度。这使得该技术非常适合“迭代分析”，在这种分析中，分析师问一个问题，得到一个答案，然后再问另一个问题。这种类型的工作传统上需要构建数据仓库。Hopkins说，Hadoop上的SQL不会取代数据仓库，至少短期内不会，“但它确实为某些类型的分析提供了更昂贵的软件和设备的替代品。”

6. 更多,更好的NoSQL

Curran说，传统的基于SQL的关系数据库(NoSQL是“不仅仅是SQL”的简称)的替代品，作为用于特定类型分析应用程序的工具，正迅速受到欢迎，这种势头将继续增长。他估计有15到20个开源的NoSQL数据库，每个数据库都有自己的专门化。例如，具有图形数据库功能的NoSQL产品(如ArangoDB)提供了比关系数据库更快、更直接的方法来分析客户或销售人员之间的网络关系。

开源SQL数据库“已经存在一段时间了，但由于人们需要的分析方法，它们正在加速发展，”柯伦说。普华永道(PwC)在新兴市场的一名客户在货架上安装了传感器，以监控货架上有哪些产品，顾客操作这些产品的时间有多长，以及顾客在特定货架前站了多长时间。柯伦说:“这些传感器从数据流中喷涌而出，数据流将呈指数级增长。”“NoSQL键-值对数据库是实现这一点的好地方，因为它是专用的、高性能的和轻量级的。”

7. 深度学习

深度学习是一套基于神经网络的机器学习技术，目前仍在发展中，但在解决商业问题方面显示出巨大的潜力。“深度学习……”使计算机能够识别大量非结构化和二进制数据中感兴趣的项目，并在不需要特定模型或编程指令的情况下推断关系，”他说。

在一个例子,深入学习算法,研究了数据从维基百科了解自己,加州和德州这两个州在美国“它没有被建模来理解国家和国家的概念,这是一个很大的区别旧机器学习和新兴深度学习方法,“霍普金斯说。

霍普金斯说:“大数据将利用各种各样的非结构化文本，利用深度学习等先进的分析技术，以我们现在才开始了解的方式提供帮助。”例如，它可以用来识别许多不同类型的数据，比如视频中的形状、颜色和对象，甚至是图像中猫的存在，就像谷歌在2012年建立的一个著名的神经网络所做的那样。“这种认知参与、高级分析以及它所暗示的东西的概念……”这是一个重要的未来趋势。

8. 内存分析

贝耶说，在正确的设置下，使用内存数据库来加速分析处理越来越受欢迎，而且非常有益。事实上，许多企业已经在利用混合事务/分析处理(HTAP)——允许事务和分析处理驻留在同一个内存数据库中。

但是关于HTAP有很多炒作，企业已经过度使用了，拜尔说。对于那些用户需要在一天中以相同的方式多次查看相同数据(而且数据没有明显变化)的系统来说，内存中的数据是浪费钱。

虽然使用HTAP可以更快地执行分析，但所有事务都必须驻留在同一个数据库中。拜尔说，现在的问题是，大多数分析工作都是把来自不同系统的事务放在一起。他表示:“将所有数据都放在一个数据库上，就回到了一种不可靠的信念:如果你想把所有的分析都用在HTAP上，就需要把所有的交易都放在一个地方。”“你仍然需要整合不同的数据。”

此外，引入内存数据库意味着要管理、保护和解决如何集成和扩展的另一个产品。

对Intuit来说，使用Spark已经消除了一些拥抱内存数据库的冲动。Loconzolo说:“如果我们可以用Spark基础架构和内存系统解决70%的用例问题，那么我们将使用分析云的70%。”“所以我们会先做原型，看看是否准备好了，然后在内存系统内部暂停。”

领先一步

随着大数据和分析领域出现了如此多的新兴趋势，IT组织需要创造条件，让分析师和数据科学家进行试验。Curran说:“你需要一种方法来评估、原型化并最终将其中的一些技术整合到业务中。”

拜尔表示:“IT经理和实现者不能以缺乏成熟度作为停止试验的借口。”最初，只有少数人——最熟练的分析师和数据科学家——需要进行实验。然后这些高级用户和IT部门应该共同决定何时向组织的其他部门交付新资源。而且，它也不一定要控制那些想要全速前进的分析师。拜尔表示，相反，它需要与分析师合作，“在这些新的高性能工具上设置可变速度油门”。