数据科学,又称大数据,如今被越来越多提及。数据科学是基于数据,通过对其扩展、统计,对组织关系、物质性能的系统研究,辅以推理甚至包括信心推断等方式的综合研究过程。大数据不同于传统意义上的统计学。首先“数据”的概念已经扩展,不仅仅是单纯的数字,还可能是文本、图像、视频。此外从工程学角度看,大数据抛弃了传统意义上数据的概念。数据库仅仅是对海量数据的汇总及优化,利于快速查询,但数据库并不利于对新知识的发现,特别是当用户缺乏甚至不具备良好的查询方式的时候。我们希望能够揭秘即有新鲜感、吸引人的又稳定的查询模式来揭秘数据。什么样的分心方式吸引人?那就是最具有前瞻行的。对已有的数据能够做出准确的分析就会对后续的操作积累信心,这也就是大数据分析中最要的一项考察因素。 从数据科学的研究角度看,核心的内容首先是要了解解决技巧。麦肯锡工业报告中显示全球的数量以每年50%的幅度增长,2011年比2001年增长了近40倍。数据量的剧增推动了数据分析的发展。20世纪80年代人们开始利用大量的数据做决策,90年代数据库技术和数据库分析业务流程日渐成熟。但当时遇到的问题就是,人们对数据的结构分析相对简单,对其线性、单调性及分布参数等趋势的假设不够有效,导致信噪比过小而不能做到准确的分析。同时,利用计算机辅助的数据库分析的核心是:人们如果知道某些问题的答案,那么计算机才会根据数据库给出分析。但问题是,人们也许并不清楚自己想问什么,也不知道对数据进行什么样的的特定查询才能揭示数据背后有价值的规律。 当人们意识到数据预测及准确性是数据分析的核心时,数据建模和决策制定便被提上了日程。这也是大数据存在的意义。基于技术机理论的大数据分析需具备三项基本技能。首先是数据统计,特别是贝叶斯统计和概率分布理论。第二项技能是计算机理论,包括数据的基数按表达,涉及计算机结构及其算法,比如分布式计算、数据库、并行算法、容错计算等理论,还有诸如Python和Perl等基本脚本语言掌握。利用计算机技术进行的云计算以及非关联性数据结构处理是大数据分析的前沿技能。大三项技能是对知识的相关性及因果关系的掌握。这一项最难以规范,某种程度上据定了数据分析的走向,因为它是要制定面向数据提出的问题方式,是解决问题的前提,能否得到有意的推断结论以及能否得到稳定的数据预期,全靠这项技能,这也是未来衡量大数据科学家预测能力的核心技能。数据建模的潜在误差来源基本可以归类于三个方面:模型的归类错误,简单的说比如非线性的模型使用了现行的分析;参数样本,比如小样本会导致参数估计的误差;模型的随机性。大数据的应用能够使得前两种误差系数大大降低。 大数据在市场营销、医疗保健以及研究人类行为的数据分析中已经开始的到广泛的引用。一项意义深远的大数据应用的例子便是2012年民主党对奥巴马总统连任的预测,他们针对选民的态度的分析预测制定了数据预测模型,对选民的意愿进行详细的分类,甚至喝了的预测了包括如何将总统包装成选民希望的样子的种种可能性。大数据的出现为知识发现和数据理论发展提供了前所未有的机遇,而行业的组织管理者则面临着适应新的数据时代的挑战,需要对传统组织文化进行实时转变。 |
|
来自: seo菜鸟shcimfv > 《软件开发》