“大数据”归根结底还 是数据,其是一种泛化的数据描述形式,有别于以往对于数据信息的 表达,大数据更多地倾向于表达网络用户信息、新闻信息、银行数据 信息、社交媒体上的数据信息、购物网站上的用户数据信息等。 大数据可以回答四个问题:描述:告诉我发生了什么事。诊断:告诉我为什么它会发生。预测:会发生什么?说明性的问题:如何让它发生? 大数据5V特征: 体量(Volume):互联网的飞速发展,导致非结构化数据高速增 长和超大规模,占到数据总量的80%-90%之多, 比结构化数据增长快10倍到50倍,是传统数据 仓库的10倍到50倍。 价值密度(Value):大量的不相关信息;对未来趋势和 模式的可预测分析;深度的复杂分 析; 真实性(Veracity):数据的质量 多样性(Variety):大数据是异构的、且多样性的。诸 多不同的表现形式:文本、图形图 像、视频、机器数据等;无模式或 者模式不明显;不连贯的语法或语 义。 速度(Velocity):实时分析而非批量式分析;立竿见 影而非事后见效 由于报告有62页,内容详实,侠说节选了部分内容展示如下: |
|