分享

大数据的“多维度”与“时效性”认知

 文明世界拼图 2017-03-09

百度曾经发布了一个统计结果,叫《中国十大“吃货”省市排行榜》。榜单上的一些内容非常有趣,像北京网友最经常问的问题是“某某的皮能不能吃”;内蒙古网友最关心“蘑菇能吃吗”,宁夏网友最关心的竟然是“螃蟹能吃吗”。这个榜单的数据是怎么来的呢?百度没做民意调查和饮食习惯的研究,而是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来的。

为什么说这件事就反映了大数据的多维度呢?因为“百度知道”的数据维度很多,不光涉及食物的做法、吃法、成分、价格,还能收集一些隐含信息。比如提问者或回答者的个人信息,用的是手机还是电脑,用什么浏览器。这样,百度就可以得到不同年龄、性别和文化背景的人的饮食习惯。如果再结合每个人使用的手机或电脑的品牌和型号,分析他们的收入,百度甚至能分析出不同收入阶层的人的饮食习惯。也就是说,这些隐形维度对于饮食习惯虽然没有直接影响,但是如果把原来看上去没关系的维度联系起来,经过挖掘、加工和整理,就能得出有意义的统计规律。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多