分享

这500个球球实验,让你全面了解什么是“数据挖掘”

 天道酬勤YXJ1 2017-03-31

撰稿|每日君

对于数据挖掘,说实话每日君也是似懂非懂!本身也是非技术出身,但是呢每日君找来这个例子,绝对能让小白一看就懂什么数据挖掘……。很好玩的一个比喻,值得玩味!慢慢看啊……

6666

让每日君带你们看一个人为设计的场景。假设一个房间里神奇地漂浮着无数个小球。我们想搞清楚这些小球停留的位置是否存在着一种特定的结构。比方说,小球是不是更易集中在某一特定区域?是不是故意避开某些点位?它们是均匀分布于整个空间吗?

别着急,让每日君慢慢撸一下这个实验……

你们可能会问了,房间一片漆黑,我们什么也看不见啊?我们用一部带闪光灯的照相机,想把漂浮在整个房间的小球都拍下来。

照片犹如下图一样:

这500个球球实验,让你全面了解什么是“数据挖掘”

整体拍摄

就算小球的位置之间确实存在某种联系,从这张照片上我们也看不出个所以然。看上去小球就像是均匀分布的一样。所以我们尝试着换了下位置,从新的角度拍下了第二张照片。

这500个球球实验,让你全面了解什么是“数据挖掘”

换个角度拍摄

照片上的小球看起来还是随机分布的,没有任何规律。让我们换个高点的角度试试看。

这500个球球实验,让你全面了解什么是“数据挖掘”

从高处拍摄

呃,还是看不出有什么规律来。那我们最后再换个低点的角度试一次。

这500个球球实验,让你全面了解什么是“数据挖掘”

从低角度拍摄

啊哈,这次有点意思了:看起来小球集中分布在靠近屋顶和地面的两个区域,中间这段没有一个小球。因此,为了发现这个规律,我们在拍照时就必须找到一个“好”的角度如果角度不对,那我们永远都不可能找出任何规律。

所以,还是那句话,主要看姿势……

这500个球球实验,让你全面了解什么是“数据挖掘”

6666

这500个球球实验,让你全面了解什么是“数据挖掘”

6666

姿势对了,才能找到点(适合脑补……)

在上面这个例子中,我们想说的其实是三维数据点(不懂?百度啊)。

每个小球的位置都可以由3个数字来表示,每个数字分别代表它在XYZ三条轴上的位置。在实际的电脑运算中,数据点的位置会由更多的数字组合来表示。

什么?还不明白?小麦穗再举一个例子……

医院病人的病历可能会包含500组数字,包括他的生日年月日、身高、体重、血压、最近一次的看病记录、胆固醇指标等等。医院、医生、医疗领域的创业者可能会想要搞清楚,不同病人的数据点之间是否存在某种规律,然后针对性的进行分析、针对。

如心脏病人的数据点是否会集中分布?如果数据点确实会集中分布,当我们发现新入院病人的数据点也出现同样的趋势时,我们就可以推断这位病人很可能犯心脏病。当然,实际操作起来肯定不会如此简单。

这难道就是医疗行业大数据的收集、分析?厉害了我的病……

6666

一个人是不可能用肉眼看到这些数据点的。人怎么可能分得清500个维度呢?就像在上面那个例子中,没有人能看得清“黑屋”中小球,我们也同样看不见500个维度中的那些数据点。我们可以用二维图片(就是上面那些拍照出来的小球球)来展示位于三维空间中的数据点,用同样的方法,我们也可以更低维度的“照片”来表现拥有500个维度的数据点。

只有从合适的“角度”拍下“照片”,我们才可以从中找出不同数据点之间的规律,不然将很难有所发现。这就是人们所说的如何从“大数据”中“发现见解”。

上面的图片是用专门的软件制作的。哈哈……不过没关系,只要你看懂了就行!

这500个球球实验,让你全面了解什么是“数据挖掘”

6666

以上,供非专业人士参考,专业人士可以绕道……也可以留言给出你的见解!也可以过来喷一下贱贱的每日君

这个实验你看懂了吗? (单选)
0
0%
没看懂
0
0%
懂了

……

每日君系自媒体老司机一枚,头条号、搜狐自媒体平台、微博、UC云观自媒体签约作者,每日一评专注TMT领域深度分析和原创点评。本文属“每日一评”头条号原创内容,首发今日头条!已加入全网自动维权系统,自动识别抄袭!转载请联系作者授权

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多