分享

开普勒之长和第谷之短——科学史上的大数据故事

 鼠标快跑 2016-12-19

天文学家第谷数十年如一日,每晚观测行星运动,却未有所获。开普勒把数据分析从每晚拉远到每年,发现了行星围绕太阳旋转的规律,由此拉开了近代天文学的序幕。


数据不是越多越好,而是在海量数据下清醒地分析。四百多年前的简单教训,对于今天仍然适用。


演讲者|张首晟
斯坦福大学终身教授,美国国家科学院院士、中国科学院外籍院士


人人都说这是一个大数据时代,我想和大家分享一个科学史上大数据的故事


在中世纪,科学界最大的争论在于,到底是地球围绕太阳旋转,还是太阳围绕地球旋转。站在地球上来看,好像是太阳绕着地球旋转。但是观测别的行星运行轨迹,好像又在围绕太阳运行。


那时候有一位非常伟大的天文学家叫第谷·布拉赫(Tycho Brahe,1546-1601),为了解决这个人类科学最初的大争论,开始了寻求数据支持的伟大征程


1576年,第谷接受了当时丹麦国王腓特烈二世的资助,搭建了自己的天文台,配备了齐全的观测仪器。


第谷·布拉赫和他的汝岛天文台


从那时之后的20年里,他每天晚上风雨无阻地观测行星运动的轨迹,把每个行星每天晚上的位置,精确地记录下来。


他对于行星的观测精密程度,达到了当时前所未有的程度,是天文史上第一个真正地开始收集大数据的天文学家。


但是光有大数据还是不能解决问题。第谷拥有大量的精确数据,也花了很长的时间观察,但是他没有足够的智慧从中发现行星运行的规律。


于是他找到另一位数学很强的科学家开普勒作为他的助手,两人一起分析。但是两位科学家在一起看了很久还是没有看懂。为什么两个聪明绝顶的人陷入困境呢?


如果放在今天,我们肯定认为问题应该出在大数据的量还不够大。但是,不管是多么精确的大数据,它最重要的特点就在于量大,所以噪音也非常大。想要得到大数据的智慧,并不是把大数据变成更大的数据,而是要把大数据的噪音过滤掉,从中拿出最精髓的东西。


地球围绕太阳转,行星也围绕着太阳转,运动轨迹本身就是一个参照体围绕另一个参照体在运动,所以最后看到的数据非常复杂。所以,看了半天看不懂。


有一天,开普勒提出了一个非常奇妙的想法:大数据是误人的,我们把海量的数据扔掉,把每天取一次的数据变成每年取一次。


地球每365天就会回到原点,而其他的行星还在自己的轨道上运动,这样就减少了一个变量,多了一个固定的参照,他用这个思路,一下子把行星运动的轨道画出来了,得出了所有行星围绕太阳运动的结论。


在此基础上,开普勒提出了著名的行星运动三大定律,成就了近代天文学的开端。


所以当我们拥有海量数据的时候,我们不是让自己沉浸其中,而是要独具慧眼,在繁杂的数据中,发现内在的规律,才能成就自己的智慧。


大数据时代的来临,确实给了我们很大的机会。但是在这个巨大的机会之下,人类也遇到了非常大的知识洪水危机。


人类知识发展到了今天,就像一棵丰茂的大树,越来越远的枝叶,通往不同的方向。但危机来源于枝与枝之间的距离越来越远,很少有人能够看到知识的大树和枝叶之间的关系。我们必须学会用跨界的思维,用简洁的第一性原理,把这个丰茂的大树看清。


    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多