lindan9997 / 大数据 / 壹周读书:大数据时代

分享

   

壹周读书:大数据时代

2018-07-25  lindan9997

西竹先生

人生过处唯存悔,知识增时只益疑1小时前

亮点摘录

1.         世界的本质就是数据。

2.         大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。

3.         从因果关系到相关关系的思维变革才是大数据的关键,建立在相关关系分析法基础上的预测才是大数据的核心。

4.         大数据提供的不是最终答案,只是参考答案。

5.         大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝大部分都隐藏在表面之下。而发掘数据价值,征服数据海洋的动力就是云计算。

6.         大数据与云计算是一个问题的两面:一个是问题,一个是问题的方法。

7.         “大数据”发展的障碍,在于数据的“流动性”和“可获取性”。

8.         越是万能的,就越是空间的。

9.         当我们改变规模时,事物的状态有时也会发生改变。

10.     寻找因果关系是人类长久以来的习惯。即使确定因果关系很困难而且用处不大,人类还是习惯性地寻找缘由。

11.     相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事正在发生。

12.     大数据告诉我们“是什么”而不是“为什么”。

13.     统计学的一个目的就是用尽可能少的信息来证实尽可能重大的发现。

14.     采样分析的确定性随着采样随机性的增加而大幅提高,但与样本数量的增加关系不大。

15.     样本选择的随机性比样本数量更重要。

16.     采样的目的就是用最少的数据得到最多的信息。

17.     大数据是指不用随机抽样这样的捷径,而采用所有数据的方法。

18.     执迷于精确性是信息缺乏的时代和模拟时代的产物。

19.     我们研究一个对象,是因为我们相信我们可以理解它。

20.     测量就是认知。

21.     混乱,简单地说就是随着数据的增加,错误率也会相应的增加。

22.     大数据的简单算法比小数据的复杂算法更有效。

23.     大数据不仅让我们不再期待精确性,也让我们无法实现精确性。

24.     错误性并不是大数据本身固有的。它只是我们用来测量、记录和交流数据的工具的一个缺陷。

25.     要想获得大数据带来的好处,混乱应该是一种标准途径,而不应该是竭力避免。

26.     我们再也不能假装活在一个齐整的世界里。

27.     宽容错误会给我们带来更多的价值。

28.     我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。

29.     相关关系是无法预知未来的,他们只能预测可能发生的事情。

30.     一旦你知道了结果,一切都很容易。

31.     数据化是一种把现象转变为可制表分析的量化形式的过程,数字化指的是把模拟数据转换成用0和1表示的二进制码。

32.     资产=负债+所有者权益。

33.     预测给我们知识,而知识赋予我们智慧和洞见。

34.     本质上世界是由信息构成的。

35.     随着大数据的出现,数据的中和比部分更有价值,当我们将多个数据集的总和重组在一起时,重组总和本身的价值比单个总和更大。

36.     面对怀疑,公开优先。

37.     他们思考的只有可能,而不考虑所谓的可行。

38.     一个似乎经过了理智讨论的事情其实是在没有什么实际标准的情况下做出来的。

39.     知识退化成骚乱的主观臆想,那是太阳神经丛的感情引起的营养不良。

40.     也许大数据预测可以为我们打造一个更安全,更高效的社会,但是却否定了我们之所以伟人的重要部分——自由选择的能力和行为负责。

41.     错误的前提导致错误的结论。

42.     变革并不至于规范。

43.     在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他的行为而非倾向负责。

44.     凡是过去,皆为序曲。

45.     有些历史最悠久的做事方法并不是最好的。

46.     数据不可能是完全对的或完全错的。当数据以规模级增加时,这些混乱也就算不上问题了。

47.     “现代”的一个定义性特征便是人们感到自己是命运的主人。

48.     潜在的可能性在概念的圣坛上被解剖。

49.     没有什么是上天注定的,因为我们所能就手中的信息制定出相应的策略。

50.     人类最伟大之处真实运算法和硅片没有揭示也无法揭示的东西,因为数据也无法捕捉到这些。并不是“人类最伟大的东西是什么”,而是“什么不是人类最伟大的产物”——真空、人行道上的裂缝、未说出的话还是未想到的事。

51.     预测未来的最好方法就是创造未来。

 

对于大数据,有这几种定义

Gartner Group的定义是:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。(参见维基百科)

 

大概这本书的线索是这样的

500

(字好小……)

大数据和云计算的关系是这样的

500

(字好大……)

 

在综述部分,作者介绍了大数据带来的生活、工作和思维变革:大数据对公共卫生的变革(以谷歌搜索与流感预测为例),大数据对商业的变革(Farecast票价预测软件)、思维变革(大数据可以实现小规模数据无法处理和解决的事情,无论是市场,组织还是征服和公民关系)、大数据开启的时代转型(数据质量和数量的急剧扩张,已经新的数据计算和利用方式的涌现,人们的商业、科技、医疗、政府、教育、经济、人文以及社会的其他领域发生的重大改变)。

 

预测是大数据的核心,把数学算法运用到海量的数据上来预测事情发生的可能性(如垃圾邮件的过滤)。计算机系统逐渐在改变甚至取代人类单凭判断力的阶段。

 

大数据带来的思维变革,作者划分为三大块。

1.       从随机样本向全体样本的过度。伴随着数据处理技术的更新,样本=总体得以可能,“抽查”到“普查”的可能性真正实现。大数据时代下,不再需用用随机抽样得到的“最多信息”来进行描述、分析和预测。这消弭了随机抽样的随机性无法保证的死局。(在有些领域,甚至找不到一个最优抽样方法),样本=总体的全数据模式正在取代样本分析。

2.       从信息的精确性到数据的混杂性的转变。精确性和样本是相伴而生的,正确的结果来源于正确的信息,而正确的信息需要精确,所以在“小数据”模式里,数据的不精确会影响甚至谬误结果。而大数据时代容许不精确的出现,放松了容错的标准,更多的数据得以形成。一来在海量数据面前,单条数据的延迟,谬误甚至缺失对结果的影响都不会像原来那么重要;一来,海量混杂的数据,可以促使很多未察觉问题的被发现。“大数据的简单算法比小数据的复杂算法更有效”。(就像QQ和微信,原来QQ好友是分组,微信好友是贴标签。)

3.       因果关系向相关关系的转变。简单滴说,就是大数据时代,带来从“为什么”到“是什么+怎么做的转变”。相关关系的好处在于,一来不需要人工选择关联物或者一部分相似数据来分析,一来更准确,更快速,受偏见的影响越小。相关关系分析法指向的是预测,预测是大数据的核心。因果关系在分析事物逻辑演变的内在正确关系,在正确初始条件和正确运衍法则下,才能做出正确的行为。相关关系就像一个黑箱,跳过“为什么”的阶段,从“现象——本质——现象”跳跃到“现象——现象”(找出一个关联物并且监控它就可以预测未来)整个系统的价值就是告诉我们“会发生什么而不是为什么会发生”这是一种不费力(计算系统处理)的快速思维方式,而且可以避免因果关系分析法中人为预设的思维进路死角。理论和实践都变得更加可行。

 

大数据带来的商业变革,大概也有这三个模块。

1.       人类生活的数据化。数字化是把模拟数据转换成用0和1表示的二进制码,而数据化是一种把现象变成可制表分析的量化形式的过程。数据化最早的根基是计量和记录,在大数据时代,文字可以数据化(如电子图书),方位的数据化(如GPS),沟通的数据化(Facebook)乃至万事万物的数据化(通过手机内置测振仪监测人体颤动来应对帕金森等神经疾病的iTrem,苹果用音频耳塞收集关于血液氧合、心率和体温数据的专利等等)数据化带来的效果是不影响,或者促进了人的使用,也方便了机器的分析。数据化带来的是一种信息的视角——信息是一切的本原。

2.       数据价值的开发。Luis Von Ahn设计的ReCaptcha就是数据再利用的例证通过模糊单词识别来确认操作者,破译数字化文本中不清楚的单词(“验证码”(就是我们每天都要输入的那个)就是他发明的。)当我们的各类信息,甚至人脉关系,想法,喜欢,日常生活模式甚至心情通过各种各样的系统加入信息库时,万万千千个人信息库的集成就带来了“羊毛出在猪身上”(六模有一门课《信息化思维》就有谈到这个商业模式的转变,然后我期末就写了Practice Fusion,然后怀着拿A的心情吃了一个B-,生无可恋)数据的价值不会随着对它的使用而减少,不断地处理数据却可以不断地产生价值,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是实际意义上的选择, 选择的总和就构成了数据的价值,即潜在价值(读不懂)。数据再利用(如谷歌的搜索词分析)、重组数据(Zillow.com通过将房地产信息和价格添加在美国社区地图上,再加之诸如社区近期交易和物业规格等其它信息来预测房屋价值)、可扩展数据(如谷歌的街景汽车不仅拍摄房屋和道路照片,还采集GPS,检查地图信息甚至加入无线网络名称)、数据的折旧(分离有用无用信息)、数据“废气”(如模糊输入和模糊查询的实现。数据废气描述的是人们在网络上留下的数字痕迹,比如浏览了哪些页面,停留了多久,光标停留的位置,曾输入了什么信息、开放数据(早期如FlyOnTime的航班时间预测)。接着就是一个很有意思的数据估值问题,如Facebook在上市前的定价是每股38刀,总估值=1040亿美元=波音公司市值+通用汽车市值+戴尔电脑市值,然而Facebook在2011年供投资者评估公司的审核账目中,包括计算机硬件,专利和其它实物价值是66亿美元,则意味着Facebook公司数据库中的大量信息的账面价值为0。无形资产是账面价值和市场价值之间的差额,数据逐渐加入到品牌,人才和战略构成的非有形资产模块中去,大多数数据,数据占有本身没有价值,然而使用的价值是无限的。

3.       大数据时代的角色定位。大数据时代里面的角色,一个维度是数据公司(如拥有海量数据的Twitter,但是它的数据是通过两个独立的公司授权他人使用的)、技术公司(为沃尔玛提供数据分析和营销策略的Teradata)和思维公司(Jetpac通过用户分享到网上的旅行照片来推荐下次旅行的目的地)的三足鼎立(但有公司是三者兼备的,如谷歌和亚马逊);另外一个维度是公司、个人和科学家(着重讲了数据科学家的崛起,可以参见电影《点球成金》)的动态关系。大数据带来了盈利模式,交流模式甚至竞争模式的变革。

 

 

大数据时代的管理变革,其实分析的是大数据模式的新困境。

1.       大数据成为“第三只眼”,在不合理的数据应用下就会成为一颗威力巨大的炸弹(如荷兰的综合民事记录数据成为纳粹分子搜捕犹太人的花名册)。再者,我们的隐私在大数据时代被“二次利用”(欧美有每6秒采集读书的智能电表,通过能源使用情况可以暴露一个人的日常习惯、医疗行为等等),包括谷歌街景就无法避免对民众的伤害(无论是否对居民图像进行模糊化处理,都给盗贼指明了行动目标)。

2.       预测与惩罚的突破,我有错误,不是因为我“所做”,而是因为我“将做”。阿汤哥的少数派报告就反思了这个制度的问题:罪责的判定是基于对个人未来行为的预测。记得上学期的人生伦理课讨论课我就带着大家跑到一个扯不清的话题里面去了:一个人无须对自己的感觉负责,但是要对自己的行为负责,一个人要对自己将会发生甚至必然会发生的行为负责吗?比如A想要谋杀B,A做出了所有的准备,日思夜想,但是直到A伤害B的前一刻,行为都是没有发生的,思想层面也存在思想改变的可能,尽管这个可能性近乎于0,但是它存在。但是,要是A谋杀了B,做什么事情B也回不来了,这个问题无解了。大数据就面临比这更严峻的引诱,美国国土安全部研发中的FAST,Future Attribute Screening Technology就旨在监控个人的生命体征、肢体语言和其它生理模式来发现潜在的恐怖分子。这一切的以后面对的一个讨论是,大数据分析如果完全正确(精准的预测不现实是自然的,比如曾有一个大数据模型旨在预测判缓刑的人或者假释的人提前释放的话会不会再次杀人,该模型自称准确率为75%,这意味着什么呢?如果这样做,每4个人中就会出现一个失误。),那么我们的未来会被精确地预测,我们不仅会丧失选择的权利,而且会按照预测去行动,如果预测成为现实,我们也就失去了自由意志,失去了自由选择生活的权利。既然我们失去了选择,我们就无须承担任何责任。这否定了法律系统或者无罪推定原则,我们被追求责任,居然是为了自己不会实施的行为 。

500

所以少数派报告中的阿汤哥是没法证明自己不会犯罪的,因为我们已经通过预先预警机制制止了这种行为。他没有按照他的意愿去做,我们却坚持他应该为自己尚未实施的未来行为付出代价,但是我们的预测永远无法证实。因为他有罪,不是因为事实,而是因为一个极高的可能性。然后100的可能性都不等于事实。一定会发生不代表发生。

3.       数据独裁。对数据的依赖可能会导致很多问题。比如谷歌要得到被招聘者的 SAT成绩和大学平均绩点,根据谷歌内部研究表明,这些分数和员工的工作表现是没有关系的,戏剧的是,谷歌的创始人都没有达标,而他们正是这个制度的强力推行者。(推荐James Scott的《Seeing Like a State》,这本书就讲了政府是如何因为对量化和数据的盲目崇拜给人民带来的灾难。文科馆二楼文科书库应该有,代码 D035 /S812(3)不出意外的话明天它应该躺在我的桌上^-^)

 

最后一个部分,作者提及到面对变革时我们自身的变革,也是在为解决大数据的某些弊端,提供一些可能的进路。比如

1.       采取个人隐私保护机制,从个人许可到让数据使用者承担责任,监管机制决定不同种类的个人数据必须删除的时间,信息模糊处理等

2.       个人可以并且应该为他们的行为二位倾向负责。大数据预测,应该保留公开(结论、源数据和算法)、公正(具备第三方的公正)、可反驳(提出个人可以对针对自己的预测进行反驳的具体方式)等原则。

3.       数据算法师的规范应用、外部算法师扮演公正的审计员,内部算法师监督公司数据活动,在考虑公司利益的基础上顾及他人利益。算法师以公正、保密、资历、专业水准和责任规范进行强制约束。

4.       反数据垄断大亨:在立法层面和机制层面(上面三点)等等。

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多
    喜欢该文的人也喜欢 更多

    ×
    ×

    ¥.00

    微信或支付宝扫码支付:

    开通即同意《个图VIP服务协议》

    全部>>