搜索

分享

QQ空间 QQ好友新浪微博微信

【原】这个世界正变得更加真实，还是更多偏见？

造就Talk 2020-07-21

展开全文

造就第444位讲者车品觉

香港科学园董事

红杉资本中国基金专家合伙人

我们正从一个低信息的时代，走进一个高信息时代。

低信息时代，我们看到的东西其实充满了偏见和未知，比如在没有谷歌地图、百度地图之前，我们并不知道今天是否会堵车，交通状况到底如何。

我们拥有了前所未有的深度学习的算法，也拥有前所未有的数据。

当我们把数据连接起来之后，我们看到的世界，与以前完全不同。

那是一个以往并没有感知到的，比较客观的真实世界。

在高信息的时代，我们可以还原一个真实、客观的世界，可以对自己、企业、城市做出一个更好的一个预判。

但现实与理想总有差距，我们发现，在实际解决某个问题的时候，我们所拥有的数据是远远不够的。

每天每个企业里面收集了大量的数据回来，其中有很多是垃圾数据，并不能使用。

一面是庞大的数据在每天产生，一面是数据严重不够使用，为什么会出现这种两极化情况呢？

过去在阿里做数据的时候，我们有两套打法的，其中一种打法是，从问题出发去找足够的数据来解决问题。比如淘宝要设计一个推荐引擎，最好的方法是同时拿到淘宝和天猫的数据，只有这样才能达到很好的效果。

所以解决问题的逻辑是：因为需要做推荐引擎，所以我要打通数据，要有一个把数据汇总的方法或者架构。这是以“用”作为前提，打通数据、汇聚数据，即从问题出发看数据。

当数据量足够的时候，我们也可以反过来看——比如我们发现，在淘宝里面居然有人在11月买夏天的衣服。我们看了数据之后才发现，这些人其实在三四线城市里做小批发的，他们并不是纯C端的人。

所以，当你没有这么大量的数据的时候，你是没有办法去还原客观事实的。

所以汇-通-用，到用-通-汇，这种两种打法所需要的数据架构是不一样的。

当问题很清楚，数据很中心化时，数据量越大，我们对一个东西的判断的精准度会越高。

反过来说，问题是很清晰的，但是数据很离散的时候，我们治理数据的成本就会升高，把碎片化的数据组织在一起，这个成本比产出的价值可能更贵。

今天，我们已经进入了一个数字化的社会。目前，全世界有77亿人口，其中66%在使用移动手机，有56%是互联网的用户，社交媒体、移动社交的用户也几近过半。线上购物、线上视频、音乐，几乎每个人都用过此类应用，可以说，在这个地球上有一半的人生活在数字化的世界。

我们回顾这十几年整个大数据的进程，可以分为几个阶段——

2009年，我们开始听见大数据这个词；

2013、2014年，这是数据的蛮荒的年代，很多大数据产生并被企业使用，甚至从来没有用过数据的企业，开始会使用大数据并从中得到价值；

2017年、2018年，我们已经开始认知数据安全这一问题，我们意识到，如果要整个数据行业、数据科学的可持续发展的话，我们必须要有更好的监管。

2012年，十二五国家的战略里面，已经开始对整个人工智能、大数据产业给予一些指导方针。

一直到2015年，几乎已经形成了一个中国大数据的顶层架构。

我们可以很明确的认识到，在整个智能+时代到底可以做什么。直到此时，智能手机的渗透率已经非常高，同样还有5G网络和云计算。

未来我们需要做些什么？

我们发现有一个领域是缺位的——开源技术生态，国内与美国相比，还差得很远。而开源技术生态的缺位，使得我们无法出现类似Hadoop 、Spark等等可以影响到数据科学与人工智能的平台。

另一个值得关注的缺位是数据的监管。

很多互联网的图片被拿去做深度学习，里面也许会有一张你的照片，但是你并不知道你的照片被人用了，你连没有反对的机会都没有。当无人汽车遇到突发状况的时候，如何处理，决策权也不在你。

如果说这些离生活太遥远，那么下面的案例就与我们息息相关。

第一是排序系统，当你在查找某项信息的时候，为什么你需要的没有排在前面，反而是与它不相关的会排得更高呢？

第二是推荐系统，为什么一些人会被推荐到某家公司面试，而另一些人却不在里面，其实这种算法每天都在帮助你拿到更好的工作，或者是让你没有办法得到某种工作。

第三，协同过滤。为什么上个月忘了交电话费，突然之间你的某某指数就变低了？之后连贷款的能力也变小了呢？这些其实是我们无法控制的，却与我们未来的生活息息相关的。

某种角度上来说，人工智能和大数据其实充满了傲慢，充满了偏见。一方面它还原了一个更真实的世界，另一方面，它又导致了一个更加“偏见”的世界。

我们在未来要不要像这个人一样拿把伞，让这些东西不会伤害我们就足够呢？

也许我们今天没有答案，但是我们已经看到了一些好的方面，有的公司已经推出这样的广告（这也许是最微妙而美好的状态）——

Your phone knows a lot about you, but we don’t.

你的手机知道很多关于你的数据，但我们不知道。

造就FUTURE是一场科技、文化、娱乐交融的思想盛宴，是一场艺术与科技交织的美妙盛宴。它是造就最为前沿的思想交流阵地，是一年一度的未来科技探讨盛会。

文字 | 王锐

互动话题：

你在什么时候觉得自己的隐私被泄露了？

每周评论区，被zan最多的评论者，将获得造就送出的礼品一份

▼

转藏分享

QQ空间 QQ好友新浪微博微信

献花（0） +1

来自：造就Talk > 《待分类》

举报/认领

0条评论

请遵守用户评论公约

类似文章 更多

造就Talk

关注对话

TA的最新馆藏

宫晓春：阿秒电子动力学超快精密测量
罗永伦：为何高中生都能操作的基因编辑，会是诺贝尔级的神器？ | 造就
造就 | 钱其军：能治愈60%癌症的有效武器是什么？
造就Talk | 程杰：有了爱情大数据，你再不会选错人
造就TALK | 何樵暐：人与人的沟通是一场急躁、错误的表白
造就Talk | 车品觉：无数据不成活

喜欢该文的人也喜欢更多

热门阅读换一换