分享

7500名数据科学家在为这家基金效力,它是怎么做到的?

 造就Talk 2020-07-21

导语:7500名数据科学家匿名参与一家对冲基金的运营,他们建立起50万个机器学习模型,为该基金作出了约280亿项的预测。

里查德·克拉布(Richard Craib)是一名29岁的南非人,在旧金山运营一家对冲基金。不过,真正运营的人不是他,而是数千名他不认识的数据科学家,以及他们建立起来的人工智能(AI)系统。

在初创企业Numerai的旗帜下,克拉布和他的团队建立起一种技术:将基金的交易数据掩盖起来,然后分享给一大群匿名的数据科学家。

这是一种类似于同态加密的方法——既确保数据科学家看不到公司自营交易的细节;同时又整理出数据,便于数据科学家建立机器学习模型及做出分析。

从理论上讲,他们还可以通过机器学习,找到交易证券的更优方式。

“我们把所有的数据都分享出去了。”克拉布说,“但我们把它转换成抽象形式,拿到数据的人并不知道这些数据的具体含义,但是又能为这些数据构建机器学习模型。”克拉布曾在康奈尔大学学习数学,后赴南非,在那里的一家资产管理公司工作。

他不知道这些数据科学家是谁,因为他们都是在网上招募的,报酬形式是一种数字货币,可以全程保持匿名。“任何人都可以向我们提交预测,如果管用,我们就用比特币支付报酬。”他说。

总结来说,数据科学家不清楚手里是什么数据,克拉布也不清楚这些数据科学家都是谁。

由于大家到手的是加密数据,因此不能将机器学习模型套用到其他数据上——即便是克拉布也不能。但他相信,通过这种“盲人引路,盲人跟从”的方式,他能创造出一种更加优秀的基金。

Numerai的基金从事股票交易已有一年。至于有多成功,他不愿透露具体细节,但他表示,这些交易是赚钱的。

越来越多的大型投资者向该公司投入了资金,包括“量化”对冲基金Renaissance Technologies的创始人——该公司就是由数据分析驱动的,并大获成功。

对冲基金很早就开始探索算法交易了,其中包括Renaissance、Bridgewater Associates等华尔街老牌企业,以及Sentient Technologies和Aidyia等科技初创企业。

但克拉布创造出了一种将算法“众包”出去的新模式。其他机构也在开展类似项目,包括Two Sigma——另一家纽约的数据驱动型对冲基金。但是,Numerai正在尝试的东西则要极端得多。

走在最前沿

这听起来很像硅谷的套路:一家小型初创公司,旨在通过人工智能、加密、众包和比特币等当前热门的技术概念重塑金融行业,就差一个虚拟现实了。

毫无疑问,Numerai才刚刚起步,就连它的投资者之一、Union Square的合伙人安迪·韦斯曼(Andy Weissman)都称之为“一场实验”。

其他企业也在开发类似的技术。从加密数据着手,构建更为通用的机器学习模型。

这其中就包括微软。通过这种模型,微软等公司可以更好地保护它们所收集的客户个人信息。

苹果也在挺进机器学习领域。艾伦人工智能研究所(Allen Institute for AI)首席执行官奥伦·艾茨奥尼(Oren Etzioni)表示,这种方法对苹果尤其适用。苹果在保护数据隐私方面的态度很坚决。

追随这种技术,我们也可以走向克拉布所支持的那种AI众包。

在为南非的金融公司工作时,克拉布产生了这个想法。他拒绝透露那家公司的名字,但表示,它运营的基金管理着150亿美元资产。

在那家公司,他参与构建了一些用于基金运营但并不复杂的机器学习算法。有一次,他的朋友在用神经网络运行比较复杂的机器学习算法,他想跟朋友分享公司的数据,但公司不允许。

克拉布说:“从那次起,我就开始研究新的数据加密方式,设法和他共享数据,又要防止他窃取数据,拿去创办自己的对冲基金。”

Numerai由此诞生。克拉布从自己账上划出100万美元,投入该基金。4月,该公司宣布,一个投资人团体向其投资150万美元,其中包括Renaissance Technologies创始人之一霍华德·摩根(Howard Morgan)。后来,摩根又与Union Square以及First Round Capital一起,参加了Numerai的A轮融资。

当然,Numerai有些非正统。看看它的网站你就明白了:在一则简短的视频中,克拉布描述了公司的使命。他戴着黑框眼镜,身穿银色的赛车夹克,背景带着浓浓的《黑客帝国》风格。

韦斯曼说:“看到这些视频,我们想到的是,‘这家伙想法与众不同。’”

韦斯曼坦言,这种方式的问题在于,它能否奏效。同态加密的麻烦在于,它会显著拖慢数据分析速度。

Baffle公司正在建立类似于克拉布所描述的那种加密技术,该公司CEO阿米什·迪瓦蒂亚(Ameesh Divatia)说:“同态加密需要大量的计算时间。

“怎么才能在业务决策期内运行完毕?”克拉布说,通过一种特殊的加密形式,Numerai已经解决了速度问题,但迪瓦蒂亚警告说,这可能会牺牲数据隐私。

拉斐尔·博斯(Raphael Bost)是麻省理工学院计算机科学与人工智能实验室的访问科学家,曾探索将机器学习应用于加密数据。

据他所述,Numerai使用的可能是类似于微软提到的一种方法:数据是加密的,但并非密不透风。对于这种方法的使用者,他提醒说,“你得提防算法受到边信道攻击。”

“将派对设置成静音模式”

无论如何,Numerai正在加紧努力。三个月前,约4500名数据科学家建立了约25万个机器学习模型,为该基金作出了大约70亿项预测。

现在,约有7500名数据科学家参与其中,建立了50万个模型,作出了约280亿项预测。就像在数据科学众包市场Kaggle一样,数据科学家竞相构建最好的模型,以获取报酬。

Numerai的诀窍之一是以量取胜。通过一种名为“堆叠”或“集成”的统计学和机器学习技术,Numerai将大量算法的精华结合起来,建立起更加强大的整体。

虽然这些数据科学家大多匿名,但也有一小部分实名参与者,包括纽约州布法罗的菲利普·卡利顿(Phillip Culliton)。除了Numerai,他还供职于一家名为Multimodel Research的数据分析公司,该公司接受美国国家科学基金会的资助。

对于Kaggle上的数据科学竞赛,他已经有多年的参赛经验,他认为,相对而言,Numerai更具吸引力。“Kaggle很好,我也喜欢竞赛,但通常只有排名靠前的几名选手才能获得报酬,而且,只有某些比赛才提供报酬。”他说,“在Numerai,排名前100左右的选手都有奖金,这个范围是比较大的,而且Numerai的奖金也很丰厚。”

每周都有100名科学家能获得比特币,迄今为止,该公司发放的比特币价值已超过15万美元。克拉布说,如果Numerai管理的资金额突破10亿美元,它将每月向数据科学家支付100万美元以上的奖金。

卡利顿说,比起非加密数据,加密数据的处理和分析都更加困难,Numerai的另一位常客吉姆·弗莱明(Jim Fleming)所见略同,他参与运营着一家名为Fomoro Group的数据科学咨询公司。但这可能不成问题。毕竟在机器学习中,分析并得出结论的,是机器,而不是人。

很多时候,即使涉及的是未加密数据,卡利顿也不清楚它们究竟代表什么,但这并不妨碍他构建相应的机器学习模型。“加密数据就好比将派对设置成静音模式。”卡利顿说,“你听不到人们私底下的交谈,但对大家彼此间的亲密程度,你还是能一目了然。”

若如克拉布所愿,这种方式能在庞大的Numerai数据科学家群体中成功推广,那么,华尔街也将不得不洗耳恭听。

翻译:雁行

来源:Wired

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多