分享

AI攻城狮,你需要那个数据集的种子么?

 yangtz008 2018-08-16
车栗子 发自 凹非寺 
量子位 报道 | 公众号 QbitAI

来自谷歌大脑的David Ha,向你推荐了一个种子库



这里的种子,是给AI程序猿准备的,不是因为他们单身。

是因为他们需要给自己的模型,喂食大量的数据



名叫Academic Torrents的种子库里,包含了各式各样的数据集,总计27.31TB的资源。最近,五岁的它登上了Hacker News的顶端。

互相取暖,可以加速

开发团队说,这是一个分布式系统,以推动大规模数据共享为目标。



有了种子,有了播撒种子的人类,再加一个搜索功能,大家就能迅速找到、下载到自己需要的数据集了。

虽然,很多数据集在别处也找得到,但Academic Torrents集合了每个数据集的许多镜像,这些镜像一起工作,下载会更快。当然,下载的人越多,速度也越快。



另外,Academic Torrents里面的数据集也比较全。比如Netflix Prize比赛的数据集,原始地址已经用不了,但在这里还能找到其他可用的地址。

BT下载,或许是数据集最好的传播形式了。



这个习惯,要改

下载完成之后,seed一下,后人又可以从你这里下载,下载之后再seed……

BT和数据,更配咯

虽然,学术种子库和普通种子库相比,技术上并没有什么不同,但BT协议对于数据共享,依然有特别的意义

p2p下载中,镜像数据的过程是透明的,可以有效保持数据的正确性。这一点,对于研究人员尤为重要。



 数据损坏,的错误示范

而当原始地址失效之后,人类从其他地址下载数据集,可能会遇到数据损坏的问题。BT客户端,就可以验证数据集有无发生变化,也可以修复损坏的部分。

果然,数据集和BT,很配吧。

沉迷学习,沉迷训练

除了数据集之外,这里还有论文课程资源。



Academic Torrents也提供了创建列表的功能。每个用户,都可以按照自己的喜好,把资源分门别类收藏起来。

每个列表都有自己的RSS信息流,当列表里的某个资源有了更新,就可以自动完成下载。

当然,也可以看到别人创建的列表,并订阅之。



一想到别人家的模型,吃着美味的数据,训练得有条不紊,你是不是也有理由开始努力了呢?

你也去看看吧

其实,Academic Torrents不止得到了David Ha的推特翻牌而已。

官网上说,许多学校也都在用这个种子库了。看,明晃晃的校徽:



各位可从以下链接前往种子库:
http:///

以及它的代码:
https://github.com/AcademicTorrents

加入社群

    本站是提供个人知识管理的网络存储空间,所有内容均由用户发布,不代表本站观点。请注意甄别内容中的联系方式、诱导购买等信息,谨防诈骗。如发现有害或侵权内容,请点击一键举报。
    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多