分享

alphaGo zero,深度增强学习,通用智能的未来

 AI量化实验室 2023-10-12 发布于北京

这两天,又被alphago的进化版,alpha zero给刷屏了,又有一些外行出来末世论了。论文40几页,知识量很密集,还没有完全读完,大概扫了一下原理,和之前比这次有大的突破,还是很令人兴奋的。把这个版本翻译为“alpha 元”,挺有意思,元思考真的是人类的高级技能,而且是通用的高级技能。

之前版本的alpha go,建立在人类专家的数据基础上,效果当然非常好。但要知道,高质量的专家数据是可遇机遇而不可求。深度学习需要的数据量又非常大,需要需要大量、高质量的标注,需要很大的成本投入。同时,深度学习大部分是“监督学习”。也就是依葫芦画瓢,你让他画猫,可能就挺费劲,也就是泛化能力有限(虽然有一些迁移学习的研究进展)。

这次技术核心是“强化学习”。之前的文章我也提到,深度增强学习至少是通用智能的一条路,如果还要加维度,那可能是“知识图谱”。强化学习不需要人类棋谱了,也就没有人类知识的天花板了。而且这次alpha zero把之前的“两个大脑”合二为一,效率更高,搜索算法也改为简单的树搜索,这样训练的时间也大大降低。

蒙特卡罗树搜索(Monte Carlo Tree Search)并不是一种"模拟人"的算法。而是通过随机的对游戏进行推演来逐渐建立一棵不对称的搜索树的过程。可以看成是某种意义上的强化学习。这个可以另开专题来讲,一个很有意思的算法,不全是专门用于围棋,而是大部分棋类都合适。

但这仍然有边界,之前版本的alphago是没有任何泛化能力的,就是除了下围棋,啥也不会干。但zero的算法比较有意思,毕竟还是在一个透明全空间的博弈场景,但可以衍生一些应用场景了。如果能结合像IBM watson这样的认知技术,加上CNN/RNN的“看/听”能力。一个真的有点智能的通用工具没准就出现了(待续)。

关于作者:魏佳斌,互联网产品/技术总监,北京大学光华管理学院(MBA),特许金融分析师(CFA),资深产品经理/码农。偏爱python,深度关注互联网趋势,人工智能,AI金融量化。致力于使用最前沿的认知技术去理解这个复杂的世界。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多