生成式对抗网络(GAN, GenerativeAdversarial Networks )是一种深度学习模型,是近年来复杂分布上无监督学习的方法之一。模型通过框架中两个模块:生成模型(GenerativeModel)和判别模型(Discriminative Model)的互相博弈学习产生相当好的输出。原始GAN 理论中,并不要求 G 和 D 都是神经网络,只需要是能拟合相应生成和判别的函数即可。但实用中一般均使用深度神经网络作为 G 和 D 。一个优秀的GAN应用需要有良好的训练方法,否则可能由于神经网络模型的自由性而导致输出不理想。以AlphaGo为例,其经历了从AlphaGo到AlphaGo Master再到AlphaGo-Zero的过程。其中AlphaGo&AlphaGoMaster依赖人类历史数据训练和自我博弈;AlphaGo-Zero则有了质变,不是依赖人类数据而是依靠神经网络自身进化。AlphaGo&AlphaGoMaster通过对历史棋谱的深度学习完成策略网络的构建,采用深度学习技术训练一种有监督学习型走棋策略网络,类似于我们的观察学习获得的第一反应。通过自我对战强化学习来提高博弈水平,采用强化学习技术来优化先前的走棋策略网络,通过自我博弈的强化学习迭代结果,来提升前面的策略网络。即与之前的“自己”不间断训练以提高下棋的水平,这个过程有点类似于人类的巩固学习和理解贯通阶段。通过深度回归学习构建估值网络,用来预测自我博弈强化学习数据集里局面的预期结果,即预测那个策略网络的局面会成为赢家。结合蒙特卡洛树(MCTS)搜索压缩搜索空间,降低了搜索时间复杂度, MCTS决策有效结合了策略网络和估值网络,类似于人类的判断决策过程。AlphaGoZero做了较大改进,一是完全抛弃了历史棋谱的学习,训练学习从无到有;二是改进了原强化学习的形式,只使用一个神经网络而不是两个神经网络,通过将这个神经网络与MCTS搜索算法相结合,通过左右互搏自娱自乐,按设定的走棋规则随机开始围棋小白式的学习,靠激励、惩罚的强化学习机制来纠正学习过程中的错误,调整提升学习能力。这种机制已经很接近完全无监督学习,摆脱了对人类标注数据的依赖。将“GAN”(生成对抗神经网络)这类机机对抗模式从任务导向性延伸至逻辑问题或一般性问题研究,此类AI的应用将会更加强广泛。AI投资方向:由小到大,由易到难