131思维模型一强化学习模型和社会学习模型

碧海蓝天kx32di 2021-11-27

展开全文

约翰·杜威说过，一个人可以养成的最重要的习惯就是对继续学习的渴望。

微软CEO萨提亚·纳德拉说：“学习是改变命运的唯一机会”。那么学习模型有哪些？我们是如何学习的呢？下面和大家分享两个非常重要的学习模型，一个是强化学习模型，一个是社会学习模型。

一、强化学习模型

强化学习模型通过更高的奖励来强化行动。在强化学习中，个体要根据各个行动的不同权重来选择行动。权重较大的行动比权重较小的行动更经常被选中。分配给某个行动的权重取决于这个个体在过去采取这个行动时所获得的奖励（收益）。这种高回报收益的强化可以导致个体选择更好的行动。例如：如果一个人做了某件事获得奖励，他就会继续持续强化这个行为。

强化学习的灵感来源于心理学里的行为主义理论。其中桑代克是行为主义理论的代表人物之一。他是美国早期行为主义心理学家。他通过大量的实验，较早地对动物及人类的学习、教学原理和学习迁移进行深入的研究，被誉为“教育心理学之父 “。

其中，让饿猫逃出“问题箱”的学习是他的经典实验之一，具体实验情况是这样的:

桑代克用木条钉成的箱子里，有一个能打开门的脚踏板。当门开启后，猫即可逃出箱子，并能得到箱子外的奖赏，一条鱼。

试验开始了。一开始，饿猫进入箱子中时，只是无目的地乱咬、乱撞，后来偶然碰上脚踏板，饿猫打开箱门，逃出箱子，得到了食物。

接着第二次，桑代克再把饿猫关在箱子中，如此多次重复，最后，猫一进入箱中即能打开箱门。桑代克据此认为：

学习的本质是在刺激和反应之间形成联结。

学习的过程是不断尝试错误以形成联结的过程。

根据自己的多年研究，他提出了学习遵循的三条重要原则：

第一条准备律：指学习者在学习前的预备定势。在教学中就要做到不要搞突袭，要给与学生一定的准备。

第二条练习律：指刺激与反应之间的联结随练习次数的多少而增减或减弱，它包括应用律和失用律。应用律是指联系越多则联结力越强。失用律是指在一定时间范围内不练习，联结的力量就会减弱甚至消失。

第三条效果率：即如果个体对某种情境所起的反应形成可变联结之后伴随着一种满足的状况，这种联结就会增强;反之，如果伴随的是一种使人感到厌烦的状况，这种联结就会减弱。

桑代克认为，动物和人的行为的习得大都遵循这三条基本的定律。“效果律”后来被持这种学习观的理论家发展成为“强化”学说。

大数据时代的机器学习就是一种强化学习，强化学习（RL）本质上是一个序列决策问题。谷歌阿尔法狗就是通过强化学习训练出来的，他会对下棋的每一个步骤进行分析，选择一个最优策略，通过大量的练习和试错，提升自己的决策能力，最终战胜了人类。这种机器学习已经广泛的应用到智能交通、智能制造、无人驾驶、智能金融、智能客服等领域。

二、社会学习理论

强化学习假设个体是孤立采取行动的。但是，人们也会通过观察他人来学习。班杜拉在大量实验研究基础上，提出了“观察学习理论”。他是新行为主义的主要代表人物之一，社会学习理论的创始人，认知理论之父，美国当代著名心理学家，现任斯坦福大学心理学系教授。他所提出的社会学习理论是在与传统行为主义的继承与批判的历史关系中逐步形成的,并在认知心理学和人本主义心理学几乎平分心理学天下的当代独树一帜，影响波及实验心理学、社会心理学、临床心理治疗以及教育、管理、大众传播等社会生活领域。

1961年，班杜拉以学前儿童为对象进行了一个实验。首先让儿童看成人榜样对一个充气娃娃拳打脚踢，然后把儿童带到一个放有充气娃娃的实验室，让他们自由活动。结果发现，儿童也学着成人榜样的动作对充气娃娃拳打脚踢。这说明，成人榜样对儿童行为有明显的影响，儿童可以通过观察成人榜样的行为而习得新行为。

班杜拉认为：观察学习包括注意、保持、复制和动机四个子过程。

1.注意过程：即观察者注意并知觉榜样情景的过程。实验中，儿童看到成年人的行为，看到，了解到即为注意。

2.保持过程：即观察者记住从榜样情景了解的行为，以表象和言语形式将他们在记忆中进行表征、编码以及存储。保持就其内涵来说就是记住，实验中，儿童记住了成年人的行为以及由其带来的结果，这一过程就是保持。

3.复制过程：即观察者将头脑中有关榜样情景的表象和符号概念转为外显的行为。复制是指别人怎么做，我也怎么做，就是学习别人的做法，实验中成年人怎么做儿童也怎么做，这一过程就是复制。

4.动机过程：即观察者因表现所观察到的行为而受到奖励。儿童做出来与材料中榜样一模一样的行为并得到强化就是动机过程。

根据这一实验，班杜拉提出了观察学习的强化理论，他把强化分成以下三类：

1、直接强化：观察者因表现出观察行为而受到强化。即别人对自己强化。例如小张工作认真，领导表扬了小张，这就属于直接强化。

2、替代性强化：观察者因看到榜样的行为被强化而受到强化。例如：小李工作不努力，业绩没有达标，小张因为工作认真，超额完成业绩。领导没有批判小李，而是表扬了小张，这种做法就是替代性强化，被表扬的小张就是作为榜样存在的。

3、自我强化：人能观察自己的行为，并根据自己的标准进行判断，由此强化或处罚自己。例如，小李给自己制定了一个目标，每周拜访60个客户，完成了就奖励自己看一次电影，完不能就惩罚自己跑步10公里。过程中小李对自己的行为进行评价，这就是自我强化。

三、博弈中的学习

下面我们来看一个故事：《居心险恶的人与魔法灯》。在一次考古探险中，一个居心险恶的人发现了一盏青铜灯。他擦了一下灯，结果召唤出了一个精灵。精灵说：“我会赐予你一个愿望，因为我是一个仁慈的精灵。我可以给你想要的任何东西！不但如此，对于你认识的每一个人，我都将给予他们给你的两倍。”这个居心险恶的男人仔细想了一会，然后抓起了一根棍子，递给那个精灵，说：“好吧。现在请你抠出我的一只眼睛吧。”

这个居心险恶的人所采取的这个行动，在带给他一个很低的绝对收益的同时，又给了他一个高的相对收益。这给我们提出一个非常有意思的问题。一个是高绝对收益和低相对收益，一个是低绝对收益和高相对收益，你会怎么选择呢？假如你有两个选择，一个是自己加薪2000元，别人加薪3000元。一个是自己加薪1000元，别人不加薪。你选择哪一个呢？

在国家之间的竞争中，国家是最大化自己的绝对利益呢？还是保持自己在国际体系中的地位呢？就像冷战时期，美苏双方都放弃了绝对利益，而更关注自己的国家地位。

我们可以将绝对收益与相对收益之间的这种潜在冲突嵌入到一个N人博弈中。在这个博弈中，存在两类行为，一种行为是“慷慨大度”的，它在增加行为者自己绝对收益的同时，也会增加其他人的收益；另一种行为则是“妒忌狭隘”的，它会降低自己本来可以得到的收益，而且会使其他人的收益下降得更多。

如果我们在慷慨／妒忌博弈中应用强化学习规则，那么博弈参与者们都会学会做一个慷慨的人。因为强化学习只关注自己的收益，不会去观察别人。首要目标是自己收益最大化。

但是，如果我们在慷慨／妒忌博弈中应用社会学习模型，人们就会学会做一个妒忌的人。选择妒忌行动的那些博弈参与者所获得的收益都要高于选择慷慨行动的博弈参与者。这些结果突显了个体学习与社会学习之间的关键差异。

个体学习会引导人们选择更好的行动，因此人们会学会采取占优行动。而社会学习则引导人们选择相对于其他行为来说表现更好的行动。