【原】都是狗做对就奖励，我和专业训犬师有何不同？

巨小萌 2020-11-18

展开全文

科学养宠上巨小萌

阅读全文，大概需要6分钟

我回来的时候它很热情的亲我，该不该奖励它？

它大部分时间都很听话，我老想奖励它，会不会太频繁了呢？

奖励总是要给吃的吗？怎样的奖励最有效呢？这次我们就来谈谈奖励。

我们曾经说过，对狗狗而言除了食物，还有很多行为可以成为奖励（详情→《对狗狗而言，原来这些都算奖励》）。在知道什么是奖励之后，如何正确运用奖励，才能把奖励效果最大化，让狗狗更开心。

狗狗必须觉得这是奖励

奖励必须让狗狗感觉到！每只狗狗都有自己独特爱好，都会重视某些奖励，比如大多数狗狗都不能抵挡零食的诱惑。而且不同奖励在狗狗心目中的地位，可能每一刻都不同。

举个例子，一个鸡肉干，在上一刻是最具吸引力的奖励。但是这一刻它身边多了一大群狗狗，这时候它只想去玩。对你的表扬、抚摸、一块鸡肉干都感到索然无味，给它一句“去玩吧”，才是当下最具有吸引力的奖励。

也就是说，你可以把让狗狗分心的事物，转换成强化行为的奖励，这种狗狗能感知到并强烈认同的奖励，对正向引导良好行为会发挥最大功效。

奖励要立即，延迟奖励容易犯错

奖励必须立即，和惩罚一样，因为延迟奖励总会是强化错误的行为。

举个栗子，如果狗狗在和其他狗玩，听到召唤立即飞奔回来你身边，称赞就别给的太迟了。因为狗狗可能会无聊坐下或者向你扑跳，而迟来的奖励就变成表扬坐下或扑跳。稍微一慢，奖励的行为可能就完全不一样。

延迟奖励还有其他风险，就是产生“抑制好习惯”的悲剧效果。举例说，如果狗狗听话地回到你身边，却因为扑跳而受到惩罚，这项惩罚不但强烈抑制扑跳行为，也部分抑制了良好的召回行为，最后狗狗听到你的召唤就不想回来了。你应该立即奖励狗狗的正确行为，也应该立即惩罚狗狗的不良行为，这样才能强化好习惯和抑制坏习惯。

何时奖励能达到最佳效果

关于何时该奖励、何时不该奖励动物，就有成千上万的科学研究报告。动物心理学研究使用了好几种不同的强化奖励机制：

别怕，因为上面很多奖励机制都只适用于学术研究，生活中并不实用。

连续强化其实只出现在实验室里面，一般通过电脑控制分配奖励。连续强化在训犬方面能发挥的功效相当有限，首先没有任何训练者，能那么精确连续地为狗狗的每个正确回应给予奖励；其二狗狗如果接受连续强化作用，一开始会积极学习，很快就会烦厌抗拒，这种奖励没法长久实施。

同样的，如果使用固定时距奖励，就等同于我们每个月定时发工资，反正你都知道不管中间有没有偷懒，到点就会发工资，有的人就会在中间偷懒。这样的奖励时间机制，同样对狗狗没什么效果。

推荐你使用“变化强化”的方式，去处理给予奖励的时机。变化包括正确行为的执行次数，或者一个正确行为执行时间的变化。

例如我们要狗狗学会坐下这个指令，那么第1次做到有奖励，第4次、第12次、第17次、第20次分别也有奖励。把5次奖励变化地分配到20次正确回应中，而不是平均的进行分配。

如果要狗狗学会安静等待，我们可能要在等待5秒、等待20秒、等待13秒、等待34秒的时候给予奖励，而不是每次达到15秒时给予奖励。

一开始就使用变化奖励

当你用奖励诱导狗狗进行训练时，可以从一开始就使用变化的机制。

如果狗狗一开始就做对了，然后你要尽快开始降低奖励的比率，要求它做出两次正确的行为才给予一次奖励。

有一点非常重要，不要让狗狗每次做出同样的行为都必然获得奖励。如果这样做，它确实会学得很快，但也会忘记得很快。如果奖励的时机是偶然和随机的，它会学得很快，也会记得更牢固，会更努力争取好的表现。

为什么变化性的强化奖励能有这样的效果？明明它获得的奖励数量是比连续强化少得多。

如果连续奖励，狗狗确实得到更多奖励，但也更容易对奖励感到厌倦，失去兴趣和新鲜感，奖励就没有意义了。

此外，狗狗知道就算自己回应得晚了，只要回应，也会有奖励，那我还急什么急？甚至觉得“反正这次不做对，下次做对了也会有奖励”，那么这次懒得做，就下次再做呗。

为什么双十一大家发疯一样买买买？因为知道错过了可能就没机会，如果天天双十一，你还会疯狂买买买吗？

没带零食时，变化机制价值就凸显了

玩抓娃娃机，你不停的投币进去，一次又一次可爱的公仔都在边缘滚动，你心痒难熬，总期待下一次它就会掉到你的手里。在经过不断的思考、努力、投币之后，你付出了远超过娃娃本身的费用，终于抓到了一个娃娃！这一次奖励的成就感，让你重新进入下一次的投币……

狗狗也是一样，通过你变化机制的训练，它知道会有奖励，但不知道什么时候有。当没有奖励的时候，它不放弃也不埋怨，只会继续努力的表现。

总有一些时候你手边刚好没零食，这时你并不需要着急担心，因为你平时的训练已经打下良好基础，它仍然会有正确的反应。

持续变化，狗狗不断进步

人脑和电脑不同之处，是能感受到生命中情绪的细微变化。同样一个捡球的行为，每次狗狗的回应都是有细微差别的。除了在上面说的随机变化之外，我们更应该通过观察狗狗每次表现的细微差别，去奖励它最优秀的那些表现。

10次捡球，第3次反应快，第4次等待特别有耐心，第12次特别专注又愉快，这都是我们可以加强奖励的时机，让狗狗知道它有越好的表现，会得到越及时、强烈的奖励，最优秀的一次表现甚至可以获得超级大奖。

通过对时机、表现的把握，我们灵活运用奖励去对狗狗进行训练和行为强化，训练就变成一个特别有趣的互动游戏，而且是一个学无止境、精益求精的过程。狗狗的行为、情绪、性格，都在整个过程中得到正向的引导和塑造，你终将获得一个越来越默契、服从性高、心态正面积极的生活伴侣。

参考

Dinsmoor, James A. (2004) " The etymology of basic concepts in the experimental analysis of behavior ." Journal of the Experimental Analysis of Behavior , 82 (3): 311-316.

Michael, Jack. (1975) " Positive and negative reinforcement, a distinction that is no longer necessary; or a better way to talk about bad things ." Behaviorism , 3 (1): 33-44.