潘金磊 葉爾德尼
淺談犬訓練獎勵的原則
潘金磊 葉爾德尼
獎勵是為加速培養(yǎng)和鞏固犬的能力,增強犬行為出現(xiàn)的幾率,以及犬服從指揮,做出正確動作的正強化方法,是犬訓練的重要有效方法。獎勵時,需要注意哪些問題?掌握什么原則?大量的訓犬書籍里只闡述了獎勵的方法,很少有關于獎勵原則的論述。原則是對原理進行總結歸納而得出的規(guī)則,是對原理的高度概括。懂得原理,才能想出方法,不懂原理,只會方法,永遠只能停留在照貓畫虎,依葫蘆畫瓢的水平上。懂得原理,總結出原則,可以創(chuàng)造出各種各樣的獎勵方法,原則重于方法,方法來源于原則。不懂原理,輕者,只能發(fā)現(xiàn)問題,不能解決問題,甚至,根本發(fā)現(xiàn)不了問題。理解了原理,掌握了原則,才能發(fā)揮獎勵的最佳增強效果。通過訓練實踐,歸納總結出了以下五條獎勵的原則。
不怕警犬不工作,就怕警犬沒愛好。不同的犬,不同的犬種,其喜好的東西是不同的,所以對于犬的獎勵方式,也是千差萬別的。獎勵時,只有因犬制宜,投其所好,才能完全調(diào)動犬的積極性,使犬充滿訓練的激情和動力。在平時和犬的接觸中,喜歡吃的食物,喜歡玩的游戲,用犬喜好的東西去獎勵它,才能充分發(fā)揮犬的主觀能動性,使犬積極主動地學習、工作。
獎勵只有及時,才能有效。過早的獎勵和過晚的獎勵,都會降低獎勵的效果。
犬在完成動作之后的兩秒鐘內(nèi),進行獎勵,才能明白是獎勵的哪個行為。當然,這是在保持動作沒有發(fā)生改變的情況下。如果在兩秒鐘內(nèi),動作已經(jīng)發(fā)生了變化,那么,獎勵增強的行為是和獎勵出現(xiàn)的時間間隔最接近的行為,獎勵已經(jīng)錯過了最佳時機。獎勵時,一定要在動作完成后的兩秒鐘內(nèi)且動作沒有發(fā)生改變時進行。在動作過程中進行獎勵,同樣也能起到增強效果。例如,當犬在坐下的過程中進行獎勵,犬會更加努力地去重復這個行為。獎勵時機過晚不但對正確的行為沒有增強效果,而且會造成大量訓練問題。例如,當犬坐下,主人用 “好”的口令獎勵犬時,犬正好又回到站立的姿勢,主人到底獎勵的是犬的哪個行為?犬理解的是站立的行為。 每當發(fā)現(xiàn)訓練出現(xiàn)問題時,首先要考慮的是獎勵的時機是否太晚。如果訓導員在訓練中忙得無法分心留意,這時可以請助訓員幫忙觀察,看看自己獎勵的時機是否太晚,這對于掌握獎勵的時機將會大有幫助。
過早給予獎勵也可能沒有效果。在行為出現(xiàn)前給予獎勵,完全無法強化這個行為,因為受到獎勵的是犬沒有發(fā)生的行為,此時的獎勵,完全起不到增強行為的效果。
獎勵只有與行為的難易程度相當,恰到好處,才能起到獎勵的效果。什么時候給予什么樣的獎勵,在犬訓練中極為重要,獎勵恰到好處,事半功倍。知道獎勵,而不知道該給什么獎勵,往往會造成勞而無功、事倍功半的不良后果。
利用食物進行訓練獎勵時,訓導員常搞不清楚食物獎勵的份量應該是多大,答案是盡可能越小越好。食物獎勵越小,犬能越快吃掉食物,不但可以減少訓導員等待的時間,而且每次練習時還可以增加食物獎勵的使用次數(shù),不會讓犬一下子就吃飽吃膩了。一般來說,一小口食物足以讓犬保持興奮,如果是特別喜愛的食物,份量甚至可以更少。行為的難易程度應當與食物獎勵的大小相當,食物的大小雖然沒有一定的定律,但是有時候工作越艱難,報酬將會越大,如果我們完成了艱難工作卻未獲得相應的報酬,我們肯定埋怨不已。
激動的獎勵方式能燃起犬激動的情緒,慢條斯理的獎勵方式,能穩(wěn)定犬激動情緒,可促使性格急躁的犬心理放松。訓練時,根據(jù)犬的工作狀態(tài)和訓導員的訓練需求,選擇適合的獎勵方式;需要犬處于興奮狀態(tài)時,選擇激動、興奮的獎勵方式,需要犬處于平穩(wěn)狀態(tài)時,選擇慢條斯理的獎勵方式。例如,快速撫拍犬胸部的獎勵方式和慢速撫摸犬被毛的獎勵方式,其效果是完全不一樣的,前者用于燃起犬激動的情緒,后者使犬心理放松,穩(wěn)定犬的情緒。
獎勵的持續(xù)時間,對訓練的效果,也極具重要作用。在訓練進行的過程中,選擇持續(xù)時間短的獎勵,往往不會中斷犬的思維,便于犬學習和訓練。而在訓練結束時,選擇持續(xù)時間長的獎勵,可以使犬徹底地放松神經(jīng)中樞,對下次訓練充滿期待。
犬接受訓練初期,要簡化犬得到獎勵的過程,讓犬很容易得到獎勵;訓練后期,形成犬牢固條件反射之后,要慢慢增加獲得獎勵的復雜程度,這樣才有利于增強犬連續(xù)作業(yè)的能力。例如,當犬依照口令完成了某一動作,獎勵時,把玩具拋進草叢里讓犬去尋找,而不是直接得到玩具,這就是一個具有復雜程度的獎勵。
一位研究老鷹的生物學家注意到,如果老鷹在某處樹叢下抓到老鼠,隨后約有一星期的時間它每天都會到該處偵察,它飛過那個特定地點的幾率已經(jīng)被強烈增強。如果你在垃圾桶里撿到一張百元鈔票,我相信你以后再次經(jīng)過這個垃圾桶時,肯定會走過去向垃圾桶里瞧瞧。這些行為之所以被增強,是因為無形之中獲得了意外獎勵。
對于已經(jīng)具有一定訓練基礎的犬,為了避免犬形成定性思考,獎勵的類別和大小,一定要變幻莫測。下一個出現(xiàn)的獎勵是什么?是物品?是食物?是犬最喜歡的食物還是一般喜歡的食物?讓犬永遠摸不清楚規(guī)律,變幻無常,犬才會對獎勵充滿期待。
獎勵時,獎勵出現(xiàn)的位置,不能恒定不變,如果經(jīng)常右手掏球獎勵犬,犬就會盯著右手出現(xiàn)的地方,長此以往,會形成不良聯(lián)系。例如,在誘導獎勵訓練時,可以左手誘導、左手獎勵,左手誘導、右手獎勵,右手誘導、右手獎勵,右手誘導、左手獎勵等等,不停地變換獎勵出現(xiàn)的地方。另外,獎勵物可以從身體的任何一處出現(xiàn),要讓犬永遠都猜不到,下一個獎勵即將在哪里出現(xiàn)。
出其不意的獎勵,往往會有出其不易的效果。在訓練中,訓導員都遇到過無論怎么重復、大聲地喊口令,犬還是一動不動的情況。此時,性格暴躁的訓導員,往往壓制不住內(nèi)心的怒火去打犬,造成訓練半途而廢,犬恐懼主人。
出其不意的大獎是一個對動物或人類都極為有效的技巧。大獎是指非常大的獎勵,甚至可能比平常大十倍,而且訓練對象沒料到它會出現(xiàn)。遇到犬不聽話、害怕或抗拒而完全不服從口令的行為時,偶爾給一次大獎極有可能有效改善犬的反應。不知道這種不勞而獲的大獎為什么具有如此效果顯著的作用,只知道當我們什么都沒做時,卻得到了意外的獎勵后,我們會加倍努力的工作,其中原由一直沒弄明白,也許是為了得到更大的獎勵,也許是對自己不勞而獲的愧疚。
以上獎勵原則,只有在平時訓練中多加注意,嚴格遵守,融會貫通,才能取得意外的訓練效果。
(作者單位:潘金磊,新疆伊犁州新源縣公安局刑警大隊,835800;葉爾德尼,新疆塔城地區(qū)烏蘇市公安局刑警大隊,833000)
(編輯:顏 勤)