劉 洋 張建華
在警犬訓練過程中,強化與懲罰的運用是關系到訓練效果的直接因素。但是大多數訓導員極易將強化與懲罰的概念混淆,或者說知道兩者的概念,但是在實際訓練中只注重使用正強化與正懲罰,而忽略負強化與負懲罰的運用,這也是導致訓練效果不理想的主要原因。本文從懲罰與強化的區別、懲罰的特點及影響懲罰效果的因素及其在警犬訓練中的應用等方面進行簡略探討。
懲罰是指當犬出現某種行為后,呈現、增強厭惡刺激或失去、減少正強化物的獲得,從而使犬的這種行為出現的頻率降低、減少。“呈現、增強厭惡刺激”被稱為正懲罰,“去除正強化物”被稱為負懲罰。
強化是指當犬出現某種行為后,呈現強化物或者去除厭惡刺激,從而使犬的這種行為出現的頻率提高、增多。“呈現強化物”被稱為正強化,“去除厭惡刺激”被稱為負強化。
由此可見,懲罰與強化的本質區別是目標行為減少與目標行為增多。
在探討懲罰手段及運用之前,訓導員一定要對懲罰的特點及影響懲罰效果的因素有一個系統全面的掌握,方能正確有效地使用懲罰手段糾正犬的不良行為。
懲罰有立即性、情境性和復原性三大特點。立即性是指犬將要做出不良行為還未完全實施不良行為時立即糾正,方能達到“立竿見影”的糾正效果。情境性是指懲罰具有明顯的“時過境遷”現象,場地和懲罰者的變化都會引起犬不良行為的反彈。復原性是指懲罰容易導致犬的不良行為“死灰復燃”,在使用懲罰的同時,一定要注重強化犬的良性行為來鞏固糾正效果。
影響懲罰效果的因素有以下七個方面:一致性、延緩性、連續性、變化性、時機、機體先前的狀態、對替代行為的強化。一致性是指對不良行為進行懲罰,同時要避免懲罰無意中成為強化。延緩性是指發生不良行為的第一時間進行懲罰,如果錯過最佳懲罰時機的,可以刻意制造犬再次犯同樣錯誤的情境,當犬再次發生同樣的不良行為時及時給予懲罰。連續性是指糾正不良行為的初期,當犬不良行為頻繁出現時,有針對性地對同一不良行為使用連續懲罰,當不良行為發生頻率下降后使用間歇懲罰。變化性是指經常變換懲罰方式有助于提高懲罰效果,但不等于一次糾正使用多種懲罰方式對犬進行懲罰。時機是指不良行為出現便立即懲罰。機體先前的狀態是指對于正懲罰而言,任何能增強刺激事件的厭惡特性的事件都能提高懲罰的效果,任何能降低刺激事件的厭惡特性的事件也能削弱懲罰的作用;對于負懲罰而言,饜足可以使某些強化物的損失的懲罰作用減弱,而剝奪則可以使某些強化物的損失的懲罰作用加強。對替代行為的強化是指懲罰不良行為,對替代不良行為的反應即良性行為進行強化。
正懲罰主要有機械刺激、反應限制、矯枉過正等技術方法。機械刺激是指在犬出現不良行為后,使用手、木棒或電擊脖圈等及時給予犬擊打或電擊的厭惡刺激。反應限制是指在犬出現不良行為時,馬上采取措施對犬的身體進行限制,以阻止或制止犬不良行為的繼續發生。矯枉過正是指當犬不良行為發生后,設置與其發生不良行為相同的場景,復盤糾正,當犬有不良行為表現的苗頭傾向時,第一時間給予犬一個厭惡刺激,直至犬無視相關誘導其犯錯的誘導物,不再出現不良行為。
負懲罰主要有隔離(也稱罰時出局、暫停強化)、反應代價等技術方法。隔離是指在特定的情境中(犬會獲得正強化的情境)當犬有不良行為出現,將犬帶離一段時間,使其在隔離期間無法獲得強化的機會,從而使不良行為未來發生的可能性減少。反應代價是指當不良行為出現時,去除一定數量的強化物,從而使不良行為未來發生的可能性減少。
不了解這兩種技術的訓導員可能認為二者沒有不同,但其實是有顯著區別的,隔離強調的是將犬帶離場景,阻斷犬獲得強化物;而反應代價強調的是直接減少或完全去除強化物。
行為一定是正在發生或發生了的反應或動作,一個行為可以是由多個行為構成的。比如:當訓練犬銜取時,訓導員使用繩球逗引犬,犬先是注視繩球、再是跟隨繩球運動方向左右、上下運動,最后當訓導員認為犬注意力和興奮狀態達到較高點時,使犬銜住繩球并扯拉繩球讓犬獲得繩球或吐球給予食物等方法獎勵結束訓練。但是當犬在其中某一環節或者說是某一個行為出現問題的時候,訓導員要單獨將這一行為拎出來進行糾正。這過程中,犬可能在逗引過程中受外界干擾分心,對繩球不專注;或者犬銜不牢繩球或占有欲過強經常誤傷訓導員等。這里講的都是不良行為,訓導員必須清楚地知道要糾正哪一個不良行為,在訓練中才能做到有的放矢。
在糾正犬不良行為之前一定要做好懲罰前的準備工作,如明確某種替代行為來糾正犬的不良行為、盡可能地控制犬出現不良行為的情境、訓導員或助訓員懲罰的態度、標準要一致等。對照影響懲罰效果的七大因素及時、連續、有變化地對犬的不良行為給予懲罰糾正。在實施懲罰過程中一定要注意對不良行為的懲罰不能伴有強化,確保懲罰不成為強化,但是對不良行為的替代行為可以進行強化等。
新訓導員極有可能掌握不好懲罰的時機,導致良性行為被懲罰,將會使犬不知所措,并減少良性行為的發生;延遲懲罰是達不到糾正的效果的,懲罰和強化一樣,時機應該在犬的行為出現后無限接近0 秒的時間做出才能達到最好的效果;懲罰不當,如過度懲罰(等同于體罰犬)或懲罰過于輕微都達不到糾正不良行為的目的。
訓練過程中應多使用正、副強化和負懲罰,而少使用正懲罰。因為正懲罰會造成以下副作用:易使犬產生不良情緒甚至出現攻擊行為,可能造成犬逃避訓練或厭訓,也可能成為一種強化即懲罰成癮(訓導員只是懲罰的實施者,只有犬才知道訓導員施于的懲罰是厭惡刺激還是強化)等。
總之,科學運用懲罰手段是糾正犬不良行為的有效途徑,也是確保犬訓練成功的重要秘訣。筆者認為只有訓導員能夠清醒地認識行為與懲罰強化的關系,才能快速、高效地訓出合格的工作犬。