劉赫


摘 要:本文闡述了動物行為訓練的生物學背景和相應的心理學和神經生理學原理,論述了動物四種學習方式以及動物訓練的兩種方法:強化和懲罰。
關鍵詞:行為訓練;條件反射;強化;懲罰
1 生物學背景和原理
動物的行為訓練就是一種學習行為,動物有四種學習方式:經典性條件反射、操作性條件反射、適應和復雜學習[1]。
經典性條件反射就是著名的巴甫洛夫條件反射,巴甫洛夫是前蘇聯著名的生理學家,曾因為對動物消化腺的創造性研究而獲得1904年諾貝爾生理學獎。巴甫洛夫對動物消化腺的研究主要以狗為研究對象。他與助手在對狗的研究中發現,當助手給狗食物時,狗吃到食物,會分泌很多唾液;此后又發現狗只要看到食物,就開始分泌唾液;再后來,只要聽到助手的腳步聲,狗似乎知道馬上就可以吃到食物,唾液地分泌也開始增加。巴甫洛夫系統研究了這種現象,提出了“條件反射”的概念,后人稱之為“經典條件反射”[2]。巴甫洛夫認為,條件反射形成的條件是無條件反射:食物吃到嘴里,引起唾液分泌增加,這是自然的生理反應,形成后不需要學習,這種反應叫做無條件反射;此時引發反應的刺激是食物,為無條件刺激,做出的反應是無條件反應。另外一種是條件反射:研究助手的腳步聲與狗的唾液分泌增加本來沒有必然的聯系,是一種無關刺激,或稱中性刺激;當腳步聲與食物同時、多次重復后,狗聽到腳步聲,唾液分泌就開始增加,這時中性刺激由于與無條件刺激聯結而變成了條件刺激,由此引起的唾液分泌就是條件反應[3]。
操作性條件反射是美國心理學家斯金納(B.F.Skinner)在本世紀30年代根據他所設計的實驗研究的結果提出來的[2]。斯金納設計了一種專用木箱——斯金納箱,箱內有一套杠桿裝置。將饑餓的動物置于箱內,它們在箱內亂跑、亂咬、亂撞,偶爾跳上杠桿,將杠桿壓下,這時杠桿帶動一個活門,從活門內掉出一個食物小球滾入箱內的木槽中,從而取得食物。以后動物再次進入箱內經過亂撞之后按壓了杠桿取得了食物,反復幾次之后,饑餓的動物一進入箱內,就會主動按壓杠桿取得食物。這樣就在壓杠桿和取食物之間形成了條件反射,斯金納稱它為操作性條件反射。操作性條件反射如以食物為非條件刺激,也可稱為食物運動性條件反射。將動物(如雞)放入實驗箱內,當它在走動中偶然用喙啄在杠桿上時就喂食,以強化這一動作,如此重復多次,雞就學會自動啄杠桿而得食。在此基礎上,可以進一步訓練動物只有當出現某一特定的信號(如燈光)后啄杠桿才能得到食物的強化,就形成了以燈光為條件刺激的食物運動性條件反射。這類條件反射的特點是強化了動物必須通過自己的某種運動或操作才能得到食物這一關聯,所以也稱作操作性條件反射,這是一種更為復雜的行為[2]。
斯金納的操作性條件反射又稱工具性條件反射,其結果是規范或改變動物的行為。動物通過自己的某種活動或操作得到強化而形成條件反射。動物對環境做出反應,從而得到獎勵,動物的行為在要求獎勵的時候是一種工具。在操作性條件反射中,動物通過展示特殊行為而受到獎勵或避免一個轉移性刺激。例如,動物進入一個指定區域,然后動物受到食物獎勵。在建立這種關系后,在下次動物更愿意進入指定區域。
適應是重復刺激導致行為減弱或消失的結果。 例如動物開始可能被巨大的噪音驚嚇,但如果噪音重復許多次,動物對噪音的反應開始變小。此時噪音作為一種刺激,逐漸轉變成被忽略的事物。
復雜學習基本上是一種無所不包的行為。科學家最初認為所有的學習都能概括為適應、典型條件反射和工具性條件反射。然而這三種學習形式不能解釋一些觀測到的學習,如有的動物通過觀察其他動物學會了作某些特殊的行為;或某些隱藏的學習,如大鼠第一次探索過一個迷宮,當再次通過的時候其速度會更快。
2 動物行為訓練的方法——強化
行為訓練的方法主要是強化和懲罰。強化是無關刺激和無條件刺激在時間上結合的過程,包括正強化和負強化[3]。正強化是使動物感到高興或愉快,同時增加其特殊行為發生可能性的作用;而負強化則是使動物感到不高興或不愉快,同時為了消除某些作用而增加其特殊行為發生可能性的作用。
與之相對有積極強化物和消極強化物,積極強化物是指能增強該反應與反應相伴隨的刺激,如水、食物、獎賞等;所謂消極強化物,是指與反應相伴隨的刺激物,從情境中被排除時可增強該反應。例如,將白鼠放進一特別箱子中,給予白鼠電擊直至白鼠按壓杠桿,經過幾次強化后,白鼠很快學會了壓桿反應,以逃避電擊。電擊即是增強壓桿反應的消極強化物,其他諸如強光、噪聲、批評等厭惡性刺激皆屬此類(見圖1)。
強化的程序分為連續強化和間歇強化,間歇強化一般可分為固定強化和非固定強化兩種,固定強化又分定時強化和定比強化[4]。定時強化是指以反應時間而非反應數量為單位來實施強化,如每隔3或10min給予一次強化,人類的計時工資即是一例。實驗表明,強化的時間間隔越短,動物的反應越快,反之亦然。此外,反應也隨著接近強化點時間的長短而變得或慢或快,即反應之初,速度較慢,而接近強化時間點時,反應則加快。一次強化之后,反應重新變慢,開始了下一個循環。所謂定比強化是指以反應的數量而非時間為單位來實施強化。如設定白鼠只有壓桿每20次才予以一次強化,人類的計件工資即是如此。實驗表明,如果強化比率的標準不是高不可攀的話,定比強化下的動物反應要快于定時強化下的反應。斯金納的研究還指出,如果使用非固定強化,即安排強化的時間間隔或反應次數不是以固定的標準出現,而采取變異的標準的話,這往往會克服固定強化的缺陷,而使得反應既穩定又均勻,而且難以消退。如果將固定強化和非固定強化混合安排使用,則效果非常好[5](見圖2)。
3 動物行為訓練的方法——懲罰
懲罰也是行為訓練的一個方法,合理地采用將有助于某些不必要行為的消失或減少[6]。懲罰的目的是為了降低或抑制某種行為的活動,并使某種行為消失或減少。通常我們都鼓勵采用正強化的方法進行訓練,然而,總用一種方式去實現行為訓練往往達不到預期的效果,此時就要考慮運用懲罰的方法來完成所需要的動作。當然,我們反對運用體罰或任何對動物身心有傷害的方法,我們這里的懲罰是中止獎勵、停止強化、中止行為訓練或訓練員可以采取走開的方法。為了減少不希望的行為,最有效的方法就是停止強化,讓這一行為慢慢消失[7]。特別是在行為訓練過程中動物顯示攻擊行為的時候,訓練人員可以采取中止行為訓練的方法;或者當發生了動物直接的攻擊行為后,訓練人員通過離開或走開作為對動物的懲罰。通過采取以上方法都能降低攻擊行為再次發生的概率。如果發現用中止行為的方法來降低攻擊行為需要頻繁地延長時間才能達到效果,那么此時就應該重新評估以上方法。如果采取中止行為訓練后動物仍然沒有降低攻擊的頻率,表明該方法對這一動物已經沒有效果了,需要采用新的技術來降低攻擊行為的發生或重新調查行為訓練的有效性[8]。
此外,要慎重采取其他的懲罰措施,由于實施懲罰的有效性是有限的,處罰并不能給動物恰當的行為,只能減少不希望行為的發生率[9]。而且懲罰是有消極影響的,盡管我們的本意是消除或減弱不希望行為,但是容易讓動物把懲罰和訓練行為本身聯系起來,從而建立條件反射。為了使懲罰有效果,懲罰必須要有即時性和恒常性,并有一定的力度。要求在每次這種行為出現的時候都給予實施,不能有時懲罰,有時容忍。這樣會把動物的行為準則弄混,分辨不清到底什么樣的行為才是我們所要求的。總之,在實際訓練中要具體問題具體分析。只要訓練者對期望的某種行為予以獎勵,這種行為就會得到強化,反之就會消退。若施予懲罰,則會加快消退的速度。(編輯:郭遠)
參考文獻:
[1] Mellen J., Ellis S, D. Kleiman, M. Allen, K. Thompson, and S. Lumpkin. "Animal learning and husbandry training." In Wild Mammals in Captivity, eds[J]. Chicago: University of Chicago Press, 1996, 88-99.
[2] 尚玉昌. 動物的經典條件反射和操作條件反射學習行為[J]. 2005, 40(12): 7-9.
[3] 彭聃齡主編. 普通心理學[J]. 北京師范大學出版社, 2001.
[4] 郭志宏. 經典性條件反射與操作性條件反射的比較[J]. 內蒙古科技與經濟, 2005, 101-103.
[5] 章永. 間歇強化程序及其運用[J]. 樂山師范學院學報, 2006, 89-92.
[6] Kirtland, J. "Operant definitions of reinforcement and punishment: Getting the jargon right."[J]. Elephant Managers Association Newsletter, 1994, 5(1): 23-25.
[7] Poole, T. "Principles involved in training animals." In Animal Training: A Review and Commentary on Current Practice[J]. Cambridge, U.K.: Universities Federation for Animal Welfare, Potters Bar, 1990.
[8] Kirkwood, J., Kichenside, C., and James, W. "Training zoo animals." In Proceedings of Animal Training Symposium. A Review and Commentary on Current Practices[J]. Cambridge, U.K.: Universities Federation for Animal Welfare, Potters Bar, 1989, 93-99.
[9] Daniel Q. Estep. Two Programs Educating the Public in Animal Learning and Behavior International Journal of Comparative Psychology[J]. 2002, 15, 242-248.