(北京工商大學 北京 102488)
協作學習是一種利用團隊形式組織學生合作學習,提高學習效率的學習方式,研究證明:“目前協作學習要比競爭學習、個人學習更能提高學業成績。”[1]小組協作學習是一項團隊活動,在團隊成員之間會存在理念、觀點和原則等差異,若這些差異處理得當,團隊的凝聚力就能夠得到加強。反之,則影響團隊合作和目標實現。[2]為了分析小組合作的具體情況,構建相關博弈論矩陣,分析得到3種具體的協作情況:合作均衡(小組內各成員均積極合作)、智豬博弈均衡(搭便車)以及囚徒困境(個人最優導致集體非最優)。
在運用中,智豬博弈均衡較為常見,由于不合理的獎勵機制,使積極合作的人獲得的獎勵與消極怠工的人差距不大,消極怠工的人可以坐享漁翁之利,導致能力強的人積極參與,能力弱的人消極怠工,智豬博弈均衡產生。同時為了獲得與勞動相匹配或更高的收益,參與者產生博弈心態,若積極合作收益小于消極怠工收益,將不愿合作,小組協作陷入囚徒困境,即所有人都消極怠工。這無益于協作學習模式的發展和學生能力的提高。因此,本文利用構建的協作學習博弈模型,探討智豬博弈均衡存在的條件、提出了防止其演變成囚徒困境的建議,這將促進更有效率的合作均衡實現。
李京杰等運用“智豬博弈”與“囚徒困境” 模型對協作學習中的合作與競爭問題進行研究,發現協作學習中存在“搭便車”現象。[3]史忠翠等運用“智豬博弈”模型,從“師生博弈”和“生生博弈”兩方面研究了小組合作學習。[4]在團隊合作中,有時由于個人對團體有依賴,產生惰性,降低了個體積極性,導致整體成效較低。[5]雖然這些研究分析了在組內協作中組員間的“搭便車”現象,即智豬博弈情況,卻忽略了智豬博弈后的惡化反應,為了解決這一不足,本文將深入討論智豬博弈惡化(即囚徒困境均衡)的具體情況,并就此提出改進方案。
為了簡化問題,設定參與人為A和B兩人,構建一個簡單的小組協作學習博弈模型。博弈過程中存在兩種基本狀態——積極合作與消極怠工。博弈基本性質為: ①組內成員具有“理性”且“理性”為共同知識;②完全信息靜態博弈;③非零和博弈;
(1)符號說明與模型假設
為了便于模型分析,假設一些符號表示模型。A:能力強者;B:能力弱者;I:小組總投入;a:A的投入占比;b:B的投入占比;l:A的能力系數;k:積極合作效應;k1:A的獨立效應;k2:B的獨立效應;p:A積極合作的概率;1- p:A消極怠工的概率;q:B積極合作的概率;1-q:B消極怠工的概率。
為了方便計算博弈收益情況,提出以下模型假設。
①假設成員能力不同,A為該組成績較優者,B為成績較差者,設B的能力系數為1,A的能力系數l>1。
②合作效應或獨立效應指合作或獨立作業產生的其他可能影響成績的特殊效果,如由于合作或者獨立時的環境因素或心態因素而產生的效益或損失。沒有合作或獨立效應時,標準效應為1,k>0,k1>0,k2>0。
③A、B合作完成小組作業,每一次合作的總投入為I (包括精力、時間等要素的投入),A投入占比為a,B投入占比為b,a+b=1,0<a<1,0<b<1。
④小組總收益與總投入I和效應k成正比。當A、B積極合作時,小組總收益與總投入I和合作效應k正相關,A積極合作而B消極怠工時,其總評成績與k1、投入aI正相關。當B積極合作而A消極怠工時,總評成績與k2和投入bI正相關。但合作收益超過獨立作業的收益。同時A、B消極怠工時,即無合作,無任何收益,值為0。
(2)小組協作學習模型的構建
根據以上說明,構造出A、B協作學習的支付矩陣,見表3。

表3 A、B協同作業支付矩陣
其中,
G1A=klaI-alI,G1B=kbI-bI
G2A=k1aI-alI,G2B=k1laI
G3A=k2bI-alI,G3B=k2bI-bI
G4A=0,G4B=0
雖然智豬博弈均衡是團隊協作博弈之中的常見結果,但智豬博弈均衡存在也是有一定條件的,下面將具體分析合作均衡、智豬博弈均衡和囚徒困境形成的條件。
(1)小組協作博弈模型的均衡條件分析
從A的收益角度分析,此時A對自己的行為具有完全信息,對B有不完全信息。A選擇積極合作還是消極怠工取決于它選擇積極合作(p=1)時的期望支付與選擇消極怠工(P=0)時的期望支付之差△ G的大小。顯然,
ΔGA=∑piqiGiA(p=1)- ∑piqiGiA(p=0)≥0
其 中,p1=p,p2=p,p3=1-p,p4=1-p,q1=q,q2=1-q,q3=q,q4=1-q
代入收益矩陣得:
ΔGA=lI[q(ka-k1a-k2b)+k1a-a]
若ΔGA≥0,得A合作的條件:
q(ka-k1a-k2b)+k1a-a≥0
由a+b=1得:
q(k-k1-kb+k1b-k2b)+k1-k1b-1+b≥0
此不等式的分析,將分為以下兩種情況:

②當q=0時,原式可化為k1-k1b-1+b≥0,得k1≥1,當A的獨立效用大于1時,當A會選擇合作時,ΔGA≥0時,取決于k1-1≥0這個不等式是否成立。即k1≥1時,A也會選擇積極合作去保證自己的收益,即這種情況下,A會積極合作而B會消極怠工,出現“智豬博弈”。
從B的收益角度分析,此時B對自己的行為具有完全信息,而對A有不完全信息。B選擇積極合作還是消極怠工取決于它對選擇積極合作(q=1)時的期望支付與選擇消極怠工(q=0)時的期望支付之差△ G的大小。
ΔGB=piqiGiB(q=1)- ∑piqiGiB(q=0)≥0
其 中,p1=p,p2=p,p3=1-p,p4=1-p,q1=q,q2=1-q,q3=q,q4=1-q
代入收益矩陣得:
ΔGB=p(kb-k2b-k1la-b)-k2b
若ΔGB≥0,得B合作的條件:
p(kb-k2b-k1la-b)-k2b≥0
由a+b=1得:
p[k(1-a)-k2(1-a)-k1la-(1-a)]-k2(1-a)≥0
此不等式的分析,將分為以下兩種情況:
①當p=1時,原式可以化為k(1-a)-k2(1-a)-k1la-(1-a)-k2(1-a)≥0,所以當B會選擇合作時,k≥1。k1、k2、l、a越大則要求合作效應k越大。ΔGA≥0,A積極合作,B也會積極合作,此時會出現合作均衡。
②當p=0時,原式可化為-k2(1-a)≥0,由于(1-a)≥0,k2≥0所以原式不成立,即當A消極怠工,B也不會合作。這種情況下,A消極怠工,B也會消極怠工,形成囚徒困境。
當ΔGA和ΔGB同時小于0時,綜上條件即在k<1和k1<1時,出現前“(消極怠工,消極怠工)”為納什均衡解,達成囚徒困境,即智豬博弈的惡化。
相較于合作均衡的收益,智豬博弈均衡并不是最優利益的均衡狀態 ,但在協作過程中,個體為了以最小成本獲取最大收益,往往容易陷入智豬博弈均衡。但相較于囚徒困境均衡,智豬博弈均衡是較優選擇。因此,本文將從三個方面為改進協作中智豬博弈均衡,促進合作均衡,防止智豬博弈惡化進行策略設計。
由于團體績效的獎勵機制不合理,小組協作會有“搭便車”現象。因此,在小組合作時,首先,選擇具有較高能力的人為組長,提高整體合作意愿;其次,在小組內部創造基于內部目標管理的競爭機制,即將小組任務做出明確的分工安排,細化為小組組員的個人任務,并進行集中控制,以此提高合作的效率。最后,設立有差別的評分標準,進行差異化打分,針對小組的工作效果進行公平的內部評價。
(1)營造良好合作環境,直接提高合作效應
k代表合作效應。首先,小組成員能力互補的程度以及是否有合適的機制實現優勢互補對合作效應的提高有重要影響,在組建小組時要選擇能力互補的各個成員,同時小組成員也可以積極培養自身的能力去提高合作效應。其次,良好的環境氛圍也可以很好提高合作效應,所以小組在組建時可以選擇同學或朋友或性格友善的小組成員,打造既可以輕松又可以專注的環境氛圍。最后,盡量避免隨機分組,防止成員間的陌生感影響合作效應。
(2)提高k1,k2值,間接增強合作效應
k1,k2代表的A、B獨立效應,k1、k2與客觀環境以及主觀心態的因素相關。A、B的獨立性越強說明合作一方的獨立性越強,越能容忍對方的“消極怠工”,越有意愿為整個小組付出更多。
(1)提高能力系數
能力系數越大合作收益會越大,兩者更可能選擇合作。能力系數可以提高智豬博弈均衡的上限,增強智豬博弈均衡的穩定性。能力較弱的一方能力的上升將縮小智豬博弈均衡收益的差距。對于能力較弱的一方,教師可以考慮單獨輔導教學,或者加強其鍛煉以提升其能力系數。如果雙方的能力持續上升,智豬博弈均衡會重新出現(以 k1不變為前提 )。雖然在此水平上的合作均衡收益仍大于智豬博弈均衡收益,但此時小組協作學習的總體能力已提升到新的高度,此時的智豬博弈均衡收益遠高于之前的智豬博弈均衡收益。
(2)增加合作投入
a、b分別代表A、B的投入占比,a、b越大且趨于一致,則越能增加雙方收益。a、b越大說明雙方越愿意為小組協作投入較大精力,而趨于一致可以增加公平感,從而提高合作效應,增加雙方的合作收益。如加入基于協作貢獻度的小組互評分數,及時反饋各自分配的任務的完成情況并相互監督,促使組員增加自己在小組合作的投入占比?;驅⑿〗M成員表現細化為幾個組成部分,依據時間投入、成效產出、小組凝聚效果、創新投入等多方面的組合評分方式計算得分,讓組員在各個方面的勞動付出都有具體成績,得到綜合評分。