中山大學新華學院 湯海濱
?
有限重復占優策略博弈在團隊培訓中的應用研究①
——基于大學生團隊的分析
中山大學新華學院 湯海濱
摘 要:越來越多的企事業單位希望大學生具備團隊合作精神,而調查發現,大學生其實具有很好的團隊合作意識,但缺乏有效的教育和引導。本文基于有限重復占優策略博弈理論,針對大學生團隊設計了全新的“紅黑博弈”游戲,并在四個年級、六個班級、超過四百名大學生中進行了項目體驗,通過對大學生團隊的實際行為反應進行觀察,探討有限重復占優策略博弈在團隊培訓中的應用。
關鍵詞:占優策略博弈 團隊培訓 信任 合作
的研究。
隨著博弈理論在各領域的持續深入,團隊成員的重復博弈行為也在理論上得到了深入研究。從20世紀80年代開始,經濟學家霍姆斯特姆(Holmstrom)運用博弈論與信息經濟學的分析方法,探討了如何解決團隊生產中的“搭便車”難題,形成了團隊激勵理論的基本框架。拜瑞 · 內勒巴夫(Barry J.Nalebuff)和亞當 · 布蘭登勃格 (AdamM.Brandenburger) 1996年合著出版的《合作競爭》認為,企業經營活動是一種特殊的博弈,是一種可以實現雙贏的非零和博弈。在企業的經營活動中必須進行競爭,同時也有合作,因此提出了合作競爭的新理念。
博弈理論已經逐漸應用在企業等組織開展團隊訓練和團隊管理的實踐中。陶金元、楊德鋒在對一個基于重復非合作占優策略博弈而設計的培訓項目“商戰模擬”進行分析的基礎上,探討了有限重復占優策略博弈的非合作解與合作解的差別,并對該培訓項目進行了深入的理論分析,從個體理性、偏好、利益以及激勵約束制度等方面,探討如何促成一個良性的競爭合作團隊。
越來越多的企事業單位也希望大學生具備團隊合作精神。眾多學者利用博弈理論對大學生團隊合作能力進行了探討,如黃越等人利用博弈理論分析了大學生團隊合作精神培養的必要性;王雷等人從團隊合作的行為機理出發,運用博弈論方法探討了機會主義行為對個體合作行為選擇的影響。
然而,眾多學者的研究更多停留在理論層面的分析上,尤其是大學生團隊合作精神的培養,一直缺乏有效的行動方案而只局限于理論,未能在教學過程中得到大量的應用,也不能有效吸引學生參與。本文基于有限重復占優策略博弈理論,針對大學生團隊設計了全新的“紅黑博弈”游戲,并在四個年級、六個班級超過四百名大學生中進行了項目體驗,通過對大學生團隊的實際行為反應進行觀測,探討有限重復占優策略博弈在團隊培訓中的應用。
“紅黑博弈”游戲是兩個團隊之間進行的有限次博弈,具體操作規則如下。
兩個小團隊為一個大組,同一個大組內的兩個團隊將進行六輪博弈。每個團隊手上有紅、黑兩張卡片,每一輪只能選擇展示一張卡片。根據兩個團隊雙方的卡片顏色,其收益如表1所示。

表1 紅黑對應收益表
每個小團隊人數為3~6人,一個教學班可分成12個或14個小團隊。小團隊內部決定本輪選擇的策略。在討論期間團隊內部要達成一致,之后在決策期間派一名代表出來展示本團隊的決定。團隊代表只向講師展示卡片,避免被其他人看到。游戲一共進行六輪,在第三輪時將公布各隊前三輪的選擇,第六輪結束后再公布一次剩下三輪各隊的選擇,如表2所示。

表2 團隊對應輪次表
每個團隊追求自身利益最大化,即盡量使自己團隊的得分最高。最終所有團隊的得分會在一起進行展示,但講師不強調全班的得分排名。游戲要求兩個小團隊獨立進行決策,但允許團隊之間進行溝通。同時,將兩個博弈團隊的位置設計得較遠,每次只允許派一名代表前往另一個團隊處進行溝通。
3.1 占優策略分析
在一些博弈中,如果對于某個參與者而言,存在一個與其他競爭對手可能采取的策略無關的最優選擇,則稱其為占優策略。我們有理由相信若此參與者是理性的,則必然會選擇這個策略。在“紅黑博弈”游戲中,對于兩個參與者而言即存在占優策略。
對于團隊甲而言,當團隊乙選擇出紅色時,甲的最優策略是出紅色(甲出紅的收益-1大于出黑的收益-3);當團隊乙選擇出黑色時,甲的最優策略是出紅色(甲出紅的收益5大于出黑的收益1)。即不論團隊乙選擇出紅色或者黑色,團隊甲都應該選擇出紅色。
同理可以分析團隊乙的占優策略也是選擇出紅色,如表3所示。
于是,在這個博弈里,每個參與者都有占優策略,即(紅、紅)策略成為最終的博弈結果,并且該策略是一個標準的占優策略均衡,即納什均衡。在這一策略組合中,其他參與人都堅守這個策略組合中的策略不變的情況下,沒有參與人可以通過改變自己的策略而得到一個更高的收益。

表3 團隊甲(乙)的占優策略
但是,這種均衡結果所產生的效果卻比他們都選擇其劣策略時要低。如果兩個團隊都堅持選擇(紅、紅)策略,則六輪收益值為(-6、-6)。而如果兩個團隊都堅持選擇(黑、黑)策略,其六輪收益值為(6、6)。這是一個典型的社會兩難問題,博弈雙方由于沒有形成一個具有約束力的協議,最終成為兩敗俱傷的局面。而若雙方能夠形成一個有約束力的協議,則(黑、黑)策略將會成為這一非合作博弈的合作解。
此外,對于團隊總效用而言,若用U代表一個大組兩個小團隊的總效用,則U=U甲+U乙,U的取值范圍是Φ={-12,12}。而U甲與U乙的取值范圍卻要大得多,團隊甲(乙)效用的取值范圍φ={-18,30}。當總效用U取得最大值12時,對于單個團隊而言,其效用值6僅位于取值范圍的中點。
3.2 有限次重復
本游戲雖然一共進行六輪,然而,由于每輪博弈雙方的信息并未及時公布,而只在第三輪和第六輪公布兩次。因此,從實質上來看,只相當于進行了兩輪博弈,即前三輪博弈和后三輪博弈,而期間的三輪博弈由于信息的不公開而處于黑箱的狀態。在這一博弈中,出黑是合作策略,雙方都能獲得最佳的結果;而出紅是欺騙策略,通過犧牲對方來獲取自身利益。于是前三輪的收益如表4所示。

表4 前三輪紅黑收益表
此時,對團隊甲(乙)而言,最優策略是前三輪合作而后三輪欺騙。因為如果前三輪團隊甲(乙)選擇欺騙,則后三輪團隊乙(甲)必然選擇欺騙,此時最大收益為12,小于前三輪合作而后三輪欺騙的最大收益18。而這一設計在增強兩個團隊前三輪合作可能性的同時,也強化了后三輪團隊選擇欺騙的可能性。從合作到欺騙的變化過程進一步考驗了人性,強化了團隊管理中良性競爭合作的重要性,欺騙的危害性。
3.3 路徑選擇
本游戲中(黑、黑)策略將會成為這一非合作博弈的合作解,此時兩個團隊的六輪收益值為(6、6)。而這一整體最優策略還可以通過另一路徑得以實現,即甲、乙雙方各自選擇三次{(紅、黑)、(黑、紅)}組合,最終兩個團隊的六輪收益值同樣為(6、6)。這一路徑在策略分析上與(黑、黑)策略結果一致,但是卻增強了團隊雙方合作的風險。而這一策略的重要意義在于對其他團隊造成的影響。
如果兩個團隊達成一致協議,采用這一策略,則由于信息公布的不及時性以及黑箱效應的存在,當第一次公布信息時所展示的信息如表5所示。

表5 團隊前三輪信息表
這會給其他團隊一個暗示,即這兩個團隊正在選擇互相欺騙。從參與團隊成員的反饋信息可以發現,至少超過20%的團隊受到了這一信息的影響。
“紅黑博弈”游戲是一個經過微調的有限重復占優博弈模型,并且在體驗式培訓市場上的“商戰模擬”項目的基礎上針對大學生團隊的特點進行了改良設計。通過對這一游戲中大學生團隊的實際行為反應進行觀測,我們很容易得到一些對于在一個團隊內部如何克服團隊內部的兩難問題,增強團隊合作意識和水平的指導思想和方法。“紅黑博弈”游戲選取了2011、2012、2013、2014級共四個年級的學生參與,一共六個教學班級418人。其中三個班級為自然教學班,即這些班級的學生一直都是同班上課,學生之間彼此非常熟悉。另外,三個班級為混合班級,即這些學生來自不同的自然班,學生彼此之間并不熟悉。基本情況如表6所示。
4.1 大學生團隊選擇合作策略的比率很高
在全部參與游戲的團隊中,有45%的團隊選擇了六輪合作策略,最終實現了總效用的最大。這一比率遠超過在企業員工培訓時的比率。在選擇合作策略的團隊成員的總結分享中可以發現,一部分學生之所以選擇合作是因為他們認為記分是以一個大組,兩個團隊的總分加和來記,因此,選擇合作可以獲得更多的團隊總分。
內部化理論認為,在市場不完全的情況下,企業為了謀求整體利潤的最大化,傾向于以內部市場來代替外部市場。當博弈團隊甲、乙雙方建立信任比較困難時,內部化可以有效避免欺騙風險的發生。此時,在一輪博弈中,甲、乙雙方的收益完全發生了變化,如表7所示,(紅、紅)策略成為明顯劣勢策略,應該首先被避免。

表6 “紅黑博弈”游戲參與團隊基本情況表

表7 內部化后的團隊總效用
4.2 團隊成員的熟悉程度,會影響博弈雙方選擇欺騙還是合作
三個自然班的學生團隊選擇欺騙的比率為44%,而混合班則為65%。多名參與者表示,因為大家是一個班的同學,所以一旦達成合作協議,就不好意思改變。而事實上,選擇欺騙的團隊中,有超過40%的團隊組合是團隊甲對團隊乙的單方面欺騙。最終,這些團隊的得分非常高,完全實現了個體利益最大化的目標。但是,這些團隊無一例外受到了其他學生在道德上的譴責,而他們自己也表示“贏了比賽,輸了信任”。
4.3 信任一旦被打破,就難以再次建立
前三輪選擇過欺騙的團隊,后三輪沒有一個團隊組合能夠再建立起信任。這一行為與理論分析并不一致。從之前的理論分析可以發現,參與者基于充分理性和利益最大化,從而形成占優策略均衡。而當他們發現實際結果并不能獲得最大收益時,會選擇合作。但是,大學生團隊的行為表明,他們在面對過一次欺騙行為后,就不再接受合作策略。從參與人員的總結中可以發現,許多人寧愿承受更大的損失,也不愿意選擇再次相信。
這一結論對于許多以大學生為目標市場的企業而言具有重要的提示意義,贏得大學生的信任遠比跟他們談論利益更能贏得市場。
4.4 團隊內部的意見紛爭會影響決策
大部分團隊內部發生了激烈的爭吵。一些參與者將大部分的時間用于團隊內部的溝通而不是兩個團隊之間的溝通。少數參與者表示“我們更關注我們應該怎么做”。
4.5 大學生容易受外界環境的影響
只有一個大組選擇了連續三輪(紅、黑)策略后,再連續三輪(黑、紅)策略。但是,全班其他團隊全部受到了這個大組的影響,并使50%的團隊改變了策略。事實上,前三輪選擇欺騙策略的團隊非常少,而后三輪選擇欺騙策略的團隊要多得多。許多參與者在總結中表示,自己本來是支持選擇合作策略的,但是當發現有別的團隊選擇了欺騙策略后,就改變了主意。
因此,即便是一個對團隊或組織有利的策略,一旦受到更大利益的誘惑,也容易發生背叛的行為。要避免欺騙行為的發生,并不在于參與者的意志有多堅強,決心有多大或者多么有恒心、毅力,而是如何讓參與者避免更大的利益誘惑。“紅黑博弈”游戲雖然從本質上只進行了兩大輪博弈,然而,每一次公布信息前有三輪博弈,其實就是讓同樣的利益誘惑重復三次。而許多團隊在前五輪合作的基礎上,最后一輪選擇了欺騙。從策略角度分析,第六輪的欺騙和后三輪的欺騙本質是一樣的,而后三輪連續選擇欺騙策略的收益要大于只在第六輪進行欺騙(假如一方選擇欺騙而另一方選擇合作)。但是,42支選擇非合作策略的團隊中有30支是最后一輪才選擇了欺騙。
4.6 自動排名機制
雖然講師沒有強調全班成績會進行排名,然而,幾乎所有的團隊都自動對全班團隊成績進行了排名,并以此來判斷最終成績。這也是部分團隊選擇內部化的原因之一。這與大學生長時間的學校成績排名有關。然而,排名帶來的卻并不總是積極的情緒。一些參與者表示“當發現前三輪有團隊選擇了欺騙策略之后,我們就已經知道有團隊的成績會比我們更糟糕了。”這種由排名帶來的向后看的情緒有時會影響到組織績效。而大學生經過十幾年學生生涯關于排名的強化訓練之后,來到企業所帶來的排名情緒的變化,值得人力資源管理者關注。
4.7 女生比男生更容易選擇相信
在所有的參與團隊中,有一些團隊正好是全部由女生組成的,而另一些團隊正好全部是男生組成的。而這些團隊的數據顯示了一些比較有趣的信息。所有全女生的團隊都選擇了合作策略,而全男生的團隊超過90%在后三輪選擇了欺騙策略。于是,當全女生團隊與全男生團隊分在一個大組進行博弈時,得到的最終收益為U=(-6,18)。在所有的游戲參與者中,一共有六個團隊三個大組出現了全女生團隊與全男生團隊的博弈,最終的結果完全一致。男生們完整地展示了從合作到欺騙的全過程,而女生們的總結基本歸結為“不能相信男人的話”。
5.1 大學生具有很好的團隊合作意識,但缺乏有效的教育和引導
許多企業如網易公司、中國電信、保利地產等每年的應屆畢業生新員工都會組織一次大型的關于團隊建設的培訓活動,通過對培訓師們的訪談發現,大部分大學生具有很強的團隊合作意識,然而他們缺乏必要的團隊合作技能。
而在大學內的調查顯示,大部分大學生參與團隊活動的積極性不高,其中一個重要原因就是部分大學生認為團隊活動較多流于形式,起不到實質的作用。有些看起來場面熱鬧、人氣很旺的社團活動,有時只是在做表面文章,掛上色彩紛呈的條幅和標語,而不能引導學生去思考,因而對于培養大學生團隊精神的效果并不明顯。另外,學校在團隊精神的培養方面,雖然有開設相關的課程,但更多只是泛泛而談,過于理論而不能吸引學生的興趣,因而也就無法提高大學生的團隊合作技能。
在“紅黑博弈”游戲中,我們發現大學生團隊選擇合作策略的比率遠高于企業員工團隊。這也說明大學生需要的并不是如何給他們強調團隊合作的重要性,而是教會他們如何進行團隊合作,引導他們進行思考、分析和解決問題。
5.2 從參與者的反饋可以發現,大學生群體是一個相對單純的群體,他們更容易建立信任
受情感關系的影響更大,即便是游戲,也會受實際同學關系的影響,感性分析勝過理性分析。對越親密的同學關系,越具有責任、承諾和可靠性,而相對疏遠的同學則不容易產生愧疚感。關系的親近程度是決策的重要參考依據。這種更多基于感性而非理性的思考一方面使他們更愿意相信自己身邊最親近的人;另一方面當他們遭遇欺騙時,許多人寧愿承受更大的損失,也不愿意選擇再次相信。
5.3 基于情感的信任很容易建立,但不具有可持續性
通過對有限重復占優策略博弈模型的分析可以發現,每一輪的原博弈性質是一樣的。前后六輪的原博弈,構成一個典型的重復的非合作占優策略均衡模型,其結果我們運用重復博弈的向后歸納法分析,每個原博弈的結果必然是同樣的不合作策略,即“紅”,甚至繼續向后重復幾次都是同樣的結果。
然而,大部分大學生團隊在前三輪選擇了合作策略。參與者們對此現象的解釋是“大家都是同學,當然要相信他們”。而大部分的欺騙策略發生在后三輪,也就說明沒有任何制度約束,僅靠情感是難以抵御利益誘惑的。尤其是三個全女生團隊與三個全男生團隊的博弈,充分展示了從合作到欺騙的全過程。因此,在團隊管理實踐中,團隊內部的協議、契約或者激勵約束制度是保證團隊持續前進的基礎。
5.4 從“紅黑博弈”游戲的過程分析,可以發現許多大學生團隊矛盾、糾結的內心過程
在這一游戲的理論分析中可以知道,這一游戲本質上只是進行了兩次重復博弈,而前三輪和后三輪博弈由于信息的不透明,其實質只是一次大的博弈被分解成了三次。因此,一旦確定博弈策略,則三輪的策略應該是一致的。但是,很大一部分選擇非合作策略的團隊僅僅只是選擇了一輪欺騙策略,而且還有些團隊并不是在第六輪選擇欺騙策略,而是在第四輪或者第五輪。他們一方面希望實現自身的利益最大化,另一方面又“不忍心傷害自己的同學”。
而這也與目前大學教育所處的矛盾境地有關。一方面,大的社會環境教育人們,追求自身利益最大化是理所當然的。但另一方面,學校作為一個相對純凈的象牙塔,提倡的是人性的“真、善、美”。當利益最大化與人性的善良壓縮在一個游戲里時,大學生的選擇充分展示了在一個缺乏有效制度約束的環境下人們內心的糾結與矛盾。
培養大學生團隊合作精神已經成為企業和學校的共識。基于有限重復占優策略博弈理論而設計的“紅黑博弈”游戲,通過學生的參與、總結、分享,來發現團隊合作與競爭過程中存在的問題,進而引導學生思考、分析和解決問題。而基于游戲過程中所展示的關于大學生團隊的一些特點,也有利于相關教育人員和未來企業管理人員采取針對性措施進行教育、引導和幫助。
參考文獻
[1] 易定紅,彭鵬.經濟學中團隊激勵理論述評[J].教學與研究,2006(11).
[2] 王艷潔,王雷.培養大學生團隊合作精神的博弈論思考[J].時代教育(教育教學),2011(09).
[3] 白雪,黃越.對大學生團隊合作精神研究——基于博弈模型的分析[J].出國與就業(就業版),2011(18).
[4] (美)拜瑞·J.內勒巴夫(B.J.Nalebuff),(美)亞當·M.布蘭登勃格(A.M.Brandenburger),著.合作競爭[M].王煜昆,王煜全,譯.合肥:安徽人民出版社,2000.
[5] 陶金元,楊德鋒.重復占優策略博弈在團隊培訓中的應用及啟發——基于一個體驗式訓練項目的思考[J].上海管理科學,2011(05).
[6] 迪克西特.策略博弈[M].北京:中國人民大學出版社,2014.
[7] 華冰,王豐華,景春波.大學生團隊精神培養對策研究[J].才智,2012(29).
中圖分類號:F224.3
文獻標識碼:A
文章編號:2096-0298(2016)05(b)-171-04
基金項目:①中山大學新華學院教育教學改革項目“物流專業課程實踐教學方法研究”(2014J009)。
作者簡介:湯海濱(1982-),男,講師,碩士,主要從事團隊管理方面