楊雅斌 陳 勇
(1.佛山職業技術學院 工商管理系,廣東 佛山 528137; 2.廣州工商學院 物流系,廣州 510850)
進入21世紀,企業之間的競爭不再是傳統的一對一爭奪資源之戰,企業和上下游供應商的關系也不再是簡單的業務往來,而是形成了一種供應鏈競爭與利益共享的戰略合作伙伴關系。 因此,企業雙方應將目光放遠,做好長期合作的打算,建立一種以合作和信任為基礎的戰略合作伙伴關系,通過共享信息實現優勢互補,增強供應鏈與其他供應鏈的競爭力。
建立供應鏈戰略合作伙伴關系可以達成更有效的交流,降低不確定性造成的損失,減少外部因素的影響和管理成本,從而達到規模效應,實現共同目標和雙贏模式。目前,企業要想從供應鏈中尋找效益,需要借助博弈理論,成為新時代供應鏈的引航者。
供應鏈合作伙伴關系(supply chain partnership,簡稱SCP)是供應鏈成員(供應商、制造商、分銷商、零售商、客戶等)之間在一定時期內共享信息、一起承擔風險、一起獲利的協議關系。近幾年,企業考慮將自身業務與合作伙伴業務集成,不僅可縮短企業之間的距離,而且還能促進先進技術的發展。如今,大多成功企業都從原先的主從關系轉向打造供應鏈戰略合作伙伴關系。
企業供應鏈成員之間是否建立合作伙伴關系,涉及供應鏈各成員之間的博弈問題。博弈論是研究有理性的主體在做出決策時,另一方主體所采取的應對決策而獲得的均衡問題[4]。基于博弈理論,某一成員的收益與自己的行為和與之交易的參與者有關。
作為理性主體,個體在合作取舍方面,一定是基于成本—收益考慮的。為便于分析,下面將基于制造商和供應商之間的戰略伙伴合作關系來探討供應鏈戰略合作伙伴關系模型,假設雙方的收益結構相同,用支付矩陣表示雙方博弈組合。供應商與制造商的支付矩陣如表1所示。

表1 供應商與制造商的支付矩陣
其中:C代表合作,N代表不合作。e表示雙方合作時每個企業的收益,e>0;f表示雙方不合作時企業的收益,e≠f;g表示企業背叛對方時的收益,g>0;h表示雙方企業都背叛對方時各自的收益,e>h且g≠h。
在理性經濟人和不違背合作協議的前提下,供應鏈中的每個企業都以個體利益最大化為目的,這時的供應鏈企業合作伙伴達成的是非完全合作博弈,一般來說非合作博弈屬于小概率事件。下面以供應鏈合作伙伴中的供應商和制造商為例,闡述納什均衡和重復博弈的原理及運用。
1.2.1囚徒困境
(1)供應商與制造商的非合作博弈
博弈論中的“囚徒困境”模型說明,兩囚犯決策的最終結果都是基于個體理性考慮,在所選擇策略的基礎上達到均衡,即納什均衡(坦白,坦白),但從整體最優考慮,卻是最糟糕的結局。從“囚徒困境”博弈我們可以得知一個事實:個體理性與集體理性的沖突,即個人追求最大利益的行為,通常無法使得社會利益最大化,也很難真正實現個人自身利益最大化。
透過供應鏈內制造商與供應商的博弈過程,可分析出供應鏈內企業之間的競爭性對立關系。每個企業的選擇對彼此都有著影響,其可能結果如表2所示。

表2 制造商與供應商的支付矩陣
表3給出了制造商與供應商的不同選擇所得到的結局。由表3中數據可知,企業如果只考慮自身利益的話,雙方博弈的最優策略選擇是(2,2);如果雙方合作的話,那么選擇策略(8,8)是最優的。由此可見,只考慮自身利益的企業將使雙方都陷入“囚徒困境”。為此,雙方必須達成協作,才能獲得共同發展。

表3 供應商和制造商的支付矩陣
(2)供應商與制造商的合作博弈
在現實情況中,個體理性與集體理性的矛盾不可避免,為此,我們需要設定一種具有約束力的激勵機制,使局中人既能滿足個體理性又能實現集體理性。在上例不合作博弈的基礎上,假定企業雙方預先給定一個約束:如果任意一方違背約束協議的話需要付出很高的代價。我們不妨假設制裁成本分別為X1,X2,然后將決定采取一致行動——雙方合作。
根據約束協議,開始交易時雙方都傾向合作的策略(8,8),雙方都將獲得8單位的收益,總收益最大為16。但有限理性和機會主義傾向的存在,有可能使供應鏈節點上的企業從自身利益出發,單方面撕毀約束協議,以求獲得更大的利益。
當10-X1<8且10-X2<8時,即違約成本X1,X2都大于2時,不可能使得有機會主義傾向的企業違約,這樣就鞏固了供應鏈長期戰略合作伙伴的穩定性,實現了個體理性基礎上的團體理性。
通過數據分析可知,一次性的博弈使得參與者只考慮短期的利益,如果違約者受到的懲罰不夠大,雙方很難選擇合作博弈。當今,由于供應鏈合作意識比較淡,很多企業仍然處于對立狀態而非合作關系,雙方選擇非合作性的博弈往往來自利益沖突。
1.2.2重復博弈
如果將上述博弈模型作為重復博弈的原博弈,則若此博弈重復進行有限次,使用逆向歸納法易得出:有限次重復博弈的均衡解與一次博弈沒有什么區別;如果供應商與制造商的合作是持久的,則此博弈可認為是無限次重復博弈。下面我們以觸發策略為基點,預測重復博弈的均衡。
觸發策略是指在第1階段選擇合作,且在第t>1階段,如果所有前面t-1階段的結果都是(合作,合作),則選擇合作,否則選擇不合作[6]。分析過程如圖1所示。

圖1 觸發策略
由圖1可以看出,從參與人角度出發,由于博弈可以循環往復,博弈雙方為了長期利益采取試探性的選擇。在第一次博弈時選擇合作策略以尋求對方的合作,一旦另一方為了短期利益而采取不合作行為,那么就會建立該對弈者是不可信任的理念,在下一次博弈中將采取不合作的行為,使對弈者的長期利益受損。
可見,若局中人都采取這種觸發策略,那么選擇(合作,合作)始終是無限重復博弈的均衡結果。由于供應鏈戰略合作伙伴的建立是直接的、長期的,則采取這種策略對參與雙方而言都是最優的,因而為納什均衡。也就是說,如果進行多次博弈,參與者會選擇長遠利益從而選擇不同的均衡戰略,使得在一次性博弈中有可能達成合作,從而實現更好的均衡。
供應鏈是一個動態系統,穩定性是系統良好運作的前提。由于存在個人理性與團體理性的差異,如何使企業走出短期行為的困境,實現企業利潤的帕累托最優,需將博弈理論引入供應鏈合作伙伴關系穩定性的研究。
在博弈論中,帕累托最優和帕累托改進是兩個重要的專業術語。帕累托最優假定有限的人群和資源,如果改變現有分配狀態的話,在不損害一個人的利益情況下,不會使其他人變得更好[7]。而帕累托改進(Pareto Improvement)基于帕累托最優(Pareto Optimality)基礎之上,是指在不減少一方福利的同時,重組現有資源分配模式來增加另一方的福利。一般帕累托改進應用于閑置資源和失效的市場中。圖2是基于兩級供應鏈下合作博弈的帕累托改進。

圖2 兩級供應鏈的帕累托改進
對供應鏈進行管理之前,用無差異曲線I表示上游企業A和下游企業B的總體盈利水平。其中,R點表示實際獲利水平。對供應鏈流程進行管理之后,上游企業A和下游企業B的總體獲利水平得到提升,用無差異曲線II表示。其中,無差異曲線II的ST段為帕累托改進閉區間,該閉區間內所有的分配方案都能獲得帕累托改進[7]。綜上,企業A最高的獲利水平由OM提高到OP,企業B最高的獲利水平由ON提到到OQ[8]。
由上述的分析得出:總收益的增多,在基于帕累托改進的基礎上,供應鏈上各節點企業也能從中收益,從而達到一個新的帕累托最優狀態。個體自身利益的增加,無形中對各節點企業有更多的誘惑力和激勵,使得博弈雙方能夠建立并維系雙方合作的策略。
參考文獻: