武利琴,徐勇,王金環,李杰
網絡上的演化博弈稱為網絡演化博弈,能夠很好地刻畫生物系統、物流系統、社會系統、多智能體系統的演化規律,引起了眾多學者的廣泛研究,如文獻[1-4]就將網絡演化博弈與各個系統緊密地聯系在了一起。在一個網絡演化博弈中,節點和邊分別代表玩家和玩家之間的相互關系。在某些特定的策略調整規則下,玩家根據鄰居上一時刻的策略和收益,不斷更新自己下一時刻的策略。隨著時間變化,整個網絡演化局勢和博弈動態都在不斷變化。網絡演化博弈理論有助于理解合作的涌現及演化規律,經常被用于研究經濟管理方面的問題[5-6]。
當下經濟發展背景下,企業唯有不斷創新才能長久生存發展下去。由于創新成本高額,部分企業不愿意改變原有模式,每個企業都想追求自己的收益最大,然而對于政府或者整個社會來說,所有企業全部創新,才是最好的局勢。當前已有一些對企業間創新博弈的研究方法,如文獻[5-8],通過構建微分方程組,利用給定的初始條件,得到方程組的解。該解描述了企業的總體構成P(創新比例)隨時間的演化趨勢,并通過數據仿真方法將博弈動態趨勢以圖的形態呈現[9],然而并不能展示每一次博弈后整個企業網絡的博弈動態。
本文通過構建精確的理論框架來分析和控制企業創新網絡演化的博弈動態,獲得每次博弈后各企業的收益、策略等性質,主要運用了矩陣半張量積這種新的方法。半張量最先由程代展教授提出,成功應用于邏輯網絡的分析與控制[10-13],包括布爾網絡穩定性、可控性、可觀測性及最優控制[14-17]。半張量積在網絡演化博弈動態行為及策略最優控制方面的研究也取得了顯著成果[18-20],并在智能電網、經濟破產機制等實際問題中得到了廣泛應用[21-22]。同時,也可用于企業創新方面的研究。
在企業創新網絡中,本文將所有企業按規模分為大小兩種企業,建立企業創新雙層耦合網絡。網絡中各節點不同時刻采取的策略不同,會影響整個網絡的演化趨勢。因此可通過政府調控使得整個網絡都達到創新的穩定局勢,并能永久保持下去。
本節給出關于半張量積的常用符號、定義和基本性質。
定義1[10]設為與的最小公倍數,那么與的半張量積定義為

半張量積是普通矩陣乘積的一般化, 因此通常省略半張量符號”。
定義2[10]設。它們的Khatri-Rao 積, 記, 定義為

命題1[11]1)設及為兩列向量,則,其中維矩陣被稱為換位矩陣, 且;

引理1[18]假設和,則有,其中。
引理2[11]設是一偽邏輯函數, 則存在一個唯一的矩陣, 稱為的結構矩陣, 滿足

引理3[11]考慮一個值邏輯動態網絡:



本文主要考慮企業群體之間的創新問題。企業創新成本投入和風險承擔是必需的,由于其規模不同,導致資金周轉與風險抵御能力的差距巨大,因此將“智豬博弈”作為基本博弈是非常適合的。將參與博弈的企業群體按照規模分為兩類:大企業和小企業。將每個企業作為網絡中參與博弈的玩家,從而構建企業創新雙層耦合網絡,上層表示大企業群體,下層表示小企業群體。假設雙方創新成本為2,收益均為10。博弈分為4種情況:若大小企業都創新,雙方獲得創新收益比為7∶3;若僅大企業創新,小企業可剽竊大企業的創新成果,并搶先占領市場,兩者創新收益比為6∶4;若僅小企業進行創新,大企業可憑借其規模效應獲得更大的利潤,兩者收益比為9∶1;若大小企業都不創新,雙方收益均為零。對應基本凈收益矩陣:

對應上述雙層網絡演化博弈的過程構建模型。
2)基本網絡博弈:由兩個連通玩家(不同層)形成的基本博弈,且策略集,對應收益雙矩陣:

3)策略更新規則:采用確定性無條件模仿策略更新規則。玩家i 在時刻的策略模仿它同層鄰居在t時刻最優收益對應的策略,設

則

那么整個網絡的策略更新表示為

4)策略模仿優先權:若3)內策略更新規則中被模仿的鄰居玩家不唯一,令

則優先權如式(10):

網絡博弈隨著時刻的變化不斷更新策略局勢,對應收益函數也發生變化,從而形成動態網絡演化博弈。根據網絡的拓撲結構,可得到企業創新雙層耦合網絡的鄰接矩陣:



基于上述雙層耦合網絡演化博弈過程,考慮網絡純策略納什均衡(本文策略選擇是確定型的,因此在后文中全部簡稱為納什均衡)的存在性,本文采用確定型策略更新規則。
定義3[18]對于一個博弈,一個策略局勢是一個納什均衡,如果滿足對所有的均成立,其中是玩家集,是第i個玩家的策略集,且。
命題2[18]對于任給的,必然存在一個整數滿足,其中是值邏輯算子的結構矩陣,且滿足

引理4[18]對于雙層網絡演化博弈G =(S1,S2),支付函數滿足式(11)、(12),則存在一個納什均衡,當且僅當存在一個整數,滿足0,對應是所有納什均衡的集合,其中對于,


引理4只考慮了某一時刻該網絡博弈的納什均衡,而無法判斷隨著演化某些不穩定的局勢逐漸演化為穩定的納什均衡局勢。因此,計算整個網絡演化的轉移矩陣是非常有必要的。
由引理2和支付函數表達式(11)、(12),可得到整個網絡演化博弈的轉移矩陣,步驟如下:
1)重寫式 (11)、(12)為


小企業玩家的最優反應策略為

3)根據優先權式(10)模仿同組鄰居收益最大玩家的策略,有如下形式:

4)將3)中不同層的策略相乘,有

通過半張量積方法,由博弈動態方程式(13)可得到博弈結構矩陣。分析結構矩陣可得到博弈的穩定點、極限環,因此有定理1。


本部分通過政府調控改變基本博弈矩陣,從而使整個網絡的演化達到理想的局勢狀態,即大小企業全部創新,且為穩定或者最優穩定納什均衡狀態。大小企業選擇創新,由于投資成本過高,且收益相對減少,短時不能獲取到創新帶來的收益,因此政府通過調控誘發企業選擇創新策略是非常必要的。控制設計如下。

上述控制表示政府對企業的補貼與懲罰是同時進行的。設計控制的宗旨是政府對企業創新只起調控作用,盡可能少地進行投資或者獲利。因此可假設補貼力度與懲罰力度相同,即。

博弈矩陣改變后,重新計算式(13),可得博弈的轉移矩陣L,通過定理1和推論1分析博弈的演化性質。若達不到所有企業全部創新的理想狀態,則調整控制力度,直到大小企業玩家全部選擇創新策略。
上述調控借鑒了“智豬博弈”中防止小豬搭便車,促使大豬小豬都行動的思想,即政府通過同時對創新企業進行補貼,對不創新企業進行懲罰,從而干預企業的創新決策,促使大小企業全部創新。
本節主要通過舉例,研究增加政府調控后整個企業創新網絡的演化動態。
為了計算簡便,以3個大企業和2個小企業組成的企業創新網絡為例,分析演化博弈過程。網絡拓撲結構圖如圖1所示,其中第一層為大企業,;第二層為小企業,。

圖1 不同規模企業博弈結構圖Fig. 1 The game structure graph of different scale enterprises
根據網絡拓撲結構圖,我們可得到網絡的鄰接矩陣:


首先,根據引理4中的計算,有

其次,由博弈動態方程

得到L為

比較上述兩種情形可知,政府對企業的調控,有效遏制了小企業“搭便車”的行為,從而促使大小企業實現全部創新。
本文將所有企業按規模分為大小兩種企業,建立企業創新雙層耦合網絡。運用矩陣半張量積方法,以“智豬博弈”為基本博弈, 得到每一時刻各企業的策略,整個網絡局勢演化隨時間改變; 根據收益函數得到整個網絡的最優穩定納什均衡點; 最后,通過政府調控, 改變博弈的基本矩陣,從而達到最優穩定納什均衡狀態,即所有企業全部創新。