一種基于多Agent 系統的協同競技模型

2013-10-21 00:53:54王秋茸

電子設計工程 2013年12期

王秋茸

（西安體育學院網絡管理中心，陜西西安 710068）

現代競技體育對博弈論已經有了相當的重視，中國最早的博弈論可以追溯到戰國時期的“田忌賽馬”，甚至如今仍然成為一個競速模型而被發揚，比如就有基于“田忌賽馬”的博弈模型研究競速機器人比賽的決策問題的實例[1]。1928年，馮·諾依曼證明了博弈論的基本原理，從而宣告了博弈論的正式誕生。從理論上來說，博弈論是研究相互依賴、相互影響的主體理性決策行為以及這些決策的均衡結果理論，互為依賴并且相互影響的決策行為及其結果的組合則被稱為博弈[1]。博弈論是信息科學研究的一個重要方向，對于競技中的博弈現象通過抽象可以建立較為完備的邏輯體系。在現代競技中，由于體系規模對壘的出現，不但需要立足于博弈論，更需要重視平臺內部主體間的協同。

樸素的古希臘文明指出協同是關于合作的科學。亞里士多德用“整體大于部分之和”的論斷評價了協同的重要意義，時至今日，這一觀點仍在社會生活中受到人們的普遍認可和重視，系統科學研究領域“新三論”中德國理論物理學家Hermann Haken 提出的協同學更是把協同的研究作為一門專門的學科來指導生產實踐。現代體育中，競技體育是一項協同運動，尤其是以體系對壘的競技體育中存在大量的戰術協同，包括活動協同與信息協同，體現了開放系統的一種涌現現象。比如籃球、棒球等球類比賽，個體能力再強，也無法單獨取得比賽的勝利，只有全隊間的協作配合，才能有取勝的可能。因此在進攻時，擊球員不能只為自己考慮才如何擊球，而要從全隊的利益出發考慮應如何擊球，如果本隊在壘上有跑壘員的話，就要想到那個跑壘員怎樣能進到下一壘，或者是怎樣才能讓他得分等。這些問題的思考與解決的過程正是一個協同工程的實施。而這些理論的應用與表達在實際中經驗成分較多，科學的信息模型較為欠缺，信息技術的發展使得仿真這些戰術協同具備可行性，文中旨在通過提出一個一般的競技體育的協同模型來解決平臺博弈中的多主體競技中的協同戰術模擬。

1 體育競技中的協同

體育競技中存在著若干協同關系，基本分為角色聯盟與角色平臺，即可以是角色內（同一角色不同主體之間）協同、角色間（不同角色主體之間）協同。

1.1 協同競技

在軍事學中，現代戰爭必須貫徹的原則之一就是“協同作戰”，實際上協同競技更像是協同作戰的訓練和實驗。協同可以分為相同主體間的協同和不同主體間的協同。如在體育競技中有擔任賽場的同一角色不同主體間的協同，以及不同角色之間的協同。同一角色的不同主體可以通過協同形成技術聯盟以更強大的執行力完成一個任務，而不同角色的不同主體通過協同形成互為補償的綜合執行平臺來完成單個主體無法勝任的任務。

1.2 現代競技體育是平臺對平臺的協同式博弈

現代系統論中的協同學說指出，開放系統在遠離平衡態情形下，在一定條件的子系統間的相互作用和協作中，這種系統會形成有一定功能的自組織結構，在宏觀上產生時間結構或空間結構，或者時間—空間結構，從而達到新的有序狀態。現代體育競技是一個開放系統，即使是單主體參與的比賽仍舊具有平臺參與的特點，用于實施競技前端的主體要受到若干后臺主體甚至若干保障子系統的支撐。沒有支撐子系統之間的良好協同，無法成功地完成一次競技。比如一個競技平臺通常由運動員、教練員、替補、后勤保障等組成。

在現代運動訓練體系的架構環境中，為滿足專項競技需要而逐步專項化的運動員機體，本身就是一個逐步遠離自然平衡狀態的多重復雜系統[2]。競技平臺的競技能力由預備狀態向目標狀態轉移的實現過程，毫無疑問地要緊密依賴于具有自組織功能的競技團體和具有非平衡系統特性的運動訓練體系內部多重子系統間的相互作用和協作。

2 多智能體的協同

如何基于平臺實現靈活資源配置？如何協同使用能力互補？如何構成執行協同任務的“能力支持系統”？這些是協同競技關注的研究課題。

2.1 Agent 和MAS

智能體（Agent）是一個物理的或抽象的實體，它能作用于自身和環境，并能對環境做出反應。是一類在特定環境下能感知環境并能自治地運行的計算實體。它接受從環境中感知的信息，并產生相應的動作作用于環境，這種交互過程可以是一個循環連續的過程[3-4]。

智能體具有以下特性：

1）自治性，即智能體能在沒有操作人員和其它智能體的影響控制的情形下，對特定環境做出響應，并根據感知的信息調整自己的狀態和行為；

2）反應性，智能體不但可以通過感知信息對環境做出被動反應，而且可以根據自身的需求對環境主動做出動作，調整環境要素來適應自身更好的發展；

3）社會性，如同人是社會的成員一樣，智能體也是眾多智能體形成的交互社團的一員.它在自主運作的同時與外部環境和其它智能體交互協作，并可以積極協商消除沖突；

4）主動性，智能體在與環境和其它智能體的逐漸交互過程中具有學習能力，能不斷更新自己的知識庫，提高了環境適應能力和系統行為能力。

作為競技主體的人可以跟智能體一一對應，比如眼睛、耳朵等作為傳感器子系統，手、足、口及身體的其他部位作為執行器。因此通過Agent 可以模擬一個理性的主體。

通常Agent 在解決某一問題時，其能力是單一的，但若干個Agent 通過通信和協同，形成一個Agent 聯盟或綜合體，卻可以解決非常復雜的問題，完成困難的任務。這種聯盟或綜合體就稱其為多智能體系統。

多智能體系統MAS（multi-agent systems）是指由多個Agent 組成的一個較為松散的多Agent 聯盟，這些Agent 成員之間相互協同，相互服務，共同完成一個任務。各Agent 成員的活動是自制和獨立的，其自身的目標和行為不受其它Agent 成員的限制，它通過競爭或磋商等手段協調和解決各Agent 成員的目標和行為之間的矛盾和沖突。

2.2 基于角色網絡（RN）理論的MAS 協同

在RN 理論中，角色是一系列職責和權力的集合，角色的職責定義了該角色的執行實體在實現某一目標時應進行的活動；角色的權力定義了角色的執行實體對哪些資源具有使用權限，即為了使其順利完成任務系統需為其提供相關數據、知識、運行環境等。角色具有下述特征[4]：

1）職責規定性，角色的職責由一活動序列的執行來實現；

2）事件驅動性，角色可以接收來自其它角色或系統外部的事件，并進行相應處理有選擇地做出應答；

3）業務描述性，業務通過角色之間的交互描述；

4）概念集合性，角色概念描述了一類參與者個體的行為，具有集合性；

5）個體獨立性，角色是相互獨立的，但他們之間通過交互進行通信。

將RN 理論與Agent 技術結合可以形成多Agent 協同業務流程。基于角色能夠建立基于 RN 理論的業務流程（RNBP）模型，為了基于Role 技術建立Agent 協同業務流程ACBP 設計模型，需要建立RNBP 模型到Agent 協同網絡模型的映射，包括角色與Agent 之間映射，以及角色屬性與Agent 屬性之間映射。該模型為建立具有柔性化自動化智能化的業務流程模型提供了一種有效方法。

3 基于多Agent 系統協同競技

3.1 競技平臺的模型表示

在一個一般的體育競技中，描述協同MAS 系統需要建立的Agent 可以分為情境感知Agent，決策Agent 和執行Agent。

實際操作中，在某些情形下，一個平臺運作的競技系統具備可重構性。基于以上觀點可給出下面的Agent 模型。

一個角色Agent 可以表示用一個六元組表示為

其中：A 是Agent 的標識集合；S 是Agent 的內部狀態；E是Agent 面臨的外部環境，S 和E 構成Agent 推演和作動的基礎；R 是Agent 能擔任的角色集合；T 表示Agent 的計劃，即面臨的任務；K 是Agent 的知識系統，包括任務分解方法以及Agent 之間目標、意圖和推理機制等的沖突消除。

平臺競技任務通常具備多種能力構成，一個平臺任務T可以通過向量表示為

其中ci（1≤i≤n）為一個整數表示的值，代表任務的能力構成強度。

一個MAS 模型是一個二元組S=（UAR，T），其中UARi為MAS，T=（UCT）為協同任務，U為對象集合的論域，CT為任務能力域。

通過不同角色扮演，及對應知識系統，角色Agent 可以實例化為情境感知Agent、決策Agent 以及功能Agent。一個角色Agent 的S 可以表達實例Agent 的可調度能力構成，角色R 可以表達基本的能力需求，而T 則代表了當前情境下Agent 的作動序列。

對于實例化的Agent 狀態表達可以通過能力構成來進行如下表達：

圖1 競技MAS 協同過程Fig.1 Collaborative process among sports MAS

其中：A 表示一個Agent 實例，ai（1≤i≤n）為一個布爾值表示的變量，代表Agent 的可用性情況。

競技平臺可以通過一個多Agent 系統來表示，從能力構成考慮，競技平臺可以表示為角色Agent 實例的線性表示。設系統智能體集為{A1/m1，A2/m2，…，Ax/mx}，其中Ai為第i 種角色的智能體實例，mi為對應的擁有數目，i=1，2，…，x。那么S={L=λ1*A1，S+λ2*A2，S+…+λx，S}。在競技任務執行的一個時刻，不同的配置坐標（λ1，λ2，…，λx）則代表了不同的多智能體配置（λ1，λ2，…，λx）。在一次競技中，因為個別智能體的作用喪失，競技平臺可能會經歷若干次重組。而好的重組算法會使得競技平臺在當前能力許可范圍內總處于應對任務的最優化狀態。

3.2 考慮代價的協同競技重組

在平臺運作中，如果出現Agent 實例發生功能障礙，則可以通過面向任務的系統重組產生一個新的競技配置，從宏觀角度上能夠看到平臺的暫歇。因為操作上要經歷一個尋優的過程，即通過綜合比較多個配置坐標，權衡得出最優化的一個。這個問題可以通過一個線性規劃來表達。為了尋優，為平臺重組引入一個代價函數Cp，設Agent 實例代價用函數向量表示為w=（w1，w2，…，wx），其中wi=fi（i），i=1，2，…，x。那么平臺總競技代價為：

則問題可以描述為：

約束條件：λi≤mi，i=1，2，…，x

對于線性規劃標準型，若存在可行解，則必然存在一個基可行解；若存在一個最優可行解，則必然存在一個最優基可行解。令K 是滿足約束條件的所有n 維向量X 所組成的凸多胞形，那么向量X為K 的一個極點的充分且必要條件是X為約束方程的基可行解。只要找到約束條件所組成的凸多胞形的極點，就可以從中找到最優解。關于問題求解過程則是另外一個命題，其本身與協同競技相關性不大，這里通過圖2 給出求解流程。

圖2 求解的算法流程圖Fig.2 The flow chart of resolving algorithm

4 結論

在多Agent 協同中，易出現過于靈活而可控制性不足的問題，為了提高MAS 系統的凝聚力和系統可控性，為競技平臺增加動態約束和調整系統行為的策略是必要的。通過引入政策導向型多Agent 協同可以用來增強系統的可控性。

在傳統體育訓練中，協同競技的模擬手段通常受制于實際條件。文中引入信息科學中的研究方法針對平臺體系對壘的體育競技提出一種協同競技模型，通過角色Agent 建立情境感知Agent、決策Agent 和功能Agent 實例組織的多Agent系統，形成綜合競技平臺模型。彌補了傳統經驗體育中協同實驗的不足。該模型可以用于評估競技個體對整體的影響作用，輔助訓練決策，以及競技個體之間相互學習的能力結構調整引起的競技平臺演進。從而通過基于多Agent 的協同手段，為現代體育競技訓練培育綜合競技平臺。

[1]楊萍，史小星，李堯.競速機器人比賽的博弈策略研究[J].機械設計，2011，28（3）：1-2，5.YANG Ping，SHI Xiao-xing，LI Yao.Research on game stratefies of robots’racing competition[J].Journal of Machiine Design，2011，28（3）：1-2，5.

[2]張英波.體能主導類快速力量性項群運動員競技能力狀態轉移的時空協同理論[J].體育科學，2000，20（4）：24-28.ZHANG Ying-bo.The space-time synergy theory in the state transition of athlete’s competitive ability in speed-strength sports group[J].Sport Science，2000，20（4）：24-28.

[3]陳志偉.基于Agent的協同開發體系[J].東北林業大學學報，2008，36（8）：90-91.CHEN Zhi-wei.Cooperative development system based on agent[J].Journal of Northeast Forestry University，2008，36（8）：90-91.

[4]劉繼山，王延章.RN理論支持的多Agent協同業務流程建模[J].計算機應用與軟件，2011，28（4）：12-16.LIU Ji-shan，WANG Yan-zhang.Multi agent collaborative business processes modeling based on rntheory[J].ComputerApplications and Software，2011，28（4）：12-16.

[5]胡軍，李正通.政策導向型多agent 協同系統研究[J].計算機應用研究，2010，27（8）：3009-3012，3015.HU Jun，LI Zheng-tong.Study on policy-oriented multi-agent cooperation system[J].Application Research of Computers，2010，27（8）：3009-3012，3015.

[6]呂超，黃炎焱，遲少紅，等.基于MAS的海軍裝備協同作戰仿真模型[J].江蘇科技大學學報：自然科學版，2010，24（3）：273-277.LV Chao，HUANG Yan-yan，CHI Shao-hong，et al.Simulation model of naval equipment cooperative combat based on multi-agent system[J].Journal of Jiangsu University of Science and Technology：Natural Science Edition，2010，24（3）：273-277.

[7]史德嘉，王璞.基于MAS協同的動態資源優化調度策略研究[J].計算機應用研究，2009，26（11）：4063-4065.SHI De-jia，WANG Pu.Research on resource allocation algorithm based on MAS cooperative bidding game [J].Application Research of Computers，2009，26（11）：4063-4065.

[8]夏慶軍，張安，張耀中.戰斗機編隊協同作戰效能評估研究[J].系統仿真學報，2010，22（9）：2182-2184，2189.XIA Qing-jun，ZHANG An，ZHANG Yao-zhong.Study on effectiveness evaluation of fighter plane formation cooperative combat[J].Journal of System Simulation，2010，22（9）：2182-2184，2189.