999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于仿真的博弈系統優化策略研究

2017-11-13 07:49:38,
上海理工大學學報 2017年5期
關鍵詞:優化系統研究

,

(上海理工大學 理學院,上海 200093)

基于仿真的博弈系統優化策略研究

田偉,劉懿芳

(上海理工大學 理學院,上海200093)

以石頭剪刀布博弈系統為例,提出一種新的理論方法優化該系統,目的是在不受其他因素影響下最大化玩家獲得的收益,這種新方法即凸優化.引入非零和矩陣建立凸優化算法模型,定量地創建了石頭剪刀布博弈系統收益方程,這種方法前人鮮有研究.創新地提出了博弈系統最優值的臨界方程即鞍點方程,并用強對偶理論證明了該方程的正確性.重點研究凸優化中的Newton算法對石頭剪刀布博弈系統進行數據仿真和最大化玩家獲得的收益.仿真結果表明,數值結果與理論假設相一致,驗證了該方法的可行性和正確性.該研究對于理解博弈系統和應用凸優化具有十分重要的意義.

仿真; 凸優化; 博弈系統; 鞍點

石頭剪刀布(rock-paper-scissors,RPS)作為一個基本的非合作博弈系統[1],已廣泛用于研究生物學中的競爭現象,如生態系統中物種的多樣性[2-7].納什均衡理論[8-10]在研究經典博弈論和進化博弈論中起著重要的作用,該理論假設玩家足夠理性,目的是為了確保玩家能夠了解對手的戰略,從而優化自身的策略[1,11-13].很多研究致力于在博弈系統中建立模型獲得系統最優,如石頭剪刀布博弈系統動力學模型[14-15]、無標度網絡記憶模型[16]和循環占優模型[17-19].此外,由于凸優化具有較好的可擴展性和廣泛的應用性,常用于解決電子技術[20-21]和軟件工程[22-25]等方面的優化問題.

目前,對凸優化的研究越來越受到重視,但將其應用于最優化博弈系統的研究鮮有報道.本文提出用凸優化優化博弈系統中玩家的收益,通過在凸優化模型中設定不同的值進行仿真,使系統最大收益處鞍點方程成立,從而證明凸優化的可行性,這在理論研究和實際應用中具有一定的創新性和前瞻性.

1 模 型

本文以2人非零和石頭剪刀布為例研究非合作博弈系統,系統中每個玩家進行多次回合,每輪玩家可以選擇石頭(rock,R)、剪刀(scissors,S)、布(paper,P)中的任意一個動作,如圖1所示.收益g(g>1)被定義為決定勝負的唯一參數[1],玩家根據g的大小決定選擇的動作,如圖2所示.當兩個玩家(X和Y)選擇相同的動作時,玩家X和玩家Y同時取得單位為1的收益;當玩家X擊敗玩家Y時,玩家X的收益為g,玩家Y的收益為0,反之亦然.

圖1 收益樹狀圖Fig.1 Payoff trees

圖2 收益矩陣Fig.2 Payoff matrix

2 RPS博弈系統的凸優化

2.1凸優化方程的引入

玩家X和玩家Y每輪收益的期望值分別為

WX=XTAY

(1)

WY=YTAX

(2)

與傳統的收益方程相比,本文的收益方程是嚴格凸的.以下為凸優化問題

XR+XP+XS=1;YR+YP+YS=1

(3)

(4)

式中:玩家X的策略i∈{1,2,3};玩家Y的策略j∈{1,2,3}.

如上所述,式(1)~(4)具有凸性,因此所有最優解是全局最優解.Boyd等[26]表示凸優化是一個基本屬性,任何局部優化鞍點都是(全局)最優的.進一步假設,式(5)和式(6)嚴格可行.

2人非零和博弈系統的矩陣形式表示為YTAX+XTAY≠0.為定量研究該系統,假設玩家X先作選擇,然后玩家Y根據玩家X的選擇再作決定.玩家X想最小化收益WY,而玩家Y想最大化收益WY.同理,玩家X想最大化收益WX,而玩家Y想最小化收益WX.

玩家X最佳策略是利用變量X最小化收益YTAX

(7)

而玩家Y利用變量Y最大化收益

(8)

YRXR+YPXP+YSXS+g(YRXS+YPXR+YSXP)=

(YR+gYP)XR+(YP+gYS)XP+(YS+gYR)XS

(9)

假設χ=YR+gYP,ξ=YP+gYS,μ=YS+gYR.XR,XP,XS表示收益概率,χ,ξ,μ表示收益值.

(10)

式中:i為確定性策略;ei為第i個位置為1,其他位置全為零的矩陣.

凸優化函數標準形式為

(11)

引入變量α表示內部最小化的值

(12)

矩陣向量表示為

(13)

2.2鞍點方程

相當于

(14)

式(13)和式(14)分別為玩家X和Y的收益,兩式為對偶關系(在博弈系統中玩家Y和玩家X是對偶關系).

最初假設玩家X和Y有先后順序,實際上是玩家X和Y同時作決定.在此基礎上,結合式(13)和式(14),有

(15)

式(15)稱為鞍點方程,用于描述玩家獲得最大收益時的鞍點.式(13)和式(14)分別為式(15)的兩邊.

同理,玩家X的收益用鞍點方程表示為

(16)

用于描述系統收益最大值.其中式(16)的兩邊分別用式(17)和式(18)表示.

(17)

(18)

3 算 法

3.1Newton算法

本文提出的鞍點方程是用于表示系統收益最優的臨界方程,為驗證其正確性,利用Newton算法證明.

對于z∈domf,稱向量

Δznt=-2f(z)-1f(z)

(19)

為(f在z處的)Newton步徑[26].由2f(z)的正定性可知,除非f(z)=0,否則就有

(20)

因此Newton步徑為下降方向.

(21)

這是ν的二次凸函數,在ν=Δznt處達到最小值.因此,將z加上Newton步徑Δznt能夠極小化f在z處的二階近似[26].

凸優化問題

(22)

(23)

可將Newton方向Δznt及其相關向量w解釋為最優性條件

Cz*=D,f(z*)+CTz*=

ATy+CTν*=0

(24)

的線性近似方程組的解.用z+Δznt代替z*,用w代替ν*,并將第二個方程中的梯度項換成其在z附近的線性近似,從而得到

C(z+Δznt)=D,f(z+Δznt)+

CTw≈ATy+0+CTw=0

(25)

利用CX=D,以上方程變為

CΔznt=0,CTw≈-ATy

(26)

Newton方向Δznt由以下方程確定

(27)

式中,w是該二次問題的最優對偶向量.

Newton方向Δznt和Newton減量λ(z)分別為

(28)

3.2驗證理論

圖3 WX為玩家X獲得的最大回報值,WY為玩家Y獲得的最大回報值(單位為g1).Fig.3 Biggest gain of player X isWX,the biggest gain of player Y is WY (in units of g1).

4 結 論

[1] WANG Z J,XU B,ZHOU H J.Social cycling and conditional responses in the rock-paper-scissors game[J].Scientific Reports,2014,4:5830.

[2] BIERNASKIE J M,GARDNER A,WEST S A.Multicoloured greenbeards,bacteriocin diversity and the rock-paper-scissors game[J].Journal of Evolutionary Biology,2013,26(10):2081-2094.

[3] LAIRD R A.Population interaction structure and the coexistence of bacterial strains playing ‘rock-paper-scissors’[J].Oikos,2014,123(4):472-480.

[4] LOERTSCHER S.Rock-scissors-paper and evolutionarily stable strategies[J].Economics Letters,2013,118(3):473-474.

[5] HE Q,MOBILIA M,T?UBER U C.Spatial rock-paper-scissors models with in homogeneous reaction rates[J].Physical Review E,2010,82(5):051909.

[6] SINERVO B,HEULIN B,SURGET-GROBA Y,et al.Models of density-dependent genic selection and a new rock-paper-scissors social system[J].The American Naturalist,2007,170(5):663-680.

[7] KERR B,RILEY M A,FELDMAN M W,et al.Local dispersal promotes biodiversity in a real-life game of rock-paper-scissors[J].Nature,2002,418(6894):171-174.

[8] BI Z D,ZHOU H J.Optimal cooperation-trap strategies for the iterated rock-paper-scissors game[J].PLoS One,2014,9(10):e111278.

[9] ZHOU H J.The rock-paper-scissors game[J].Contemporary Physics,2016,57(2):151-163.

[10] AUMANN R J,BRANDENBURGER A.Epistemic conditions for Nash equilibrium[J].Econometrica,1995,63(5):1161-1180.

[11] 汪筱陽,吳德偉,戴傳金.基于納什博弈論的功率控制策略及其牛頓迭代算法[J].電子設計工程,2013,21(1):74-76.

[12] BAHEL E,HALLER H.Cycles with undistinguished actions and extended rock-paper-scissors games[J].Economics Letters,2013,120(3):588-591.

[13] BAHEL E.Rock-paper-scissors and cycle-based games[J].Economics Letters,2012,115(3):401-403.

[14] WESSON E,RAND R.Hopf bifurcations in delayed rock-paper-scissors replicator dynamics[J].Dynamic Games and Applications,2016,6(1):139-156.

[15] SEMMANN D,KRAMBECK H J,MILINSKI M.Volunteering leads to rock-paper-scissors dynamics in a public goods game[J].Nature,2003,425(6956):390-393.

[16] LUBASHEVSKY I,KANEMOTO S.Scale-free memory model for multiagent reinforcement learning.Mean field approximation and rock-paper-scissors dynamics[J].The European Physical Journal B,2010,76(1):69-85.

[17] MOBILIA M.Oscillatory dynamics in rock-paper-scissors games with mutations[J].Journal of Theoretical Biology,2010,264(1):1-10.

[18] VERMA G,CHAN K,SWAMI A.Zealotry promotes coexistence in the rock-paper-scissors model of cyclic dominance[J].Physical Review E,2015,92(5):052807.

[19] SZOLNOKI A,PERC M.Zealots tame oscillations in the spatial rock-paper-scissors game[J].Physical Review E,2016,93(6):062307.

[20] 曾勇.基于博弈論的無線通信抗干擾關鍵技術研究[D].成都:電子科技大學,2014.

[21] JOSHI S,BOYD S.Sensor selection via convex optimization[J].IEEE Transactions on Signal Processing,2009,57(2):451-462.

[22] 唐璜,毛璐.基于博弈論的軟件動態調控策略的研究與實現[J].信息與電腦,2012(2):50-51.

[23] MATTINGLEY J,BOYD S.Cvxgen:a code generator for embedded convex optimization[J].Optimization and Engineering,2012,13(1):1-27.

[24] WANG T,JOBREDEAUX R,PANTEL M,et al.Credible autocoding of convex optimization algorithms[J].Optimization and Engineering,2016,17(4):781-812.

[25] 劉海姣,趙書田.一種關聯博弈的軟件調度線性規劃控制算法[J].微電子學與計算機,2016,33(7):121-124.

[26] BOYD S,VANDENBERGHE L.Convex optimization[J].IEEE Transactions on Automatic Control,2006,51(11):1859-1859.

OptimizingStrategyforGameTheorySystemBasedontheConvexOptimizationMethod

TIAN Wei,LIUYifang

(CollageofScience,UniversityofShanghaiforScienceandTechnology,Shanghai200093,China)

The convex optimization,which serves as a new optimized method,can be fully applied to the game theory system,aiming at maximizing the payoff of the game systems (for all players).The two-person non-zero-sum matrix was introduced to describe the equivalent of payoff in the hypothetical game theory system for making quantitative analyses and getting maximal payoff of the system.A saddle point equation was created to be the critical equation of the optimal value of the game theory system and Newton’s algorithm was used to simulate the game model.The simulation results show that,the results are consistent with the theoretical hypothesis values.The method was tested and verified to be feasible and accurate.The work is helpful for deeply understanding the game theory system and reasonably applying the convex optimization.

simulation;convexoptimization;gametheorysystem;saddlepoint

1007-6735(2017)05-0420-05

10.13255/j.cnki.jusst.2017.05.003

2017-05-21

國家自然科學基金資助項目(10874118)

田 偉(1977-),男,講師.研究方向:系統分析與集成.E-mail:tianwei@usst.edu.cn

O174.13

A

(編輯:丁紅藝)

猜你喜歡
優化系統研究
Smartflower POP 一體式光伏系統
工業設計(2022年8期)2022-09-09 07:43:20
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
FMS與YBT相關性的實證研究
遼代千人邑研究述論
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
WJ-700無人機系統
ZC系列無人機遙感系統
北京測繪(2020年12期)2020-12-29 01:33:58
視錯覺在平面設計中的應用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
主站蜘蛛池模板: 国产成人精品在线| 国产成人综合亚洲网址| 免费又黄又爽又猛大片午夜| 国产综合精品日本亚洲777| 99热国产这里只有精品9九| 91外围女在线观看| 国产美女丝袜高潮| 美女高潮全身流白浆福利区| 国产精品亚洲一区二区在线观看| 国产毛片高清一级国语| 2020最新国产精品视频| 热热久久狠狠偷偷色男同| 72种姿势欧美久久久大黄蕉| 啦啦啦网站在线观看a毛片| 国产成人免费视频精品一区二区| 青青操国产| 国产理论一区| 日韩高清无码免费| 国产福利免费视频| 亚洲男人的天堂网| 欧美一级夜夜爽www| 91青草视频| 国产成人91精品| 国产精品污视频| a色毛片免费视频| 日本中文字幕久久网站| 久久综合亚洲鲁鲁九月天| 国产精品手机在线观看你懂的| 国产精品浪潮Av| 亚洲香蕉久久| 午夜日b视频| 国产亚洲现在一区二区中文| 欧美日韩免费在线视频| 99热这里只有精品免费国产| 亚洲欧美一级一级a| 岛国精品一区免费视频在线观看| 波多野结衣的av一区二区三区| 日日拍夜夜嗷嗷叫国产| 亚洲欧美一级一级a| 91破解版在线亚洲| 亚洲精品大秀视频| 国产亚洲高清在线精品99| 丝袜美女被出水视频一区| 亚洲婷婷丁香| 久操线在视频在线观看| 18禁影院亚洲专区| 亚洲综合一区国产精品| 久久伊人操| 亚洲性日韩精品一区二区| 无码AV高清毛片中国一级毛片| 欧美一区二区三区国产精品| 成人国产精品视频频| 亚洲成年人片| 国产成人夜色91| 日韩成人高清无码| 丝袜国产一区| 亚洲色中色| 国产精品久久久久久久久| 国产凹凸一区在线观看视频| 中文字幕色站| 久久99热66这里只有精品一| 亚洲国产看片基地久久1024| 91久久偷偷做嫩草影院免费看 | 国产亚洲美日韩AV中文字幕无码成人 | 日韩无码黄色| 国产一在线| 欧美日韩va| 国产精品久久久免费视频| 欧美、日韩、国产综合一区| 久久久久久尹人网香蕉| 精品久久香蕉国产线看观看gif| 久久精品电影| 婷婷六月综合网| 天天做天天爱夜夜爽毛片毛片| 在线日本国产成人免费的| 国产乱子伦手机在线| 久久久噜噜噜久久中文字幕色伊伊| 国产成人av一区二区三区| 91色国产在线| 在线观看国产精品一区| 久草视频一区| 综合网久久|