999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于交互學習神經網路的仿真研究

2013-07-12 06:50:08四川職業技術學院電子電氣工程系
電子世界 2013年4期
關鍵詞:人類實驗模型

四川職業技術學院電子電氣工程系 劉 宸

基于交互學習神經網路的仿真研究

四川職業技術學院電子電氣工程系 劉 宸

交互學習可促使人更加具有智慧,因此,研究人類的交互學習對于探索人類的學習規律具有十分重要的意義。有研究表明,神經網路同博弈理論相結合能夠構建人類交互學習模型,本文通過對交互學習神經網路模型進行構建,采用仿真技術對人類交互學習的過程及其基本規律進行研究,結果顯示,此模型能夠對交互及競爭學習過程進行有效模擬。

交互學習;博弈理論;神經網路;仿真

人類作為一種群居性的動物天生就具有交互性學習的能力,交互性學習可以促使人變得更有智慧,因為一旦某一只動物變聰明,其它動物就能夠對此能力進行學習,因此也會跟著變得更聰明。若某人了解交互學習與競爭學習之間的關系,那么這個人就會變得更加聰明。若某民族了解此道理,則此民族也會更興旺。因此,研究交互學習規律對于人類思維發展具有十分重要的意義。

1.人類交互學習的特征分析

同人類的個體學習過程不同,交互學習具有其較為顯著的特征:若有n個參與人員,各參與人員均會通過對除其自身以外的n-1個參與人員進行同時性的學習,并以此為基礎來對自身的行為策略進行改變,即某個參與人員其自身的選擇會受到剩余其他參與人員的選擇影響,同時也會對其他參與人員的選擇帶來影響。此特征普遍存在于如今的經濟生活當與社會環境之中,因而研究人與人的交互學習模型具有很重要的意義。

本文通過將在人工神經網路中融合入博弈支付函數的結構,并將博弈支付矩陣中各個支付值作為其輸入的結點xj以及對手支付值,同時,將參與人相應可進行選擇的行動策略作為其輸出的結點y,并最終建立了一個人類交互學習的神經網路模型。

圖1 交互及競爭學習模型的博弈實驗訓練過程曲線

圖2 博弈實驗的數據同仿真結果之間的比較

2.交互學習神經網路模型的構建

通常而言,重復性的博弈理論中的學習過程通常包括如下兩種模型:一種是強化性的學習模型,另一種是強化及環境兩者交互性混合學習模型。此兩種學習過程模型的各種相應的權重參數均需以實驗數據等為依據進行調整。同以上兩種學習模式不同,有資料還提出了另一種模式,及以Regret反饋為基礎的學習神經網路,此模式可成功進行混合策略博弈中唯一性均衡點的預測。以Regret反饋為基礎的學習神經網路為前饋與反饋兩種神經網路的結合。對于人工神經網路而言,其實質主要是將眾多相對較為簡單的神經元在某一網路系統中進行有機組合,以以信息流的方向為依據將其分為前饋與反饋兩種神經網路。

由于神經網路學習的過程為誤差向后由輸出至輸入層傳播且對網路連接的權值進行修正的過程,因此學習目的即為了確保網路實際的輸出同某一期望輸出相接近。對于交互學習神經網路結構而言,其輸入節點主要為支付矩陣中的8個支付值,而將兩個輸出節點來對實際過程的行動選擇概率進行具體表示。通常而言,各輸入節點的輸入信息取當前博弈過程中相對應支付值,而對于輸出結點而言,其激活函數主要是將相相應的輸入節點同連接權wij的乘積進行求和,之后再由Sigmoid活化函數進行計算后獲得,公式如下:

式中,ti(a-k)——參與人員k對剩余參與人員行動后的最佳反應;yi——參與人員做出行為i的概論;Rk(·)——通過行為及其他參與人員行為所得的Regret值;xj——輸入節點強度,也可認為是支付值;λ——學習率。Regret主要是由實際所收入的支付值同可能獲取最大支付值之間的差值進行計算的。因此,以上述兩個公式可對連接權進行如下調整:學習效率、實際情況下的收益同事后的最佳收益之間的差、Regret值以及輸入特性等多種因素間的乘積。

將Regret引入到反饋學習中極大程度地改善了神經網路混合策略預測性能的均衡性。Regret等于在對手行為選擇已知的情況下參與人員可能能獲得的最大支付值同博弈過程實際的支付值之間的差值。此法為通過神經網絡對人類的交互學習行為進行了科學模擬,并提出了相應的算法。模型基于單神經元感知器對博弈收益進行了考慮,以便對反饋過程進行修改。此種事后驅動同學習過程相符。參與者在得知同剩余參與者上次行動的選擇之后可得Regret值,而后以Regret程度為依據來對自己最佳行動策略進行選擇,以逐漸接近最佳策略。也就是說,參與者了解剩余參與者前一次的博弈行動選擇之后,會將其目前行動朝著上一次博弈最佳反應方向轉變。

3.模型仿真及結果分析

為了對交互學習模型的性能進行比較,本文采用了均方差準則MSD,MSD作為檢測估計值同實測值間差值中普遍受到認可的方法,其公式如下:

其中,y——實測值向量;y′——估計值向量;yi——第i個博弈試驗中y向量所選相應行動頻率值;yi′——模型的輸出頻率值,N——對應向量的長度。

基礎數據采用博弈理論支付函數,借助于所構建的交互學習神經網路模型進行仿真分析,計算結果如圖1所示:圖1的上方為仿真計算中輸出的A1與A2分別表示的是參與人A所選行動1的頻率,以及參與人B所選行動2的頻率。而圖2顯示的是此組數據同實驗結果之間的比較,由圖2可知,交互學習神經網路模式的仿真結果同實驗的數據較為吻合。

在對10組不同的博弈實驗進行MSD準則計算及對比后可知,Regret模型具有相對較好的預測結果。結果顯示:在反饋過程中進行Regret變量的引入能夠對人工神經網路的性能進行顯著的改善。進行Regret模型的構建能夠體現如下重要特點,即可對人類交互學習的過程進行有效模擬,就像博弈實驗相同。作為自然進化過程中十分重要的特征之一,人類的交互學習過程不僅包括了人與人之間的交互學習過程,還包括了人與自然以及人與自然界中其它生物之間的交互學習。

4.結論

隨著人類對思維及知識掌握過程探索及論證的逐步深入,有關人類交互學習的研究已經成為當今領域的研究熱點之一。在人工神經網路交互學習的進化過程中,通過對人類的學習方法中的回顧和對比進行效仿來對人工神經網路的連接權值進行有效的更新。通過所構建的交互學習模型進行仿真分析,結果顯示,此模型不僅能夠對人類的交互學習過程進行較好的描述,還可對博弈均衡狀態進行較為有效的預測。

[1]李伯虎,柴旭東,侯寶存等.一種新型的分布協同仿真系統——“仿真網格”[J].系統仿真學報,2010(20):5 423-5430.

[2]Kepecs A,Uchida1 N,Zariwala1 H A,Mainen Z F.Neural correlates,computation and behavioural impact of decision conf i dence[J].Nature(S0028-0836),2008,455(7210):227-231.

猜你喜歡
人類實驗模型
一半模型
記一次有趣的實驗
人類能否一覺到未來?
重要模型『一線三等角』
人類第一殺手
好孩子畫報(2020年5期)2020-06-27 14:08:05
重尾非線性自回歸模型自加權M-估計的漸近分布
做個怪怪長實驗
1100億個人類的清明
3D打印中的模型分割與打包
NO與NO2相互轉化實驗的改進
主站蜘蛛池模板: 青青草91视频| 欧洲高清无码在线| 最新国产你懂的在线网址| 亚洲综合在线网| 露脸国产精品自产在线播| 欧美特黄一免在线观看| 亚洲bt欧美bt精品| 国产欧美在线观看精品一区污| 精品三级网站| 欧美在线天堂| 国产成年无码AⅤ片在线| 福利一区三区| 亚洲码一区二区三区| 沈阳少妇高潮在线| 国产欧美在线观看一区| 激情在线网| 国产成人精品综合| 欧美亚洲一区二区三区在线| 久久这里只精品国产99热8| 国产69精品久久久久妇女| 国产永久在线视频| 亚洲天堂首页| 无码电影在线观看| 亚洲区视频在线观看| 欧美日韩精品在线播放| 国产亚洲高清在线精品99| 国产精品久线在线观看| 又黄又湿又爽的视频| 91最新精品视频发布页| 亚洲熟女偷拍| 小说区 亚洲 自拍 另类| 国产区福利小视频在线观看尤物| 最新日本中文字幕| 日本久久免费| 国产精品福利尤物youwu| 欧美精品高清| 九九精品在线观看| 不卡网亚洲无码| 毛片久久久| 青青草一区二区免费精品| 亚洲天堂.com| 久久精品人人做人人综合试看| 国产一区二区丝袜高跟鞋| 激情爆乳一区二区| 国产日本欧美在线观看| 日本成人不卡视频| 亚洲第七页| 丰满的熟女一区二区三区l| 亚洲永久色| 99在线观看视频免费| 欧美亚洲综合免费精品高清在线观看| 亚洲精品动漫| 成人午夜精品一级毛片| 婷婷99视频精品全部在线观看| 亚洲人成电影在线播放| 在线毛片网站| 亚洲欧美国产视频| 亚洲A∨无码精品午夜在线观看| 国产人成网线在线播放va| 99热6这里只有精品| 大香网伊人久久综合网2020| 在线欧美日韩| 国产成人喷潮在线观看| 亚洲专区一区二区在线观看| 中文字幕波多野不卡一区| 欧美日韩精品在线播放| 99久久99这里只有免费的精品| 青青草91视频| 999精品色在线观看| 99尹人香蕉国产免费天天拍| 国产福利影院在线观看| 激情综合图区| 免费观看男人免费桶女人视频| 国产毛片高清一级国语 | 精品国产香蕉在线播出| 久久国产免费观看| 中文字幕人妻av一区二区| 亚洲综合色吧| 国产在线八区| 国产区精品高清在线观看| 日本a级免费| 日本成人一区|