999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度強化學習的蜂窩網資源分配算法

2019-03-13 08:17:20廖曉閩嚴少虎石嘉譚震宇趙鐘靈李贊
通信學報 2019年2期
關鍵詞:分配效率優化

廖曉閩,嚴少虎,石嘉,譚震宇,趙鐘靈,李贊

(1. 西安電子科技大學綜合業務網理論及關鍵技術國家重點實驗室,陜西 西安 710071;2. 國防科技大學信息通信學院,陜西 西安 710106;3. 中國電子科技集團公司第二十九研究所,四川 成都 610036)

1 引言

隨著無線網絡中通信設備數量的急劇增加和業務需求的多樣化,有限的頻譜資源與人們日益增長的無線頻譜需求之間的矛盾日漸突出和加劇。當前無線通信領域面臨著智能化、寬帶化、多元化、綜合化等諸多技術挑戰,無線網絡環境變得日益復雜多樣和動態多變,此外,綠色網絡和智慧網絡等新概念的提出,使頻譜資源管理的優化目標日趨多樣化,因此,如何優化頻譜利用,最大限度地實現頻譜資源的高效管理是當前急需解決的重點問題。

傳統蜂窩網資源分配方法主要有博弈理論、拍賣機制、圖論著色理論、遺傳算法等。Huang等[1]將博弈理論應用于小區間蜂窩網的頻譜分配,假設基站預先獲得且共享信道狀態信息(CSI,channel state information),將2個通信設備放置于相鄰小區的重疊區域,采用靜態重復的古諾博弈模型來求解納什均衡解,獲得最優的頻譜效率,仿真模擬3種典型場景,通過求解一系列優化方程式來獲得最優分配策略。Wang等[2]提出了一種安全的頻譜拍賣機制,該機制綜合考慮頻譜屬性和拍賣特性,采用自適應競價、信息加密和拍賣協議等方式,在提高頻譜利用率的同時,極大地提升頻譜拍賣機制的安全性。Yang等[3]采用圖論著色理論對全雙工設備到設備(D2D,device-to-device)蜂窩網進行頻譜和功率分配,構造干擾感知圖,提出了一種基于圖論著色理論的資源共享方案,該方案以網絡吞吐量為優化目標,算法收斂速度快,時間復雜度低。Takshi等[4]基于遺傳算法實現 D2D蜂窩網中的頻譜和功率分配,通過同時搜索不同區間,獲得全局最優的頻譜效率和干擾性能,而且蜂窩網用戶的信干噪比保持最低,對 D2D用戶數量沒有限制,并且采用信道預測方法來減少CSI信息的過載,算法具有較強的搜索性能。然而,隨著未來無線網絡向高密集、大數據、動態化、多目標優化等方向發展,傳統的蜂窩網資源分配方法不再適用,例如,傳統方法主要進行靜態優化,很難適應動態變化的環境;當多目標優化問題為NP-hard問題時,求解困難;沒有發揮出大數據優勢,無法充分挖掘隱藏在數據中的信息等。

當前,以機器學習、深度學習為代表的新一代人工智能技術已廣泛應用于醫療、教育、交通、安防、智能家居等領域,從最初的算法驅動逐漸向數據、算法和算力的復合驅動轉變,有效地解決了各類問題,取得了顯著成效。目前,機器學習在無線資源分配的研究還處于早期探索階段。例如,文獻[5]提出采用深度學習方法對 LTE中未授權頻譜進行預分配,利用長短期記憶(LSTM,long short-term memory)神經網絡來學習歷史經驗信息,并利用學習訓練好的LSTM網絡對未來某一窗口的頻譜狀態進行預測;文獻[6]采用深度神經網絡(DNN,deep neural network)對認知無線電中次用戶使用的頻譜資源和傳輸功率進行分配,最大化次用戶頻譜效率的同時,盡可能地減少對主用戶造成的干擾;文獻[7]將衛星系統中的動態信道分配問題建模成馬爾可夫決策過程,采用深度卷積神經網絡提取有用特征,對信道進行動態分配,有效地減少阻塞率,提高了頻譜效率。目前,機器學習方法可以充分利用大數據的優勢,模擬人類的學習行為,挖掘數據隱藏信息,以獲取新的知識,然后對已有的知識結構進行重組,不斷地改善自身的性能。此外,機器學習還可以實現動態實時交互,具有很強的泛化能力,在無線資源分配應用中凸顯優勢。

本文考慮優化蜂窩網的傳輸速率和系統能耗,基于深度強化學習提出了一種全新的蜂窩網資源分配算法,該算法分為兩部分,即前向傳輸過程和反向訓練過程。在前向傳輸過程中,考慮優化蜂窩網傳輸速率,采用增廣拉格朗日乘子法,構建頻率分配、功率分配和拉格朗日乘子的迭代更新數據流,在此基礎上,構造DNN。在反向訓練過程中,將能量效率作為獎懲值,構建誤差函數來反向訓練DNN的權值。前向傳輸過程和反向訓練過程反復迭代,直到滿足收斂條件時,輸出最優資源分配方案。本文所提算法可以通過調整誤差函數中的折扣因子來自主設置頻譜分配策略的偏重程度,收斂速度快,在傳輸速率和系統能耗的優化方面明顯優于其他算法,能夠有效地解決多目標優化問題。

2 系統模型

考慮蜂窩網的下行鏈路,假設蜂窩移動通信系統中有M個微基站和N個授權移動用戶,用戶隨機分布在小區內,所有基站和用戶都為單天線系統。在每個小區內采用正交頻分復用(OFDM,orthogonal frequency division multiplexing),每個頻率只分配給一個用戶使用,其他小區可以重復使用頻率,即采用完全頻率重用方案,因此從實際出發,綜合考慮蜂窩網中所有基站對移動用戶造成的干擾情況。系統采用集中式控制,信道增益、噪聲功率等精確信道狀態信息未知,每個授權移動用戶僅將位置信息、干擾和傳輸速率通過導頻信號傳輸給中心控制節點,由中心控制節點制定頻譜分配方案。為了建設綠色網絡,系統在最大化傳輸速率的過程中,還需要考慮能耗問題,具體的系統模型如圖1所示。

假設m={1,2,…,M}表示微基站的集合,n={1,2,…,N}表示移動用戶的集合,k={1,2,…,K}表示可用頻率的集合?;緈中的移動用戶n使用頻率k通信時,干擾信號為

圖1 系統模型

其中,Li,j表示移動用戶j與基站i的接入關系,若移動用戶j接入基站i,則Li,j=1 ,反之表示基站i內頻率k的分配情況,若基站i把頻率k分給移動用戶j,則=1,反之=0;表 示基站i使用頻率k與用戶j通信時的功率;表示基站i使用頻率k與用戶n通信時的信道增益。

系統總體的傳輸速率可以表示為

采用文獻[8]提出的能量效率來衡量系統能耗,即將每焦耳的能量最多能攜帶多少比特(單位為bit/J)作為衡量標準,則系統總體的能量效率可以表示為

根據系統優化目標,在基站子載波發射功率之和滿足最大發射功率約束的條件下,要解決的多目標優化問題描述如式(4)~式(6)所示。

3 基于深度強化學習的資源分配算法

本文除了考慮傳輸速率外,還綜合考慮能耗,于是資源分配問題變成了NP-hard問題,難以求得最優解。目前研究熱點是將該問題轉化為求解其次優解,但是求解復雜度高,影響系統運行效率[9],本文采用深度強化學習方法來求解該問題。

3.1 算法框架

深度強化學習將深度學習的感知能力和強化學習的決策能力相結合,不斷以試錯的方式與環境進行交互,通過最大化累積獎賞的方式來獲得最優策略[10]。本文采用深度Q網絡(DQN,deep Q-network)來具體求解資源分配問題,核心思想是將值網絡作為評判模塊,基于值網絡來遍歷當前觀測狀態下的各種動作,與環境進行實時交互,將狀態、動作和獎懲值存儲在記憶單元中,采用Q-learning算法來反復訓練值網絡,最后選擇能獲得最大價值的動作作為輸出?;谏疃葟娀瘜W習的資源分配算法的基本框架如圖2所示。

圖2 基于深度強化學習的資源分配算法的基本框架

在圖2中,st為算法進行到第t(t=1,2,...,T)步時所對應的觀測,at為觀測st下所執行的動作,rt為觀測st下執行動作at后,所獲取的獎賞/懲罰,值網絡采用DNN來描述,即將DNN作為動作狀態值函數

算法采用Q-learning學習機制[11],主要根據如式(7)所示的迭代式來實現動作狀態值函數的優化學習。

其中,αk是學習速率,γ∈(0,1)為折扣因子,s'為執行動作at后獲得的觀測值,a′為動作集合∧中使得第k次迭代下的動作狀態值函數在觀測值s'下可執行的動作。從式(7)可以看出,要實現動作狀態值函數的逼近,即

因此,本文將式(9)作為誤差函數,通過求解誤差梯度,即采用梯度下降法來更新DNN中的參數,求得動作狀態值函數的最優解。

3.2 算法流程

對于系統模型中給出的多目標優化問題,基于深度強化學習的資源分配算法主要分成 2個過程來求解,分別是前向傳輸過程和反向訓練過程。在前向傳輸過程中,本文以傳輸速率最大化為優化目標,利用式(4)和式(6)構造 DNN;在反向訓練過程中,將能量效率作為獎懲值,利用式(9)來反向訓練DNN。

3.2.1 前向傳輸過程

構造DNN是前向傳輸過程的核心,主要分成以下7個步驟。

1)考慮到每個微基站在所有信道上的發射功率之和不能超過其最大發射功率,依據式(4)和式(6),系統傳輸速率最優化問題表示為

約束條件為

2)采用增廣拉格朗日乘子法將約束優化問題轉化為無約束優化問題,構造的增廣拉格朗日函數表示為

其中,μ={μm,?m∈{ 1,2,… ,M}}為拉格朗日乘子,η為懲罰因子,從而把求解約束優化問題轉化為求解無約束優化問題,即

此外,拉格朗日乘子迭代方程式為

4)將移動用戶與基站的接入關系Lm,n和移動用戶干擾信息作為輸入,各基站內頻率分配、功率分配和拉格朗日乘子μ根據式(15)m和式(16),依次迭代,形成如下數據流。

5)根據迭代更新數據流來構造DNN,如圖3所示。DNN包括輸入層、頻率分配層、功率分配層、乘子層和輸出層,深度取決于頻率分配、功率分配和拉格朗日乘子μ的迭代更新次數。DNN中m頻率分配層和功率分配層的權值參數為信道增益和噪聲;非線性轉換函數分別為頻率分配、 功率分配和拉格朗日乘子μ的迭代更新方程式。m

6)初始化 DNN 的權值參數,即將信道增益初始化為瑞利分布,將噪聲初始化為高斯 白噪聲。

7)在時刻t,將觀測到的蜂窩網用戶接入信息和干擾信息作為DNN的輸入,設定閾值θ 、D和最大迭代更新次數Q1,經過DNN的前向傳輸后,當或迭代更新次數達到最大迭代更新次數Q1時,在輸出層輸出一組數值,每一個數值對應一種頻譜分配方案和功率分配方案,從輸出的數值中尋找出最大數值,并將最大數值所對應的頻率分配方案和功率分配方案作為時刻t的資源分配策略。

3.2.2 反向訓練過程

構造誤差函數來訓練DNN是反向訓練過程的核心,主要分成以下5個步驟。

1)在執行頻率分配方案和功率分配方案后,觀測系統能量效率,將能量效率作為獎懲值,即

3)依據式(9),構建如式(18)所示的誤差函數。

其中,折扣因子 γ ∈ [ 0,1]決定了資源分配策略偏重程度,若采用反向傳播算法使用損失函數E趨于最小化,當γ→0,神經網絡當前時刻輸出的動作狀態值函數)趨近于獎懲值rt,即資源分配策略偏重于優化系統能量效率;當γ→ 1 ,獎懲值rt和神經網絡下一時刻輸出的動作狀態值函數占有同樣的比重,此時資源分配策略綜合優化系統能量效率和傳輸速率。

4)設定閾值θE,將損失函數值E與閾值θE進行比較。若損失函數值E≥θE,則執行5),否則,將選定的頻譜分配方案和功率分配方案作為最優資源管理策略,完成蜂窩網資源分配。

5)采用反向傳播算法,使損失函數值E趨于最小化,沿著損失函數梯度下降方向逐層修正信道增益和噪聲,若DNN的權值參數更新次數達 到限定的最大次數Q2,則將獲得的頻譜分配方案和功率分配方案作為最優資源分配策略,完成蜂窩網資源分配,否則,修正好DNN的權值后,繼續執行DNN的前向傳輸操作。

圖3 DNN的基本架構

求得誤差函數關于權值修正的梯度后,利用式(21)更新DNN的權值

其中,λ為學習速率。

4 仿真與分析

本文分別仿真分析了折扣因子對蜂窩網資源分配策略、基于深度強化學習的資源分配算法的收斂性和性能的影響,采用蒙特卡洛方法重復執行1 000次,然后對結果取平均值。在每一次算法執行過程中,蜂窩用戶均隨機分布在系統中,仿真參數如表1所示。

表1 仿真參數

首先,分析折扣因子對資源分配策略的影響。將可用子載波數設為4,圖4仿真了折扣因子在[0,1]內的取值情況,顯示了折扣因子對蜂窩網資源分配策略的影響情況,當折扣因子取值為0時,資源分配策略偏重于獎懲值,即偏重優化能量效率,此時獲得的能量效率最高,傳輸速率最低。隨著折扣因子增大,誤差函數E中,動作狀態值函數占有比重越來越大,資源分配策略所獲得的傳輸速率越來越高,能量效率越來越低。當折扣因子取值為1時,系統獲得的傳輸速率最高,能量效率最低。因此,在仿真過程中,可以根據資源分配策略的偏重程度來合理設置折扣因子。

圖4 折扣因子對資源分配策略的影響

其次,分析算法收斂性。將可用子載波數設為 4,算法運算速度取決于 DNN深度和反向訓練DNN的次數。設定閾值 θD=θp= 0 .01,圖5顯示了DNN的深度。當DNN的深度為6時,差值DNN輸出頻率分配方案和功率分配方案。設定閾值θE=0.001,圖6顯示了反向訓練DNN的次數。當反向訓練次數達5次時,E< 0 .001,反向訓練過程結束,輸出最優的頻率分配方案和功率分配方案。

圖5 DNN的深度

圖6 DNN的反向訓練次數

最后,分析算法性能。通過改變子信道數,將本文提出的算法分別從傳輸速率和能量效率兩方面與隨機分配算法、貪婪算法進行比較。圖7和圖8分別給出了傳輸速率和能量效率比較結果。可以看出,當折扣因子為1時,本文提出算法得到的資源分配策略偏重于優化傳輸速率,系統獲得的傳輸速率接近于貪婪算法,但是獲得的能量效率高于貪婪算法;雖然獲得的能量效率低于隨機分配算法,但是傳輸速率高于隨機分配算法。當折扣因子為 0時,本文提出算法得到的資源分配策略偏重于優化能量效率,即獎懲值,雖然系統獲得的傳輸速率相對較低,但是系統獲得的能量效率高于貪婪算法和隨機分配算法。

圖7 傳輸速率

圖8 能量效率

5 結束語

為了提高蜂窩網傳輸速率的同時,盡可能地增大能量效率,本文討論了蜂窩網中的資源分配問題,提出了一種基于深度強化學習的蜂窩網資源分配算法,該算法包括前向傳輸和反向訓練2個過程。在前向傳輸過程中,主要構建DNN,以最優化傳輸速率;在反向訓練過程中,將能量效率作為獎懲值,采用Q-learning機制來構建誤差函數,反向訓練DNN中的權值參數。仿真結果顯示,本文提出的算法可以通過設置折扣因子,自主選擇資源分配策略的偏重程度,收斂速度快,在傳輸速率和系統能耗優化方面都明顯優于其他算法,有效地解決了蜂窩網資源分配多目標優化問題。

猜你喜歡
分配效率優化
超限高層建筑結構設計與優化思考
房地產導刊(2022年5期)2022-06-01 06:20:14
民用建筑防煙排煙設計優化探討
關于優化消防安全告知承諾的一些思考
一道優化題的幾何解法
提升朗讀教學效率的幾點思考
甘肅教育(2020年14期)2020-09-11 07:57:42
應答器THR和TFFR分配及SIL等級探討
遺產的分配
一種分配十分不均的財富
績效考核分配的實踐與思考
跟蹤導練(一)2
主站蜘蛛池模板: 日韩av电影一区二区三区四区 | 免费高清自慰一区二区三区| 国产欧美视频在线观看| 丰满的熟女一区二区三区l| 久久久四虎成人永久免费网站| 久久久久青草大香线综合精品 | 欧美亚洲另类在线观看| 亚洲综合经典在线一区二区| 欧类av怡春院| 婷婷在线网站| 国产精品自拍合集| 青青网在线国产| 丰满人妻中出白浆| 亚洲日本一本dvd高清| 国产精品美女自慰喷水| 欧美黄网在线| 国产在线高清一级毛片| 亚洲视频欧美不卡| 欧美日韩另类国产| 在线一级毛片| 青青草国产一区二区三区| 凹凸精品免费精品视频| 在线观看免费黄色网址| 国产精品三级专区| 欧美日韩中文国产| 无码丝袜人妻| 亚洲九九视频| 日本亚洲欧美在线| 色噜噜在线观看| 国产va欧美va在线观看| 激情乱人伦| 九九视频免费在线观看| 亚洲男人的天堂在线观看| 欧美无专区| 国产99视频精品免费视频7| 五月激情综合网| 影音先锋亚洲无码| 亚洲国产日韩欧美在线| 久久国产免费观看| 国产成人免费高清AⅤ| 国产精品亚洲а∨天堂免下载| 亚洲欧洲日韩久久狠狠爱| 狠狠操夜夜爽| 999在线免费视频| 天堂中文在线资源| 亚洲码一区二区三区| 黄色免费在线网址| 午夜日b视频| 亚洲高清日韩heyzo| 精品无码一区二区在线观看| 亚洲欧美一区二区三区蜜芽| 国产尤物在线播放| 国产美女精品一区二区| h网址在线观看| 亚洲国产成人精品青青草原| 1024你懂的国产精品| 日韩欧美成人高清在线观看| 亚洲国产中文在线二区三区免| 午夜久久影院| 亚洲色图狠狠干| 91系列在线观看| 国产亚洲高清视频| 亚洲人妖在线| 99热这里只有精品5| 国产亚洲精品va在线| 免费在线a视频| 亚洲美女AV免费一区| 欧美一级高清片欧美国产欧美| 久久综合丝袜日本网| 亚洲欧美在线综合一区二区三区| 狠狠色噜噜狠狠狠狠色综合久| 精品福利视频导航| 中文字幕欧美日韩| 欧美一区日韩一区中文字幕页| 性色一区| 婷婷中文在线| 国产日韩欧美精品区性色| 国产精品9| 亚洲国产日韩在线观看| 国产性生交xxxxx免费| 国产精品99久久久| 国产一线在线|