基于深度強(qiáng)化學(xué)習(xí)的邊緣網(wǎng)絡(luò)內(nèi)容協(xié)作緩存與傳輸方案研究

2024-07-31 00:00:00周繼鵬李祥

計(jì)算機(jī)應(yīng)用研究 2024年6期

摘要：為了應(yīng)對(duì)第五代無(wú)線通信網(wǎng)絡(luò)中數(shù)據(jù)吞吐量急劇增加的問(wèn)題，移動(dòng)邊緣緩存成為了一種有效的解決方案。它通過(guò)在邊緣設(shè)備上存儲(chǔ)網(wǎng)絡(luò)內(nèi)容，減輕回程鏈路和核心網(wǎng)絡(luò)的負(fù)擔(dān)，縮短服務(wù)時(shí)延。到目前為止，大多數(shù)邊緣緩存研究主要優(yōu)化協(xié)作內(nèi)容緩存，忽略了內(nèi)容傳輸?shù)男省Ｑ芯砍芗W(wǎng)絡(luò)的內(nèi)容協(xié)作邊緣緩存與無(wú)線帶寬資源的分配問(wèn)題，通過(guò)余弦相似度和高斯相似度求解基站之間總的相似度，將網(wǎng)絡(luò)中的小基站根據(jù)總相似度進(jìn)行分組，把緩存和無(wú)線帶寬分配問(wèn)題建模成一個(gè)長(zhǎng)期混合整數(shù)的非線性規(guī)劃問(wèn)題（LT-MINLP），進(jìn)而將協(xié)作邊緣緩存與帶寬分配問(wèn)題轉(zhuǎn)換為一個(gè)帶約束的馬爾可夫決策過(guò)程，并利用深度確定性策略梯度DDPG模型，提出了一種基于深度強(qiáng)化學(xué)習(xí)的內(nèi)容協(xié)作邊緣緩存與帶寬分配算法CBDDPG。提出的基站分組方案增加了基站之間文件共享的機(jī)會(huì)，提出的CBDDPG算法的緩存方案利用DDPG雙網(wǎng)絡(luò)機(jī)制能更好地捕捉用戶的請(qǐng)求規(guī)律，優(yōu)化緩存部署。將CBDDPG算法與三種基線算法（RBDDPG、LCCS和CB-TS）進(jìn)行了對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明所提方案能夠有效地提高內(nèi)容緩存命中率，降低內(nèi)容傳遞的時(shí)延，提升用戶體驗(yàn)。

關(guān)鍵詞：移動(dòng)邊緣計(jì)算；協(xié)同邊緣緩存；無(wú)線帶寬分配；深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào)：TP393 文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-3695（2024）06-033-1825-08

doi：10.19734/j.issn.1001-3695.2023.10.0435

Deep reinforcement learning based-edge network contentcooperative caching and transmission scheme

Abstract：In order to address the problem of rapid increase of data throughput in fifth-generation wireless communication networks， mobile edge caching has become a useful solution. It can reduce the burden on the backhaul link and core network， cut down service latency by storing network content on edge devices. So far， most edge caching solutions have mainly focused on optimizing cooperative content caching， and ignored the efficiency of content transmission. This paperstudied cooperative edge caching and wireless bandwidth allocation problems in ultra-dense networks， calculated the overall similarity between the base stations by using cosine similarity and Gaussian similarity， and grouped the small base stations according to total similarity in the network. The caching and radio bandwidth allocation problems were modeled as a long-term mixed-integer non-linear programming（LT-MINLP）. Then， the cooperative edge caching and wireless bandwidth allocation problem were transformed into a constrained Markov decision process. Finally，itproposed cooperative edge caching and radio resource allocation scheme by using the DDPG model. And it proposed deep reinforcement learning based-edge content cooperative caching and bandwidth allocation algorithm CBDDPG. The proposed base station group strategy increased the file sharing opportunity among base stations， the cache scheme of the proposed CBDDPG algorithm used DDPG dual-network mechanism， which could better capture the regularity of user requests and optimize cache deployment. The proposed CBDDPG algorithm was compared to three baseline algorithms， sach as RBDDPG， LCCS and CB-TS in experiments. Experimental results show that the proposed strategy can effectively enhance the content cache hit ratio， reduce the delay of content delivery and improve the user experience.

Key words：mobile edge computing（MEC）; cooperative edge caching; wireless bandwidth allocation; deep reinforcement learning（DRL）

0 引言

隨著移動(dòng)網(wǎng)絡(luò)的不斷升級(jí)和發(fā)展，以及大量的流媒體視頻、物聯(lián)網(wǎng)、增強(qiáng)現(xiàn)實(shí)、無(wú)人駕駛、工業(yè)互聯(lián)網(wǎng)、智慧城市等技術(shù)的廣泛應(yīng)用，移動(dòng)通信網(wǎng)絡(luò)的業(yè)務(wù)在過(guò)去十多年期間急速增加，數(shù)據(jù)流量對(duì)無(wú)線網(wǎng)絡(luò)的需求呈爆炸式增長(zhǎng)。為了應(yīng)對(duì)如此巨大的無(wú)線流量增長(zhǎng)，將服務(wù)資源遷移至網(wǎng)絡(luò)邊緣側(cè)被認(rèn)為是解決該問(wèn)題的應(yīng)對(duì)方案之一，可以有效地降低時(shí)延和提供高可靠的連接。尤其是針對(duì)5G 網(wǎng)絡(luò)的應(yīng)用，移動(dòng)邊緣計(jì)算強(qiáng)調(diào)接近移動(dòng)用戶，并且專注于將計(jì)算資源、存儲(chǔ)資源和其他服務(wù)資源部署于網(wǎng)絡(luò)的邊緣側(cè)，以至于移動(dòng)邊緣計(jì)算（MEC）［1］問(wèn)題成為當(dāng)今比較熱門的研究方向。

在無(wú)線網(wǎng)絡(luò)的場(chǎng)景下，熱點(diǎn)內(nèi)容經(jīng)常被大量用戶反復(fù)訪問(wèn)，并且在當(dāng)前的網(wǎng)絡(luò)架構(gòu)中，用戶需要通過(guò)基站來(lái)發(fā)送請(qǐng)求內(nèi)容，基站從遠(yuǎn)端服務(wù)器獲取所訪問(wèn)的內(nèi)容，再回傳給用戶，這樣會(huì)導(dǎo)致網(wǎng)絡(luò)中反復(fù)傳輸一個(gè)相同的文件內(nèi)容，造成巨大的資源浪費(fèi)。為了解決這個(gè)問(wèn)題，邊緣緩存技術(shù)應(yīng)運(yùn)而生，其主要目的是將熱點(diǎn)內(nèi)容緩存至網(wǎng)絡(luò)的邊緣側(cè)，以此來(lái)給用戶提供更快的訪問(wèn)速率、更低的訪問(wèn)時(shí)延。邊緣緩存技術(shù)涉及到緩存資源管理、用戶請(qǐng)求分析、傳輸資源分配等一系列技術(shù)，需要解決什么時(shí)間緩存什么內(nèi)容，怎么傳輸內(nèi)容以及怎么更新內(nèi)容等。對(duì)于邊緣緩存問(wèn)題，由于邊緣存儲(chǔ)容量的限制，邊緣基站需要頻繁進(jìn)行緩存決策或緩存替換的操作，需要消耗自身的計(jì)算資源，如果策略出現(xiàn)問(wèn)題也會(huì)給用戶帶來(lái)糟糕的體驗(yàn)，所以，如何在有限的資源下盡快確定相應(yīng)的緩存策略是MEC緩存相關(guān)研究的重點(diǎn)內(nèi)容。

深度強(qiáng)化學(xué)習(xí)（DRL）技術(shù)在網(wǎng)絡(luò)資源調(diào)配方面表現(xiàn)突出［2］。由于DRL方法的特征，其適用于在線場(chǎng)景的網(wǎng)絡(luò)研究，與此同時(shí)，深度強(qiáng)化學(xué)習(xí)方法的結(jié)果波動(dòng)性可能會(huì)導(dǎo)致應(yīng)用的結(jié)果在最壞情況下無(wú)法滿足相關(guān)性能的要求。所以，如何改善DRL結(jié)果在最壞情況下的表現(xiàn)或者盡量減少最壞情況的出現(xiàn)是DRL研究的一個(gè)重要方向。

在移動(dòng)邊緣計(jì)算中，由于問(wèn)題的本身具有復(fù)雜性，難以直接求解，所以，將深度強(qiáng)化學(xué)習(xí)方法應(yīng)用于移動(dòng)邊緣計(jì)算是一個(gè)值得研究的方向。在一個(gè)動(dòng)態(tài)系統(tǒng)中，優(yōu)化目標(biāo)可以抽象建模成馬爾可夫鏈模型，即狀態(tài)環(huán)境與動(dòng)作之間的交互模型［3］。同時(shí)，DRL的主要應(yīng)用場(chǎng)景就是在不同狀態(tài)下采取不同行動(dòng)，從而獲取相應(yīng)的收益值，再通過(guò)收益使得智能體朝著收益較大的方向執(zhí)行動(dòng)作，來(lái)嘗試獲取一種更好的策略［4］。在邊緣緩存場(chǎng)景中，文件的上傳、放置、分發(fā)服務(wù)等行為都可以描述成相似的模型。所以，在面對(duì)更為復(fù)雜的任務(wù)場(chǎng)景和目標(biāo)需求時(shí)，使用深度強(qiáng)化學(xué)習(xí)方法來(lái)研究和解決這些問(wèn)題具有實(shí)際意義。

在邊緣緩存場(chǎng)景下考慮超密集網(wǎng)絡(luò)［5］中微基站之間的緩存協(xié)作［6］和文件傳輸問(wèn)題是一個(gè)待研究的問(wèn)題，其中，微基站的緩存策略是由用戶的偏好或者用戶請(qǐng)求的內(nèi)容流行度驅(qū)使的，所以提前預(yù)知用戶的請(qǐng)求內(nèi)容流行度也是解決問(wèn)題的關(guān)鍵所在。在大多數(shù)工作中，都是根據(jù)Zipf分布來(lái)假設(shè)內(nèi)容的流行度，并且規(guī)定內(nèi)容流行度是已知的。但大部分情況下，內(nèi)容流行度未知且較難評(píng)估，所以文獻(xiàn)［7］通過(guò)神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)內(nèi)容的流行度，提升主動(dòng)緩存的命中率，文獻(xiàn)［8］使用預(yù)測(cè)的內(nèi)容流行度模型來(lái)設(shè)計(jì)緩存策略。而且大多數(shù)場(chǎng)景下，超密集網(wǎng)絡(luò)部署了大量的微基站，微基站之間的相似度很高，通常處于一定的區(qū)域內(nèi)，有較強(qiáng)的地域特性，其所服務(wù)的用戶也有較強(qiáng)的相似性，因此，將相似性較高的基站進(jìn)行聚簇能有效提高緩存的空間利用率。一旦文件已被緩存，如何有效地將其傳輸給用戶也是一個(gè)尚待解決的問(wèn)題。在文件傳輸過(guò)程中，無(wú)線電資源的分配對(duì)下行鏈路的傳輸速率起到關(guān)鍵作用，無(wú)線電資源的合理分配可以有效減少內(nèi)容檢索時(shí)延，這也是評(píng)價(jià)緩存性能的一個(gè)關(guān)鍵點(diǎn)。

本文利用小型蜂窩基站緩存流行文件，并且給用戶分配適合的無(wú)線帶寬資源來(lái)減少通向核心網(wǎng)絡(luò)的回程流量以及訪問(wèn)文件的請(qǐng)求時(shí)延，以滿足移動(dòng)數(shù)據(jù)需求的迅猛增長(zhǎng)，考慮到不同基站之間的歷史請(qǐng)求內(nèi)容會(huì)有較高的重合度，結(jié)合基站的相似性對(duì)小基站進(jìn)行聚類，提升基站存儲(chǔ)空間的利用率。本文把緩存決策和無(wú)線資源分配問(wèn)題建模為一個(gè)長(zhǎng)期混合整數(shù)的非線性規(guī)劃問(wèn)題（LT-MINLP），將協(xié)作邊緣緩存與傳輸問(wèn)題轉(zhuǎn)換成一個(gè)帶約束的馬爾可夫決策過(guò)程。為了解決該問(wèn)題，本文利用確定性策略梯度DDPG（deep deterministic policy gradient）模型，提出了一種基于深度強(qiáng)化學(xué)習(xí)的協(xié)作邊緣緩存及信道資源分配方案。

本文的主要貢獻(xiàn)在于：a）將內(nèi)容緩存問(wèn)題與通信資源分配問(wèn)題統(tǒng)一建模求解，將網(wǎng)絡(luò)中的小基站根據(jù)總相似度進(jìn)行分組，能有效地提高緩存的命中率，同時(shí)降低內(nèi)容傳輸?shù)臅r(shí)延；b）提出的緩存方案利用DDPG雙網(wǎng)絡(luò)機(jī)制能更好地捕捉用戶的請(qǐng)求規(guī)律，實(shí)現(xiàn)在動(dòng)態(tài)環(huán)境下緩存部署和帶寬分配的在線決策；c）對(duì)比實(shí)驗(yàn)結(jié)果表明，深度強(qiáng)化學(xué)習(xí)方法在動(dòng)態(tài)環(huán)境中進(jìn)行在線決策的有效性，解決了內(nèi)容緩存中動(dòng)態(tài)因素的不可預(yù)測(cè)性問(wèn)題。

1 相關(guān)工作

當(dāng)前，移動(dòng)邊緣緩存［9］已經(jīng)成為解決超密集網(wǎng)絡(luò)下回程鏈路過(guò)載的有效解決方案，該技術(shù)能夠使用戶從啟用緩存的邊緣節(jié)點(diǎn)直接獲取內(nèi)容，無(wú)須通過(guò)回程鏈路或者核心網(wǎng)絡(luò)傳輸［10］，可以有效地緩解回程鏈路和移動(dòng)核心網(wǎng)絡(luò)的壓力［11］。然而，單個(gè)邊緣節(jié)點(diǎn)的儲(chǔ)存性能是有限的［12］，協(xié)作邊緣緩存能夠使多個(gè)邊緣節(jié)點(diǎn)相互共享其緩存內(nèi)容，可以極大地提高緩存容量以及增強(qiáng)緩存文件的多樣性［13］。通過(guò)對(duì)內(nèi)容緩存和內(nèi)容傳輸?shù)拿枋觯M(jìn)行以下幾種分類。

1）主動(dòng)緩存和反應(yīng)式緩存

主動(dòng)緩存策略決定在內(nèi)容請(qǐng)求前應(yīng)該緩存哪些內(nèi)容，通常利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析方法來(lái)預(yù)測(cè)內(nèi)容流行度和用戶偏好，然后使用預(yù)測(cè)模型來(lái)設(shè)計(jì)適當(dāng)?shù)膬?nèi)容緩存方案，但是該方法很大程度上取決于預(yù)測(cè)精度。文獻(xiàn)［14］利用上下文意識(shí)和社交網(wǎng)絡(luò)來(lái)預(yù)測(cè)內(nèi)容流行度和用戶偏好。文獻(xiàn)［8］利用基站和用戶社會(huì)關(guān)系之間的流量相關(guān)性設(shè)計(jì)主動(dòng)緩存策略。文獻(xiàn)［15］提出了一種基于移動(dòng)性預(yù)測(cè)的主動(dòng)緩存方案，該方案利用序列預(yù)測(cè)算法，即基于序列預(yù)測(cè)的主動(dòng)緩存，來(lái)預(yù)測(cè)車輛路徑上的下一個(gè)可能的RSU并預(yù)先定位相關(guān)內(nèi)容。同樣文獻(xiàn)［16］提出了一種基于學(xué)習(xí)的方式來(lái)評(píng)估文件內(nèi)容流行度，并且基于歐洲動(dòng)量項(xiàng)目提供的真實(shí)數(shù)據(jù)集，驗(yàn)證了緩存方案的有效性。

反應(yīng)緩存方案決定在接收內(nèi)容請(qǐng)求后應(yīng)該緩存哪些內(nèi)容。該方案直接利用內(nèi)容請(qǐng)求來(lái)評(píng)估內(nèi)容流行度，而不需要預(yù)測(cè)內(nèi)容流行度的模型。目前的反應(yīng)緩存方案通常采用RL算法從歷史數(shù)據(jù)中學(xué)習(xí)最佳緩存策略，更適合復(fù)雜動(dòng)態(tài)的邊緣緩存環(huán)境。例如，文獻(xiàn)［17］提出了一種基于DRL的算法，該算法使用各種關(guān)鍵特征，以不斷發(fā)展的方式訓(xùn)練DRL模型，以便為具有流行度波動(dòng)和爆發(fā)的請(qǐng)求提供服務(wù)。文獻(xiàn)［18］通過(guò)內(nèi)容請(qǐng)求計(jì)算內(nèi)容流行度，并設(shè)計(jì)了基于深度確定性策略梯度的協(xié)作緩存框架。文獻(xiàn)［19］使用了一個(gè)異步優(yōu)勢(shì)Actor-Critic算法來(lái)決定是否應(yīng)該緩存請(qǐng)求的內(nèi)容。

2）協(xié)作緩存和非協(xié)作內(nèi)容緩存

到目前為止，對(duì)非協(xié)作內(nèi)容的緩存方案已有大量研究，非協(xié)作緩存基站只能為其本地用戶提供緩存服務(wù)并且緩存不能在多個(gè)基站之間共享。而在超密集網(wǎng)絡(luò)中，單個(gè)微基站的緩存容量有限，協(xié)作緩存對(duì)于增加緩存多樣性和提高緩存命中率至關(guān)重要。在文獻(xiàn)［20］中，所有的基站合作執(zhí)行內(nèi)容緩存且相互共享其緩存內(nèi)容。文獻(xiàn)［21］提出了一個(gè)多代理Actor-Critic框架，該框架同時(shí)優(yōu)化從本地基站、附近的基站和遠(yuǎn)程服務(wù)器獲取內(nèi)容的成本，提高了緩存儲(chǔ)存利用率。

3）集中式緩存與分布式緩存

在許多現(xiàn)有的研究中，集中的內(nèi)容緩存方案最為常見(jiàn)。文獻(xiàn)［22］提出了一個(gè)集中式計(jì)算中心，該中心定期收集每個(gè)基站的內(nèi)容請(qǐng)求率并為每個(gè)基站作出最佳緩存決策。在文獻(xiàn)［18］中，中心宏小區(qū)基站接收多個(gè)車輛的內(nèi)容請(qǐng)求，然后在每個(gè)緩存階段時(shí)間，更新所有緩存節(jié)點(diǎn)的內(nèi)容緩存決策。然而，集中式方案需要集中式控制器收集所有基站的本地參數(shù)來(lái)作出內(nèi)容緩存決策。集中式方案的計(jì)算復(fù)雜度隨著基站的數(shù)量呈指數(shù)增長(zhǎng)。因此，一些研究證實(shí)了分布式內(nèi)容緩存方案的有效性，在文獻(xiàn)［20］中，每個(gè)基站都被視為可以在本地作出緩存決策的代理。文獻(xiàn)［21］提出了一種基于多智能體協(xié)作內(nèi)容緩存策略，每個(gè)邊緣服務(wù)器被認(rèn)為是一個(gè)在本地作出緩存決策的參與者，通過(guò)中心服務(wù)器來(lái)評(píng)估更新每個(gè)邊緣服務(wù)器的參數(shù)。

4）內(nèi)容傳輸優(yōu)化

根據(jù)所需的優(yōu)化目標(biāo)，現(xiàn)有的內(nèi)容緩存和無(wú)線資源分配研究分為三類。第一類重點(diǎn)放在內(nèi)容緩存優(yōu)化上，而不考慮無(wú)線電資源分配。第二類研究考慮了無(wú)線電資源分配。例如，在文獻(xiàn)［2，23］中，假設(shè)分配給不同用戶的帶寬資源是等效的，但是，上述兩種類型的研究都會(huì)導(dǎo)致更高的內(nèi)容下載延遲。在第三類研究中，文獻(xiàn)［18］研究了聯(lián)合優(yōu)化內(nèi)容緩存，車輛調(diào)度和帶寬資源分配以提高緩存性能的問(wèn)題，但只適用于車載邊緣計(jì)算環(huán)境。文獻(xiàn)［24］分析了聯(lián)合優(yōu)化內(nèi)容緩存和無(wú)線電頻譜分配以最小化無(wú)線接入網(wǎng)絡(luò)中網(wǎng)絡(luò)延遲的問(wèn)題，但它只能用于D2D設(shè)備的通信，不能用于一般的蜂窩移動(dòng)網(wǎng)絡(luò)。

總而言之，現(xiàn)存研究沒(méi)有考慮邊緣環(huán)境動(dòng)態(tài)不可預(yù)測(cè)性的多變性的影響和資源分配方法自適應(yīng)，在動(dòng)態(tài)環(huán)境中內(nèi)容協(xié)作緩存需要考慮全局的邊緣網(wǎng)絡(luò)資源分配情況，提出的共同優(yōu)化內(nèi)容緩存和無(wú)線資源分配的反應(yīng)式分布緩存方案，將網(wǎng)絡(luò)中的小基站根據(jù)總相似度進(jìn)行分組，利用深度強(qiáng)化學(xué)習(xí)DDPG雙網(wǎng)絡(luò)機(jī)制能夠更好地捕捉用戶請(qǐng)求的規(guī)律，以適應(yīng)邊緣計(jì)算環(huán)境的動(dòng)態(tài)變化，有效地進(jìn)行在線決策，以提高緩存命中率，同時(shí)降低內(nèi)容傳輸?shù)臅r(shí)延。

2 系統(tǒng)模型

2.1 網(wǎng)絡(luò)模型

網(wǎng)絡(luò)架構(gòu)模型如圖1所示，包括一個(gè)中心的宏基站MBS（macro base station）、多個(gè)小型基站SBS（small base station）以及在每個(gè)小型基站分組中的服務(wù)網(wǎng)關(guān)。假設(shè)相鄰SBS之間的干擾已經(jīng)通過(guò)不相鄰小區(qū)的頻率復(fù)用被消除，回程鏈路和無(wú)線鏈路主要用于上下行的數(shù)據(jù)傳輸，黑色虛線范圍的基站代表同一分組SBS，同一聚類分組的SBS通過(guò)服務(wù)網(wǎng)關(guān)進(jìn)行相連，MBS集中管理和控制網(wǎng)絡(luò)下的SBS為其進(jìn)行決策部署計(jì)算。

供文件傳輸服務(wù)。

2.2 文件請(qǐng)求模型

本文將時(shí)間劃分為離散的時(shí)間隙t=1，2，…，∞，內(nèi)容緩存和傳輸在每個(gè)時(shí)間隙實(shí)施，且假設(shè)時(shí)隙足夠大，使得內(nèi)容的檢索和傳遞在一個(gè)時(shí)隙內(nèi)完成。在每個(gè)時(shí)隙結(jié)束時(shí)，基站更新緩存內(nèi)容以便于在后續(xù)的時(shí)隙內(nèi)進(jìn)行傳輸。

在大多數(shù)現(xiàn)有的研究中，假設(shè)內(nèi)容流行度遵循移動(dòng)社交網(wǎng)絡(luò)中的Zipf分布，內(nèi)容流行度配置文件表示該區(qū)域用戶在一段時(shí)間內(nèi)對(duì)不同內(nèi)容在不同時(shí)間的需求，這對(duì)于基站作出緩存決策起著重要作用，但內(nèi)容流行度是變化的，且較難估計(jì)，因此內(nèi)容流行度的建模需要在密集網(wǎng)絡(luò)中作進(jìn)一步研究。為此，本文從內(nèi)容請(qǐng)求率導(dǎo)出的全局內(nèi)容流行度，設(shè)在緩存周期開(kāi)始的時(shí)候，基于小基站SBS的內(nèi)容請(qǐng)求率導(dǎo)出的內(nèi)容流行度作為當(dāng)前時(shí)隙的一個(gè)文件流行度。在每個(gè)時(shí)隙，由小基站SBS用戶的內(nèi)容請(qǐng)求信息計(jì)算出該基站的內(nèi)容流行度，表示為

設(shè)stn，f表示在時(shí)隙t下基站n處文件f被用戶請(qǐng)求的次數(shù)，stn表示在該時(shí)隙基站n處所有用戶總的請(qǐng)求次數(shù)，基站n下各個(gè)文件f的局部?jī)?nèi)容流行度為 Ptn=（ptn，1，ptn，2，…，ptn，f，…，ptn，F(xiàn)），并且每個(gè)用戶在一個(gè)時(shí)隙周期內(nèi)請(qǐng)求文件的數(shù)量服從泊松分布，平均速率為ωu。

2.3 通信模型

其中：ρn是基站n的傳輸功率；h-αu，n是用戶u到基站的n路徑損失；vu，n是信道的功率增益；σ2代表著噪聲功率。所以在時(shí)隙t對(duì)于用戶u在基站n的下行鏈路的傳輸速度為

2.4 協(xié)作緩存模型

a）用戶u于時(shí)隙t直接在本地基站n服務(wù)下得到請(qǐng)求文件內(nèi)容，該時(shí)延可以表示為

b）如果用戶u的本地基站n在時(shí)隙t下沒(méi)有緩存文件f，但基站n下該分組Gg的其他基站m下緩存了文件f，那么用戶的請(qǐng)求訪問(wèn)時(shí)延可以表示為

c）如果用戶u的本地基站n和該基站分組Gg的其他基站m在時(shí)隙t下都沒(méi)有緩存文件f，那么用戶u于時(shí)隙t通過(guò)MBS在云端服務(wù)下得到請(qǐng)求文件內(nèi)容，該時(shí)延可以表示為

3 基站分組與問(wèn)題建模

內(nèi)容協(xié)作緩存和基站聚簇旨在降低用戶請(qǐng)求下載內(nèi)容的平均時(shí)延，以提高用戶的服務(wù)質(zhì)量。本文提出一種基于基站之間的內(nèi)容相似度和距離的分組方案，通過(guò)增加基站之間協(xié)作共享文件的機(jī)會(huì)，進(jìn)一步提高系統(tǒng)的性能，降低用戶請(qǐng)求時(shí)延。協(xié)作緩存是利用多個(gè)小型基站之間的合作緩存，提高用戶服務(wù)質(zhì)量的一種策略。為了實(shí)現(xiàn)這一策略，首先需要將基站進(jìn)行聚類，以基站間的距離和內(nèi)容相似度作為依據(jù)，將網(wǎng)絡(luò)中的所有小型基站進(jìn)行分組，每一組中的基站都連接到同一個(gè)服務(wù)網(wǎng)關(guān)，每個(gè)基站可以通過(guò)其對(duì)應(yīng)的服務(wù)網(wǎng)關(guān)，從同一分組中的其他基站獲取其緩存的內(nèi)容。用戶在每個(gè)時(shí)隙t內(nèi)，連接到唯一的基站，每個(gè)基站為用戶分配一定的帶寬資源btu，n傳輸所請(qǐng)求的內(nèi)容文件。

3.1 基站分組

對(duì)小基站分組的關(guān)鍵在于如何去計(jì)算量化兩個(gè)基站之間的相似度，而對(duì)于基站，距離和其歷史的下載信息是兩個(gè)較為關(guān)鍵的因素，因?yàn)榫嚯x影響著兩個(gè)基站之間的協(xié)作緩存的效益，歷史下載信息反映基站用戶的興趣偏好，如果歷史下載集合重復(fù)較多，則表明兩個(gè)基站下的用戶偏好相近。

1）基站的內(nèi)容相似度

為了更好地識(shí)別在請(qǐng)求內(nèi)容上彼此相似的SBS，分組算法需要找到一個(gè)衡量基站相似度的指標(biāo)，本文以推薦理論中的余弦相似度來(lái)衡量?jī)蓚€(gè)基站之間的內(nèi)容相似性，反映基站文件的受歡迎程度，SBS之間的內(nèi)容相似度可以表示為

其中：cn，f表示文件f在基站n處的總訪問(wèn)次數(shù)。很明顯n，m∈［0，1］，n，m越大，說(shuō)明兩基站之間的內(nèi)容相似度越高，最終可以得到一個(gè)N×N的內(nèi)容相似度矩陣ΦN×N，表示基站之間的下載內(nèi)容相似度。

2）基站的距離相似度

為了減小用戶的訪問(wèn)內(nèi)容時(shí)延，提高基站之間的通信效能，計(jì)算基站之間的距離相似性，用L（n，m）表示基站n和m之間的距離，兩個(gè)基站之間的距離相似度為

由此可得，如果兩個(gè)基站之間的距離越小，ψn，m的值越大，并且ψn，m∈［0，1］，這里θ為一個(gè)常數(shù)。最終可以得到一個(gè)矩陣ΨN×N，代表基站之間的距離相似度，只有在基站之間的距離小于一定值時(shí)，兩基站間才能保證良好的通信能力，若基站間的距離較遠(yuǎn)，傳輸時(shí)延變大，協(xié)作收益將得不到保證。最終基站n和m之間的相似度表示為

Sn，m=n，mq×ψn，m1-q q∈[0，1]（9）

根據(jù)sn，m通過(guò)層次聚類算法來(lái)進(jìn)行小基站的分簇，兩個(gè)分組之間的相似度可以描述為

其中：A和B分別為兩個(gè)聚類基站分組；S（A，B）代表分組A和B之間的相似度；nA、nB分別代表分組A和B中小基站的個(gè)數(shù)。

本文采用相似度作為考慮因素，并設(shè)定了閾值K，使用了層次聚類算法，對(duì)基站進(jìn)行分組。具體分組步驟如下：

a）移動(dòng)邊緣網(wǎng)絡(luò)中SBS的數(shù)量為N，將每個(gè)SBS視為一個(gè)單獨(dú)的實(shí)體，形成N個(gè)獨(dú)立的分組，每個(gè)分組中只包含一個(gè)SBS；

b）根據(jù)相似度最大的準(zhǔn)則，找到所有分組中相似度最大的兩個(gè)分組，將這兩個(gè)分組合并成一個(gè)新的分組，此時(shí)總的分組數(shù)量減少了一個(gè)；

c）使用式（10）計(jì)算新合并的分組與每個(gè)舊分組之間的相似度；

d）重復(fù)執(zhí)行步驟b）c），直到兩個(gè)最近的分組基站之間的相似度小于規(guī)定的閾值K。

所有小型基站通過(guò)上述步驟進(jìn)行分組，最終得到H個(gè)基站分組，為后續(xù)的協(xié)作緩存提供支持。

3.2 問(wèn)題建模

協(xié)作邊緣緩存是一個(gè)離散變量問(wèn)題，但是對(duì)用戶的無(wú)線資源分配是一個(gè)連續(xù)資源分配問(wèn)題。而對(duì)于解決聯(lián)合協(xié)作邊緣緩存和無(wú)線資源分配問(wèn)題，強(qiáng)化學(xué)習(xí)是一種可以通過(guò)最大化累計(jì)期望或回報(bào)，使得智能體能夠在動(dòng)態(tài)環(huán)境中學(xué)習(xí)來(lái)獲得最優(yōu)策略的方法。本文結(jié)合這兩個(gè)問(wèn)題以及強(qiáng)化學(xué)習(xí)的特性，通過(guò)優(yōu)化總的內(nèi)容傳輸延遲，采用深度確定性策略梯度算法（DDPG）求解，根據(jù)環(huán)境狀態(tài)作出緩存決策和無(wú)線資源分配，給每個(gè)基站的文件部署。

將協(xié)作邊緣緩存和無(wú)線資源分配轉(zhuǎn)換為離散時(shí)間的馬爾可夫鏈來(lái)進(jìn)行聯(lián)合優(yōu)化，設(shè)計(jì)一種在線緩存和傳輸方案，該方案可以在時(shí)變用戶請(qǐng)求模式下，最大限度地減少用戶對(duì)文件的訪問(wèn)時(shí)延，以最大化用戶的QoS質(zhì)量。馬爾可夫鏈?zhǔn)绞且环N順序決策的典型形式化，其中智能體可以通過(guò)學(xué)習(xí)與環(huán)境交互來(lái)實(shí)現(xiàn)目標(biāo)。受限的馬爾可夫決策過(guò)程可以表示為一個(gè)五元組（S，A，r，Pr，C），其中，S表示狀態(tài)空間，A表示動(dòng)作空間，r表示獎(jiǎng)勵(lì)，Pr表示狀態(tài)的轉(zhuǎn)換概率，C表示約束條件。

1）系統(tǒng)狀態(tài)空間

令S為狀態(tài)空間，在每個(gè)時(shí)隙t開(kāi)始時(shí)，智能體感知環(huán)境狀態(tài)，具體包括以下信息：

Vt=［Vt1，Vt2，…，Vtn，…，VtN］表示在時(shí)隙t每個(gè)基站的用戶所需傳輸?shù)臄?shù)據(jù)量，其中Vtn表示基站n下的每個(gè)用戶u所需傳輸數(shù)據(jù)量大小vtu，n，根據(jù)請(qǐng)求文件大小和用戶的請(qǐng)求數(shù)量ωu計(jì)算，Vtn=［vt1，n，vt2，n，…，vtu，n，…，vtU，n］。Pt=［Pt1，Pt2，…，Ptn，…，PtN］表示基站n在時(shí)隙t下的文件局部流行度狀態(tài)，也就是每個(gè)時(shí)隙下基站SBS根據(jù)內(nèi)容請(qǐng)求率導(dǎo)出的文件流行度，st=（Vt，Pt）表示系統(tǒng)在時(shí)隙t的狀態(tài)。

2）系統(tǒng)動(dòng)作空間

3）系統(tǒng)轉(zhuǎn)移概率

狀態(tài)轉(zhuǎn)移概率Pr（st+1|st，at）表示在采取動(dòng)作at之后，預(yù)測(cè)狀態(tài)從st轉(zhuǎn)換到狀態(tài)st+1的概率，滿足

4）系統(tǒng)獎(jiǎng)勵(lì)

設(shè)R（s，a）為系統(tǒng)在狀態(tài)s下執(zhí)行動(dòng)作a所得到的獎(jiǎng)勵(lì)，該獎(jiǎng)勵(lì)值由系統(tǒng)用戶訪問(wèn)文件的時(shí)延決定。系統(tǒng)在時(shí)隙t的決策過(guò)程如圖2所示，每一個(gè)時(shí)隙t被劃分為決策階段、狀態(tài)獲取階段和獎(jiǎng)勵(lì)評(píng)估階段三個(gè)階段。在每個(gè)時(shí)隙下，SBS獲取環(huán)境中每個(gè)用戶對(duì)文件的訪問(wèn)請(qǐng)求并根據(jù)文件請(qǐng)求率導(dǎo)出局部流行度以及用戶所需傳輸數(shù)據(jù)量大小，將信息傳遞給MBS進(jìn)行決策，每個(gè)SBS更新其緩存內(nèi)容，以便進(jìn)行可能的傳輸，減少內(nèi)容傳遞延遲。st=（Vt，Pt）作為系統(tǒng)在時(shí)隙t下的狀態(tài)，依據(jù)在決策階段采取的動(dòng)作at，在時(shí)隙t下得到的系統(tǒng)獎(jiǎng)勵(lì)為R（st，at）。

策略π是一個(gè)狀態(tài)到動(dòng)作的映射函數(shù)，at=π（st）表示在狀態(tài)s下產(chǎn)生動(dòng)作a。在馬爾可夫決策過(guò)程中，每次系統(tǒng)通過(guò)采取一個(gè)決策，計(jì)算當(dāng)前時(shí)隙t下的文件傳遞時(shí)延所對(duì)應(yīng)的獎(jiǎng)勵(lì)。

由于目標(biāo)是減少內(nèi)容傳遞延遲，用戶u經(jīng)歷的內(nèi)容獲取延遲取決于基站中的內(nèi)容緩存狀況和下行鏈路的傳輸速率。對(duì)于基站n，在狀態(tài)st下的緩存決策at作用于系統(tǒng)之后產(chǎn)生的系統(tǒng)獎(jiǎng)勵(lì)可以表示為Rn（st，at）。

delaynu表示用戶u在一個(gè)時(shí)隙下從基站n獲取所需文件的傳輸時(shí)延，允許每個(gè)用戶在一個(gè)時(shí)隙訪問(wèn)多個(gè)文件，其中Un表示基站n中所有的用戶，ruf，t表示用戶u在時(shí)隙t下是否訪問(wèn)文件f，如果訪問(wèn)則值為1，否則為0。這里m∈Gg，Gg表示用戶u所處基站n處分組中的基站集合。所以，系統(tǒng)在狀態(tài)st下采取動(dòng)作at，總的系統(tǒng)獎(jiǎng)勵(lì)表示為

5）系統(tǒng)約束

每個(gè)基站n總的緩存內(nèi)容文件大小應(yīng)該在可用的緩存容量Cn內(nèi)，并且每個(gè)基站給用戶分配的連續(xù)帶寬之和不能超過(guò)B，系統(tǒng)的約束為

6）價(jià)值函數(shù)

為了找到最優(yōu)的策略π*，設(shè)用φt來(lái)評(píng)估長(zhǎng)期的系統(tǒng)獎(jiǎng)勵(lì)，也就是折扣回報(bào)，被定義為

這里0≤β≤1表示當(dāng)前決策對(duì)未來(lái)獎(jiǎng)勵(lì)影響的折扣系數(shù)。給定一個(gè)策略π，決策的性能可以根據(jù)累積的狀態(tài)價(jià)值函數(shù)Vπ（st）來(lái)衡量，它通過(guò)長(zhǎng)期的系統(tǒng)獎(jiǎng)勵(lì)期望來(lái)計(jì)算，表示為

本文目標(biāo)是找到最優(yōu)策略π*，便于在任何狀態(tài)下最大化長(zhǎng)期的系統(tǒng)獎(jiǎng)勵(lì)：

這里的Π表示所有可能的策略，因此該緩存決策和無(wú)線資源分配策略的最優(yōu)問(wèn)題可以被表示成最大化長(zhǎng)期的系統(tǒng)獎(jiǎng)勵(lì)期望。

problem（I）是一個(gè)時(shí)變參數(shù)的順序決策問(wèn)題，本文將問(wèn)題轉(zhuǎn)換為Bellman方程，并利用深度強(qiáng)化學(xué)習(xí)來(lái)獲得最優(yōu)策略。

4 內(nèi)容協(xié)作緩存與無(wú)線帶寬分配

4.1 問(wèn)題轉(zhuǎn)換

Bellman方程是一個(gè)動(dòng)態(tài)規(guī)劃方程，它為在順序決策問(wèn)題中獲取最優(yōu)策略提供了必要的條件。系統(tǒng)從目前的狀態(tài)st到下一個(gè)狀態(tài)st+1的概率表示為

在時(shí)間隙t下，problem（I）中的目標(biāo)函數(shù)可以用迭代的方式寫入Bellman方程里面：

最終通過(guò)順序策略迭代來(lái)獲得最優(yōu)策略π*，策略π下的動(dòng)作價(jià)值函數(shù)表示為

定義最優(yōu)的動(dòng)作價(jià)值函數(shù)為Q*（st，at），能夠用Bellman方程表示為

因?yàn)橄到y(tǒng)的狀態(tài)空間維度較高，無(wú)法利用Bellman方程計(jì)算所有的價(jià)值函數(shù)，本文把神經(jīng)網(wǎng)絡(luò)用作函數(shù)逼近器來(lái)近似強(qiáng)化學(xué)習(xí)RL（reinforcement learning）中的價(jià)值函數(shù)。RL算法有基于模型的方法和無(wú)模型方法兩大類。前者主要用于自動(dòng)控制領(lǐng)域，而后者可以被定義為一種數(shù)據(jù)驅(qū)動(dòng)的方法，通過(guò)估計(jì)值函數(shù)或策略函數(shù)來(lái)獲得最優(yōu)策略。本文利用無(wú)模型學(xué)習(xí)方法中基于DDPG（deep deterministic policy gradient）模型，利用深度神經(jīng)網(wǎng)絡(luò)提供確定性策略函數(shù)π（s）和動(dòng)作價(jià)值函數(shù)Qπ（s，a）的估計(jì)。該組合可用于實(shí)現(xiàn)本文提出的內(nèi)容緩存和無(wú)線資源分配問(wèn)題的聯(lián)合優(yōu)化。

4.2 內(nèi)容協(xié)作緩存和無(wú)線帶寬分配算法

基于確定性的Actor-Critic模型，本文利用神經(jīng)網(wǎng)絡(luò)來(lái)近似策略函數(shù)π（s）和動(dòng)作價(jià)值函數(shù)Qπ（s，a）。如圖3所示，RL智能體由Actor和Critic網(wǎng)絡(luò)組成，Actor網(wǎng)絡(luò)的作用是根據(jù)觀察到的環(huán)境狀態(tài)產(chǎn)生動(dòng)作行為，Actor就相當(dāng)于策略π函數(shù)。而Critic網(wǎng)絡(luò)通過(guò)從環(huán)境中得到的獎(jiǎng)勵(lì)來(lái)評(píng)估和更新當(dāng)前的Actor網(wǎng)絡(luò)。Actor網(wǎng)絡(luò)使用Critic的輸出來(lái)更新策略參數(shù)。Critic的輸出與時(shí)間差分法成正比，能夠判斷當(dāng)前執(zhí)行的動(dòng)作帶來(lái)收益的好壞。通過(guò)時(shí)間差分法在每個(gè)時(shí)隙得到的獎(jiǎng)勵(lì)來(lái)更新Critic網(wǎng)絡(luò)，使得Critic越來(lái)越準(zhǔn)確，進(jìn)一步使得Actor輸出的動(dòng)作往收益增大的方向靠攏。在網(wǎng)絡(luò)剛開(kāi)始學(xué)習(xí)過(guò)程中，為了避免陷入局部最優(yōu)解，更好地兼顧探索過(guò)程，算法引入了隨機(jī)噪聲來(lái)為生成的動(dòng)作增加隨機(jī)性，隨機(jī)性在剛開(kāi)始訓(xùn)練時(shí)較大，隨著迭代的次數(shù)增加，隨機(jī)噪聲減少，其中η為隨機(jī)探索噪聲，表示為

at= π（s）+η（26）

1）Critic網(wǎng)絡(luò)更新過(guò)程

Critic網(wǎng)絡(luò)使用DNN進(jìn)行價(jià)值函數(shù)估計(jì)，Qπ（s，a）≈Qπ（s，a，ω），事實(shí)上，Actor-Critic神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致算法發(fā)散，所以本文采用了最近提出的經(jīng)驗(yàn)回放和目標(biāo)網(wǎng)絡(luò)技術(shù)。由于在利用Actor-Critic神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)，會(huì)導(dǎo)致在真實(shí)的動(dòng)作價(jià)值函數(shù)Qπ（s，a，ω）的近似中引入大量的方差，在訓(xùn)練過(guò)程中用回放緩沖區(qū)來(lái)存儲(chǔ)之前的經(jīng)驗(yàn)，然后隨機(jī)抽樣經(jīng)驗(yàn)用于學(xué)習(xí)，以破壞訓(xùn)練樣本的相關(guān)性，這種技術(shù)就是經(jīng)驗(yàn)回放。使用target network來(lái)生成時(shí)間分差誤差，能夠使算法收斂更快穩(wěn)定性更好。

經(jīng)驗(yàn)回放緩沖區(qū)存放著訓(xùn)練記錄元組（st，at，R（st，at），st+1），使用批量元組來(lái)更新網(wǎng)絡(luò)參數(shù)ω，為了最小化損失函數(shù)，利用梯度下降更新參數(shù)ω，時(shí)間差誤差為

δTD=R（st，at）+βQπ（st+1，at+1ω-）-Qπ（st，at，ω）（27）

其中：ω-是target network網(wǎng)絡(luò)的參數(shù)，與當(dāng)前的primary network相比，其參數(shù)相對(duì)固定。參數(shù)更新過(guò)程為

ω=ω-αcδTDωQπ（s，a，ω）（28）

其中：αc是神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率，小的學(xué)習(xí)率可以避免振蕩，但可能導(dǎo)致收斂的迭代次數(shù)變多。

2）Actor網(wǎng)絡(luò)更新過(guò)程

Actor網(wǎng)絡(luò)使用梯度上升來(lái)更新其參數(shù)θ，π（s）≈π（s，θ），該策略通過(guò)優(yōu)化狀態(tài)價(jià)值函數(shù)來(lái)改進(jìn)，算法的狀態(tài)價(jià)值函數(shù)就是策略π的績(jī)效指標(biāo)。訓(xùn)練的目的是使策略函數(shù)輸出的動(dòng)作能最大化動(dòng)作價(jià)值函數(shù)的值，最終得到策略梯度的表達(dá)式為

因?yàn)橐範(fàn)顟B(tài)價(jià)值函數(shù)達(dá)到最優(yōu)，所以利用隨機(jī)梯度上升來(lái)更新θ：

θ=θ+αaθQπ（s，a，ω，θ）（30）

此處αa>0是一個(gè)常數(shù)的學(xué)習(xí)速率。

3）target network網(wǎng)絡(luò)更新

如圖3所示，target network可以被視為primary network的近似副本，實(shí)際上，target network的架構(gòu)（如層數(shù)和隱藏層單元數(shù)）需要與primary network保持一致，如果target network的策略函數(shù)和價(jià)值函數(shù)的參數(shù)更新相比于primary network較慢，則網(wǎng)絡(luò)的學(xué)習(xí)性能穩(wěn)定且健進(jìn)。

此處使用指數(shù)加權(quán)平均來(lái)更新ω-和θ-，而不是直接復(fù)制primary network的參數(shù)。其更新過(guò)程可以表示為

θ-=τ1θ-+（1-τ1）θ（31）

ω-=τ2ω-+（1-τ2）ω（32）

其中：τ1，τ2∈［0，1］，是各自網(wǎng)絡(luò)更新的權(quán)重。可以由實(shí)驗(yàn)效果設(shè)置經(jīng)過(guò)多少輪迭代來(lái)更新一次ω-和θ-。基于DDPG的內(nèi)容協(xié)作緩存與無(wú)線帶寬分配CBDDPG（DDPG-based content cooperative caching and bandwidth allocation）算法求解Actor網(wǎng)絡(luò)參數(shù)θ，然后根據(jù)θ值得到緩存結(jié)果和無(wú)線帶寬分配。

算法 CBDDPG算法

5 仿真實(shí)驗(yàn)與性能分析

5.1 仿真場(chǎng)景參數(shù)設(shè)置

對(duì)于提出的協(xié)作緩存與帶寬分配方案，使用Python建立一個(gè)仿真模擬環(huán)境，利用MovieLens［25］等公共數(shù)據(jù)集進(jìn)行仿真實(shí)驗(yàn)。為了簡(jiǎn)化仿真的過(guò)程，但不失隨機(jī)性，此處抽取了數(shù)據(jù)集中的100個(gè)用戶的電影評(píng)分，最高為5，最低為0，可以近似體現(xiàn)用戶對(duì)內(nèi)容的喜好程度，用ru，f表示用戶u對(duì)內(nèi)容f的評(píng)分，然后得到用戶u對(duì)內(nèi)容f的偏好程度［26］：

其中：sim（u，v）表示用戶u和v的相似度，根據(jù)經(jīng)典的基于用戶的協(xié)同過(guò)濾算法可以得到［27］。根據(jù)不同基站下用戶u對(duì)文件f的偏好進(jìn)行隨機(jī)訪問(wèn)，可以得到該基站下文件的歷史請(qǐng)求率。在該系統(tǒng)中共有10個(gè)SBS基站隨機(jī)覆蓋著100個(gè)用戶，每個(gè)小基站的覆蓋半徑為50 m，經(jīng)過(guò)多次實(shí)驗(yàn)數(shù)據(jù)觀察，設(shè)置基站分組閾值K為0.97，由于在超密集網(wǎng)絡(luò)中，小型基站距離一般不大，設(shè)置q值為0.9。Actor網(wǎng)絡(luò)的學(xué)習(xí)率為0.000 1，Critic網(wǎng)絡(luò)的學(xué)習(xí)率為0.000 2，表1展示了所有的環(huán)境參數(shù)，另外本文設(shè)計(jì)了一個(gè)全連接的具有五個(gè)隱藏層的DNN網(wǎng)絡(luò)，每個(gè)隱藏層有50個(gè)節(jié)點(diǎn)單元，激活函數(shù)為ReLU。

5.2 對(duì)比算法描述

對(duì)獎(jiǎng)勵(lì)的折扣系數(shù)設(shè)置為β=0.9，由于算法的訓(xùn)練性能隨著次數(shù)的增加，在一定范圍內(nèi)表現(xiàn)出強(qiáng)烈的振蕩，在模擬中取平均值以減少模擬中的隨機(jī)性。為了評(píng)估本文緩存方案的性能，將本文方案與以下三種基線方案進(jìn)行比較。三種基線方案概述如下：

a）基于隨機(jī)信道分配的協(xié)作緩存方案（RBDDPG）。SBS的緩存決策部署根據(jù)DDPG來(lái)求解，信道分配采用隨機(jī)的方式。

b）基于分層感知的協(xié)作緩存方案（LCCS）［28］。該方案是一種典型的協(xié)作算法，通過(guò)將所有節(jié)點(diǎn)的儲(chǔ)存資源分成兩部分來(lái)實(shí)現(xiàn)，一部分用于緩存全局最流行的內(nèi)容，另一部分用于緩存局部最流行的內(nèi)容。該算法使用分?jǐn)?shù)來(lái)調(diào)整緩存資源的分配，LCCS算法是LCC的修改版本，其假設(shè)每個(gè)文件只有一層，這是因?yàn)楸疚牡闹攸c(diǎn)不是文件分層緩存，并且可以聯(lián)合聚簇中的基站獲取相應(yīng)的請(qǐng)求文件，信道資源分配方式采用貪心分配。

c）基于湯普森采樣的協(xié)作緩存方案（CB-TS）。在該方案的每一輪緩存中，緩存在SBS的內(nèi)容根據(jù)上一輪的緩存命中數(shù)和未緩存命中數(shù)來(lái)進(jìn)行更新［29］，并且選擇值最大的文件內(nèi)容進(jìn)行緩存，直到基站容量放滿，信道資源分配采用貪心的方式。

5.3 仿真結(jié)果收斂對(duì)比及分析

如圖4所示，展示了RBDDPG方案和本文基于CBDDPG算法的方案（簡(jiǎn)稱CBDDPG方案）訓(xùn)練過(guò)程中的收斂性能，此處的每一輪迭代包含200個(gè)時(shí)隙，每一個(gè)時(shí)隙的獎(jiǎng)勵(lì)為系統(tǒng)內(nèi)的總獎(jiǎng)勵(lì)，之后對(duì)本次迭代的時(shí)隙獎(jiǎng)勵(lì)求平均值得到每一輪迭代的獎(jiǎng)勵(lì)情況。文件數(shù)量為100，每個(gè)SBS的緩存容量為600 MB。因?yàn)樽铋_(kāi)始采用自適應(yīng)來(lái)調(diào)整η的值，智能體會(huì)以較大的概率探索動(dòng)作空間，獎(jiǎng)勵(lì)值跳躍性比較大，以便智能體根據(jù)加入的噪聲探索策略獲得更好的獎(jiǎng)勵(lì)。可以看到兩種方案在前100輪迭代的時(shí)候獎(jiǎng)勵(lì)增加的速度較快，隨著迭代次數(shù)增加，η的值逐漸減小，網(wǎng)絡(luò)逐漸收斂。可以觀察到，CBDDPG方案最開(kāi)始的系統(tǒng)獎(jiǎng)勵(lì)為35左右，隨著迭代次數(shù)的增加，獎(jiǎng)勵(lì)值伴隨著振蕩，但總體的值呈上升趨勢(shì)，最后的獎(jiǎng)勵(lì)均值在一定幅度內(nèi)穩(wěn)定，而RBDDPG方案由于信道的隨機(jī)分配，在該方案下系統(tǒng)獎(jiǎng)勵(lì)較小，原因是用戶總的內(nèi)容獲取時(shí)延較長(zhǎng)，導(dǎo)致了獎(jiǎng)勵(lì)較低，但網(wǎng)絡(luò)結(jié)構(gòu)一致，還是會(huì)收斂至一定范圍。所以在考慮信道分配問(wèn)題之后，本文CBDDPG方案有著更好的收斂效果和更高的獎(jiǎng)勵(lì)。

圖5展示了CBDDPG和RBDDPG方案在迭代過(guò)程中系統(tǒng)的每個(gè)用戶的平均內(nèi)容獲取時(shí)延，最開(kāi)始CBDDPG方案的平均內(nèi)容獲取時(shí)延為

9 s左右，隨著網(wǎng)絡(luò)的迭代，最終平均時(shí)延穩(wěn)定在6.5～6.6 s。因?yàn)镃BDDPG方案會(huì)根據(jù)環(huán)境的狀態(tài)，也就是用戶的請(qǐng)求信息，優(yōu)先緩存用戶偏好更高的內(nèi)容，每個(gè)用戶請(qǐng)求數(shù)量不同，所以會(huì)導(dǎo)致每個(gè)用戶所需傳輸?shù)臄?shù)據(jù)量不同，網(wǎng)絡(luò)經(jīng)過(guò)學(xué)習(xí)為不同用戶分配適合的信道帶寬，而RBDDPG方案雖然也會(huì)優(yōu)先緩存用戶偏好更高的內(nèi)容，但是在內(nèi)容傳輸過(guò)程中，其無(wú)線帶寬資源是隨機(jī)分配的，所以會(huì)導(dǎo)致需要傳輸數(shù)據(jù)量多的用戶分配的帶寬更少，這會(huì)增加用戶的內(nèi)容獲取時(shí)延。

圖6展示了CBDDPG方案隨著迭代次數(shù)增加后，系統(tǒng)中請(qǐng)求用戶分別從本地基站、簇內(nèi)分組基站和通過(guò)MBS經(jīng)核心網(wǎng)獲取文件的比例，其中C1表示用戶在本地基站獲取文件的比例，C2表示用戶在簇內(nèi)分組基站獲取文件的比例，C3表示用戶通過(guò)MBS經(jīng)核心網(wǎng)獲取文件的比例。最開(kāi)始超過(guò)一半的文件是從MBS獲取的，隨著迭代次數(shù)增加，從本地基站和簇內(nèi)基站獲取文件的比例逐漸增加，在250輪迭代之后趨于穩(wěn)定。其中，C1最開(kāi)始占比10%左右，穩(wěn)定之后達(dá)到18%的比例，有較明顯的提升，對(duì)C2從37%提升到了近46%，而C3從剛開(kāi)始的超一半比例下降到36%左右。實(shí)驗(yàn)結(jié)果表明，CBDDPG方案能夠促使用戶感興趣的文件內(nèi)容緩存至離用戶更近的位置，極大地縮短了用戶的請(qǐng)求時(shí)延，在實(shí)際場(chǎng)景中可以得到較好的應(yīng)用。

5.4 方案長(zhǎng)期性能分析

圖7展示了四種緩存方案在不同的基站容量下的緩存命中率，文件數(shù)量為100。因?yàn)橥ㄟ^(guò)鄰居基站獲取文件可以適當(dāng)?shù)販p少時(shí)延，所以本文將通過(guò)鄰居基站中獲取文件的情況下也視為緩存命中。可以觀察到所有方案的緩存命中率隨著基站容量的增大而增加。本文CBDDPG方案的命中率與RBDDPG方案相近，但優(yōu)于其他兩種方案，這是因?yàn)镽BDDPG方案也會(huì)根據(jù)用戶請(qǐng)求信息來(lái)緩存用戶偏好較高的文件。CBDDPG方案相對(duì)于LCCS和CB-TS方案有更高的緩存命中率，這是因?yàn)镈DPG算法能夠?qū)W習(xí)用戶的請(qǐng)求習(xí)慣，在緩存部署時(shí)更好地放置利于用戶的文件，提高基站緩存的空間利用率，而在LCCS方案中，SBS之間不必要的內(nèi)容冗余會(huì)導(dǎo)致儲(chǔ)存利用率降低，從而降低緩存命中的性能。而CB-TS方案通過(guò)用戶的請(qǐng)求過(guò)程不斷地修正文件的分布，相對(duì)于LCCS方案會(huì)有一個(gè)探索的過(guò)程，從后驗(yàn)分布中采樣出來(lái)，分層的貪心算法缺乏主動(dòng)探索。

圖8展示了四種緩存方案在不同的基站容量下的系統(tǒng)時(shí)延，隨著基站容量的增大，四種方案的系統(tǒng)時(shí)延逐漸減小，因?yàn)楦叩木彺婷新士梢詫⒏嗟恼?qǐng)求從核心網(wǎng)卸載到本地或者聚簇網(wǎng)絡(luò)，可以看到RBDDPG方案雖然在緩存命中率上較優(yōu)，但是會(huì)導(dǎo)致更長(zhǎng)的內(nèi)容獲取時(shí)延，其中最主要的原因是為傳輸數(shù)據(jù)量較多的用戶分配了較少的無(wú)線資源，從而加大了內(nèi)容獲取時(shí)延。

圖9和10展示了系統(tǒng)緩存命中率和文件傳輸?shù)钠骄鶗r(shí)延在不同的文件數(shù)量下的性能對(duì)比，模擬的文件總數(shù)在50～350，基站容量大小為600 MB。

如圖9所示，當(dāng)系統(tǒng)內(nèi)的文件數(shù)量較少時(shí)（范圍在50～150），與沒(méi)有緩存相比，CBDDPG方案至少貢獻(xiàn)了55%的命中率，當(dāng)系統(tǒng)內(nèi)文件數(shù)量增加時(shí)，所有緩存方案的命中率都會(huì)減少，這是因?yàn)槲募?shù)量增加，用戶請(qǐng)求分布更廣，熱門的內(nèi)容很大概率被稀釋了，然而SBS的緩存容量太有限，無(wú)法包含更多的流行文件，導(dǎo)致更多的緩存未命中，這也能進(jìn)一步地解釋隨著文件數(shù)量增加，命中率減少變緩的原因。

如圖10所示，所有方案的系統(tǒng)總時(shí)延隨著文件數(shù)量的增加而增加，與上文命中率分析結(jié)果一致，未命中的文件肯定會(huì)增加獲取時(shí)延，在文件數(shù)量越來(lái)越多時(shí)，系統(tǒng)的總時(shí)延增加開(kāi)始變的緩慢，這是因?yàn)槲募臒岫雀蟪潭缺幌♂專啾扔谇捌谖募?shù)量較少時(shí)，文件被請(qǐng)求概率差距不大，隨后再增加文件數(shù)量，系統(tǒng)總的傳輸時(shí)延增加變緩慢。可以看出CBDDPG方案還是明顯優(yōu)于其他三種方案。實(shí)驗(yàn)結(jié)果表明，本文方案在不同的網(wǎng)絡(luò)規(guī)模下始終能夠保持良好的性能，且具有穩(wěn)定性。

6 結(jié)束語(yǔ)

本文主要研究了密集網(wǎng)絡(luò)中聯(lián)合緩存放置和內(nèi)容傳輸問(wèn)題，提出方案結(jié)合小基站下用戶的內(nèi)容請(qǐng)求特征，利用小基站之間的內(nèi)容相似性以及基站之間的距離來(lái)對(duì)小基站進(jìn)行聚簇，使用層次聚類算法將網(wǎng)絡(luò)中的所有小型基站進(jìn)行分組，在分組中采取分布式的協(xié)作緩存為用戶提供服務(wù)。本文將問(wèn)題建模成一個(gè)聯(lián)合優(yōu)化長(zhǎng)期混合整數(shù)的非線性規(guī)劃問(wèn)題，并且提出了一種基于深度強(qiáng)化學(xué)習(xí)的協(xié)作邊緣緩存和無(wú)線資源分配方案來(lái)進(jìn)行決策部署和無(wú)線資源分配。仿真結(jié)果表明，本文提出的協(xié)作緩存與無(wú)線資源分配的方案在降低用戶請(qǐng)求文件的平均時(shí)延方面體現(xiàn)了良好的性能，相比于分層感知的協(xié)作緩存方案和湯普森采樣的協(xié)作緩存算法具有一定的優(yōu)勢(shì)。本文沒(méi)有考慮用戶的移動(dòng)性，也沒(méi)有研究用戶訪問(wèn)文件的潛在規(guī)律，這兩方面可以作為未來(lái)的研究?jī)?nèi)容。

參考文獻(xiàn)：

［1］Mao Yuyi， You Changsheng， Zang Jun， et al. A survey on mobile edge computing： the communication perspective［J］. IEEE Communications Surveys & Tutorials， 2017，19（4）： 2322-2358.

［2］李斌，彭思聰，費(fèi)澤松. 基于邊緣計(jì)算的無(wú)人機(jī)通感融合網(wǎng)絡(luò)波束成形與資源優(yōu)化［J］. 通信學(xué)報(bào)， 2023，44（9）： 228-237. （Li Bin， Peng Sicong， Fei Zesong. Beamforming and resource optimization in UAV integrated sensing and communication network with edge computing［J］. Journal on Communications， 2023，44（9）： 228-237.）

［3］Dai Yueyue， Xu Du， Lu Yunlong， et al. Deep reinforcement learning for edge caching and content delivery in Internet of Vehicles［C］//Proc of IEEE/CIC International Conference on Communications in China. Piscataway， NJ： IEEE Press， 2019： 134-139.

［4］李斌. 基于多智能體強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)邊緣計(jì)算任務(wù)卸載［J］. 無(wú)線電工程， 2023，53（12）： 2731-2740. （Li Bin. Multi-agent reinforcement learning-based task offloading for multi-UAV edge computing［J］. Radio Engineering， 2023，53（12）： 2731-2740.）

［5］Zhang Zhengming， Chen Hongyang， Hua Meng， et al. Double coded caching in ultra dense networks： caching and multicast scheduling via deep reinforcement learning［J］. IEEE Trans on Communications， 2020，68（2）： 1071-1086.

［6］Zhang Shan， He P， Suto K， et al. Cooperative edge caching in user-centric clustered mobile networks［J］. IEEE Trans on Mobile Computing， 2018，17（8）： 1791-1805.

［7］Ale L， Zhang Ning， Wu Huici， et al. Online proactive caching in mobile edge computing using bidirectional deep recurrent neural network［J］. IEEE Internet of Things Journal， 2019， 6（3）： 5520-5530.

［8］Hou Tingting， Feng Gang， Qin Shuang， et al. Proactive content ca-ching by exploiting transfer learning for mobile edge computing［J］. International Journal of Communication Systems， 2018， 31（11）： e3706.

［9］Yao Jingjing， Han Tao， Ansari N. On mobile edge caching［J］. IEEE Communications Surveys & Tutorials， 2019， 21（3）： 2525-2553.

［10］Chang Qi， Jiang Yanxiang， Zheng F C， et al. Cooperative edge ca-ching via multi agent reinforcement learning in fog radio access networks［C］//Proc of IEEE International Conference on Communications. Piscataway， NJ： IEEE Press， 2022： 3641-3646.

［11］Zhang Ke，Leng Supeng， He Yejun， et al. Cooperative content ca-ching in 5G networks with mobile edge computing［J］. IEEE Wireless Communications， 2018， 25（3）： 80-87.

［12］Zhou Bo， Cui Ying， Tao Meixia. Stochastic content-centric multicast scheduling for cache-enabled heterogeneous cellular networks［J］. IEEE Trans on Wireless Communications， 2016，15（9）： 6284-6297.

［13］Amer R， Butt M M， Bennis M， et al. Inter-cluster cooperation for wireless D2D caching networks［J］. IEEE Trans on Wireless Communications， 2018， 17（9）： 6108-6121.

［14］Bastug E， Bennis M， Debbah M. Living on the edge： the role of proactive caching in 5G wireless networks［J］. IEEE Communications Magazine， 2014， 52（8）： 82-89.

［15］Wang Qiao， Grace D. Sequence prediction-based proactive caching in vehicular content networks［C］//Proc of the 3rd Connected and Automated Vehicles Symposium. Piscataway， NJ： IEEE Press， 2020： 1-6.

［16］Chang Zheng， Lei Lei， Zhou Zhenyu， et al. Learn to cache： machine learning for network edge caching in the big data era［J］. IEEE Wireless Communications， 2018，25（3）： 28-35.

［17］Wu Pingyang， Li Jun， Shi Long， et al. Dynamic content update for wireless edge caching via deep reinforcement learning［J］. IEEE Communications Letters， 2019，23（10）： 1773-1777.

［18］Qiao Guanhua， Leng Supeng， Maharjan S， et al. Deep reinforcement learning for cooperative content caching in vehicular edge computing and networks［J］. IEEE Internet of Things Journal， 2020，7（1）： 247-257.

［19］Zhu Hao， Cao Yang， Wang Wei， et al. Deep reinforcement learning for mobile edge caching： review， new features， and open issues［J］. IEEE Network， 2018， 32（6）： 50-57.

［20］Zhong Chen， Gursoy M C， Velipasalar S. Deep multi-agent reinforcement learning based cooperative edge caching in wireless networks［C］//Proc of IEEE International Conference on Communications. Piscataway， NJ： IEEE Press， 2019： 1-6.

［21］Chen Shuangwu， Yao Zhen， Jiang Xiaofeng et al. Multi-agent deep reinforcement learning-based cooperative edge caching for ultra-dense next-generation networks［J］. IEEE Trans on Communications， 2021， 69（4）： 2441-2456.

［22］Lin Peng， Song Qingyang， Jamalipour A. Multidimensional cooperative caching in CoMP-integrated ultra-dense cellular networks［J］. IEEE Trans on Wireless Communications， 2020，19（3）： 1977-1989.

［23］Li Ding， Han Yiwen， Wang Chenyang， et al. Deep reinforcement learning for cooperative edge caching in future mobile networks［C］//Proc of IEEE Wireless Communications and Networking Conference. Piscataway， NJ： IEEE Press， 2019： 1-6.

［24］Hsu H， Chen K. A resource allocation perspective on caching to achieve low latency［J］. IEEE Communications Letters， 2016， 20（1）： 145-148.

［25］Harper F M， Konstan A J. The MovieLens datasets： history and context［J］. ACM Trans on Interactive Intelligent Systems， 2015，5（4）： 1-19.

［26］Ke Zhihui， Cheng Meng， Zhou Xiaobo， et al. Joint cooperative content caching and recommendation in mobile edge-cloud networks［C］//Proc of the 4th International Joint Conference. Cham： Springer， 2020： 424-438.

［27］Ekstrand M D， Riedl J T， Konstan J A. Collaborative filtering recommender systems［M］. ［S.l.］： Now Foundations and Trends， 2011： 81-173.

［28］Poularakis K， Iosifidis G， Argyriou A， et al. Caching and operator cooperation policies for layered video content delivery［C］//Proc of the 35th Annual IEEE International Conference on Computer Communications. Piscataway， NJ： IEEE Press， 2016： 1-9.

［29］Cui Laizhong， Su Xiaoxin， Ming Zhongxing， et al. CREAT： blockchain-assisted compression algorithm of federated learning for content caching in edge computing［J］. IEEE Internet of Things Journal， 2022， 9（16）： 14151-14161.

計(jì)算機(jī)應(yīng)用研究2024年6期

計(jì)算機(jī)應(yīng)用研究的其它文章: 基于嵌套剖分的位姿圖分層優(yōu)化算法; 一種面向機(jī)器視覺(jué)感知的暗光圖像增強(qiáng)網(wǎng)絡(luò); 基于目標(biāo)圖像先驗(yàn)信息的無(wú)監(jiān)督多聚焦圖像融合; 基于優(yōu)化感受野策略的圖像修復(fù)方法; 基于局部-全局特征耦合與邊界引導(dǎo)的遙感圖像建筑物變化檢測(cè); 基于特征級(jí)損失和可學(xué)習(xí)噪聲的醫(yī)學(xué)圖像域泛化方法