基于深度Q網(wǎng)絡(luò)的在線服務(wù)功能鏈部署方法

2021-12-02 10:10:02湯紅波

電子與信息學(xué)報(bào) 2021年11期

邱航湯紅波游偉

(中國(guó)人民解放軍戰(zhàn)略支援部隊(duì)信息工程大學(xué) 鄭州 450002)

1 引言

隨著移動(dòng)通信的發(fā)展，快速部署各種新出現(xiàn)、多樣化和差異化的網(wǎng)絡(luò)服務(wù)已經(jīng)成為運(yùn)營(yíng)商們面臨的重要挑戰(zhàn)之一[1]。為了滿足這些需求，第5代移動(dòng)通信(5G)從僵化的硬件解決方案轉(zhuǎn)變?yōu)楦屿`活和可擴(kuò)展的軟件解決方案，降低了運(yùn)營(yíng)商們?cè)诓少?gòu)、管理和運(yùn)行期間的資本開銷(CPEX)和運(yùn)營(yíng)支出(OPEX)。這一愿景的實(shí)現(xiàn)主要受益于網(wǎng)絡(luò)功能虛擬化和軟件定義網(wǎng)絡(luò)兩項(xiàng)關(guān)鍵技術(shù)，使得按需和近乎實(shí)時(shí)地部署新服務(wù)成為可能[2]。網(wǎng)絡(luò)功能虛擬化(Network Function Virtualization, NFV)[3]實(shí)現(xiàn)了網(wǎng)絡(luò)設(shè)備中軟件與硬件解耦，提供了一種新的方式設(shè)計(jì)、編排、部署和管理多樣化的網(wǎng)絡(luò)服務(wù)；同時(shí)，軟件定義網(wǎng)絡(luò)(Software-Defined Network, SDN)解耦了控制平面與數(shù)據(jù)平面，以SDN控制器的形式實(shí)現(xiàn)了網(wǎng)絡(luò)的集中化管理[4]。在NFV/SDN使能網(wǎng)絡(luò)中，運(yùn)營(yíng)商能夠便捷地監(jiān)測(cè)網(wǎng)絡(luò)設(shè)備和流量，實(shí)現(xiàn)網(wǎng)絡(luò)服務(wù)的高效管理。

在NFV/SDN使能網(wǎng)絡(luò)中，服務(wù)功能鏈(Service Function Chain, SFC，簡(jiǎn)稱服務(wù)鏈)已經(jīng)成為一種典型的網(wǎng)絡(luò)服務(wù)表示方式。根據(jù)IETF (Internet Engineering Task Force)制定的服務(wù)鏈標(biāo)準(zhǔn)，SFC定義為一組有序或部分有序的VNFs集合，特別是一條SFC的流量需按照預(yù)定義的順序經(jīng)過一系列指定的VNFs[5]。NFV允許將軟件化的VNF部署在通用服務(wù)器里任何資源充足的VM或容器中，因此，在NFV/SDN使能網(wǎng)絡(luò)中，通過確定如何在多個(gè)候選服務(wù)器中部署服務(wù)請(qǐng)求的服務(wù)鏈為改善系統(tǒng)性能和服務(wù)質(zhì)量提供了一個(gè)機(jī)遇。同時(shí)，網(wǎng)絡(luò)服務(wù)的高效和自動(dòng)部署無疑是邁向全自動(dòng)網(wǎng)絡(luò)(即零接觸網(wǎng)絡(luò))的最重要的技術(shù)構(gòu)件之一。然而，由于服務(wù)的各種限制條件，網(wǎng)絡(luò)服務(wù)在基礎(chǔ)設(shè)施上的部署仍然非常復(fù)雜。

目前，面向服務(wù)請(qǐng)求的虛擬網(wǎng)絡(luò)功能放置或者服務(wù)鏈部署問題已經(jīng)成為學(xué)術(shù)界研究的一個(gè)熱點(diǎn)問題，被歸類為NFV系統(tǒng)中的一個(gè)資源管理問題[6]，并被證明是一個(gè)NP難問題[7-9]。當(dāng)前文獻(xiàn)主要將其建模為不同優(yōu)化目標(biāo)的數(shù)學(xué)規(guī)劃模型，包括整數(shù)線性規(guī)劃(Integer Linear Programming, ILP)[10,11]和混合整數(shù)線性規(guī)劃(Mixed Integer Linear Programming,MILP)[12,13]等。由于數(shù)學(xué)規(guī)劃方法在大規(guī)模網(wǎng)絡(luò)中求出最優(yōu)解是非常困難的，因此許多工作通過設(shè)計(jì)啟發(fā)式算法以獲得近似最優(yōu)解。文獻(xiàn)[11]研究了數(shù)據(jù)中心中服務(wù)鏈的部署問題，通過考慮VNFs的資源開銷設(shè)計(jì)了一種啟發(fā)式算法完成VNF實(shí)例在大規(guī)模網(wǎng)絡(luò)中的放置。文獻(xiàn)[14]提出了一種改進(jìn)多階段圖的啟發(fā)式服務(wù)鏈部署算法，完成VNF的高效放置。在考慮流量預(yù)測(cè)的條件下，Tang等人[13]提出一種滑動(dòng)窗口線性回歸的流量預(yù)測(cè)方法，然后通過松弛整數(shù)變量設(shè)計(jì)了兩種啟發(fā)式算法。然而，由于啟發(fā)式算法缺乏嚴(yán)格的理論證明，難以保證其總是求得近似最優(yōu)解。強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)用于描述和解決智能體(agent)在與環(huán)境的交互過程中通過學(xué)習(xí)策略以達(dá)成回報(bào)最大化或?qū)崿F(xiàn)特定目標(biāo)的問題，目前已證明其在求解組合優(yōu)化問題方面的優(yōu)勢(shì)[15]。袁泉等人[16]提出了一種改進(jìn)的基于Q學(xué)習(xí)的服務(wù)鏈部署方法，同時(shí)考慮了空間維度下的服務(wù)鏈映射和時(shí)間維度下的VNF生命周期管理，實(shí)現(xiàn)了VNF部署收益和時(shí)延的多目標(biāo)優(yōu)化。在現(xiàn)實(shí)網(wǎng)絡(luò)環(huán)境中，一個(gè)網(wǎng)絡(luò)中包含大量的硬件設(shè)備，由于網(wǎng)絡(luò)服務(wù)和用戶請(qǐng)求的多樣性，網(wǎng)絡(luò)資源狀態(tài)(例如帶寬、內(nèi)存和CPU等)的變化是復(fù)雜的，將會(huì)對(duì)VNF的部署產(chǎn)生重要影響；而且，在網(wǎng)絡(luò)功能虛擬化環(huán)境中，VNF能夠靈活地放置在網(wǎng)絡(luò)的多個(gè)位置，其可能產(chǎn)生大規(guī)模VNF放置和優(yōu)化的動(dòng)作空間。傳統(tǒng)的強(qiáng)化學(xué)習(xí)方法采用Q表的形式評(píng)價(jià)當(dāng)前狀態(tài)下每個(gè)動(dòng)作的性能，然而Q表的維度是有限的，僅能求解有限離散狀態(tài)和動(dòng)作空間的低維度問題。因此，傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法在大規(guī)模底層網(wǎng)絡(luò)環(huán)境中，難以準(zhǔn)確地描述復(fù)雜的網(wǎng)絡(luò)資源狀態(tài)變化，且求解擴(kuò)展性不足。深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning, DRL)采用深度神經(jīng)網(wǎng)絡(luò)代替Q表，深度神經(jīng)網(wǎng)絡(luò)能夠建立高維狀態(tài)、動(dòng)作和Q值之間的關(guān)系。因此，DRL擁有更加強(qiáng)大的學(xué)習(xí)能力，被廣泛地應(yīng)用于解復(fù)雜問題。文獻(xiàn)[17]設(shè)計(jì)了一種基于策略梯度的DRL算法求解服務(wù)鏈部署問題，目標(biāo)是實(shí)現(xiàn)運(yùn)營(yíng)開銷和服務(wù)請(qǐng)求總吞吐量的聯(lián)合優(yōu)化。文獻(xiàn)[18]將深度確定性策略梯度算法用于求解VNF的放置問題，以提高服務(wù)請(qǐng)求的接受率。策略梯度適用于連續(xù)變量求解，而對(duì)于離散空間在擬合誤差傳遞過程中可能出現(xiàn)訓(xùn)練穩(wěn)定性不足的問題。

上述工作都在努力解決服務(wù)鏈部署問題，但由于服務(wù)請(qǐng)求的隨機(jī)到達(dá)，網(wǎng)絡(luò)資源狀態(tài)通常表現(xiàn)出很大的變化，同時(shí)網(wǎng)絡(luò)環(huán)境的復(fù)雜性使得傳統(tǒng)算法求解效率明顯降低，因此需要一個(gè)合適的模型來捕捉動(dòng)態(tài)網(wǎng)絡(luò)的狀態(tài)變化和一種高效的求解策略。本文提出了一種基于深度Q網(wǎng)絡(luò)的在線服務(wù)功能鏈部署方法。首先，我們引入馬爾可夫決策過程來描述動(dòng)態(tài)的網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)換過程；然后，提出了一種基于DQN的在線服務(wù)鏈部署算法來智能高效地解決服務(wù)鏈部署的復(fù)雜性問題，該算法旨在滿足服務(wù)請(qǐng)求的時(shí)延約束的同時(shí)最小化總資源占用開銷。仿真結(jié)果表明，本文方法能夠克服數(shù)學(xué)規(guī)劃的擴(kuò)展性問題，而且滿足時(shí)延要求的條件下最小化服務(wù)鏈部署開銷，可有效提高運(yùn)營(yíng)商網(wǎng)絡(luò)的請(qǐng)求接受率和運(yùn)營(yíng)收益。

2 系統(tǒng)模型和問題規(guī)劃

本節(jié)詳細(xì)描述了服務(wù)鏈部署問題的數(shù)學(xué)規(guī)劃，然后說明了如何使用馬爾可夫決策過程建模網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)變和服務(wù)鏈部署問題，最后簡(jiǎn)要介紹了深度Q網(wǎng)絡(luò)。

2.1 系統(tǒng)模型和問題描述

圖1 服務(wù)功能鏈部署示意圖

首先，服務(wù)器有充足的資源可以放置多個(gè)VNFs，因此表述服務(wù)器的資源約束為

同時(shí)每個(gè)VNFs只能部署在一個(gè)服務(wù)器節(jié)點(diǎn)n上，因此

然后，本文不僅考慮帶寬資源約束，也考慮QoS中的時(shí)延要求，因?yàn)闀r(shí)延約束同樣影響服務(wù)請(qǐng)求部署是否成功。采用不可分割的多商品流問題建模VLs的底層網(wǎng)絡(luò)路徑，一條VL部署成功當(dāng)且僅當(dāng)其連接的VNFs部署成功，同時(shí)滿足它的時(shí)延要求。對(duì)于帶寬需求

2.2 馬爾可夫決策過程

在通信網(wǎng)絡(luò)環(huán)境中，服務(wù)請(qǐng)求的隨機(jī)到達(dá)和離開服從泊松過程，泊松過程滿足兩個(gè)條件：(1)不同服務(wù)請(qǐng)求到達(dá)或離開是相互獨(dú)立的事件；(2)在足夠小的單位時(shí)間內(nèi)，有且僅有不超過一個(gè)服務(wù)請(qǐng)求到達(dá)或者離開[19]。定義Rτ ?R表示[ 0,τ]內(nèi)到達(dá)和離開的服務(wù)請(qǐng)求，當(dāng)每個(gè)服務(wù)請(qǐng)求到達(dá)時(shí)，NFV/SDN使能網(wǎng)絡(luò)的管理編排器將會(huì)獲取底層網(wǎng)絡(luò)狀態(tài)信息，包含服務(wù)器節(jié)點(diǎn)剩余資源、物理鏈路可用帶寬和傳輸時(shí)延等，為服務(wù)請(qǐng)求的服務(wù)鏈部署做好準(zhǔn)備。馬爾可夫決策過程(Markov Decision Process, MDP)是序貫決策的數(shù)學(xué)模型，用于在系統(tǒng)狀態(tài)具有馬爾可夫性質(zhì)的環(huán)境中模擬智能體可實(shí)現(xiàn)的隨機(jī)性策略與回報(bào)[20]。考慮到服務(wù)請(qǐng)求到達(dá)和離開以及服務(wù)鏈中VNF的序慣性，本文采用MDP描述服務(wù)鏈部署過程。MDP通常定義為5元組〈S,A,P,R,γ〉，其中S表示狀態(tài)集合，A表示離散動(dòng)作集合，P:S×A×S表示狀態(tài)轉(zhuǎn)移概率分布，R:S×A是獎(jiǎng)勵(lì)函數(shù)，γ∈[0,1]是對(duì)未來獎(jiǎng)勵(lì)的折扣因子。

2.3 深度Q網(wǎng)絡(luò)

傳統(tǒng)的Q-learning用表格的方式來記錄狀態(tài)和動(dòng)作對(duì)應(yīng)的Q值的方法在處理一些大規(guī)模的問題上會(huì)占用極大的內(nèi)存，而且重復(fù)地搜索大規(guī)模表格也是一件很耗時(shí)的事情。深度Q網(wǎng)絡(luò)(Deep Q Network, DQN)是一種將神經(jīng)網(wǎng)絡(luò)和Q-learning結(jié)合的方法，直接將狀態(tài)作為神經(jīng)網(wǎng)絡(luò)的輸入，用神經(jīng)網(wǎng)絡(luò)計(jì)算出所有的動(dòng)作價(jià)值，并從中選出一個(gè)最大值作為輸出，或者將狀態(tài)和動(dòng)作都作為神經(jīng)網(wǎng)絡(luò)的輸入，直接輸出對(duì)應(yīng)的Q值。

DQN采用行為和觀察值的序列作為學(xué)習(xí)的樣本，由于這樣的序列彼此之間是完全不同的，所以用這樣的序列作為RL中狀態(tài)時(shí)，所有的狀態(tài)都是完全不同的值，可以將問題轉(zhuǎn)化為MDP，也就方便使用RL來解決問題。同時(shí)DQN擁有一個(gè)經(jīng)驗(yàn)復(fù)用池來學(xué)習(xí)之前的學(xué)習(xí)經(jīng)歷，其中存儲(chǔ)的“學(xué)習(xí)經(jīng)歷”就是之前提到的行為和觀察值序列，便于在DQN每次更新時(shí)抽取之前的學(xué)習(xí)經(jīng)歷進(jìn)行學(xué)習(xí)。隨機(jī)抽取的方式打亂了學(xué)習(xí)經(jīng)歷之間的相關(guān)性，也使得神經(jīng)網(wǎng)絡(luò)的更新更有效率。

3 基于DQN的服務(wù)鏈部署算法

本節(jié)首先引進(jìn)基于DQN的服務(wù)鏈部署架構(gòu)，然后介紹基于DQN的在線服務(wù)鏈部署算法，最后詳細(xì)說明深度Q網(wǎng)絡(luò)的訓(xùn)練過程。

3.1 網(wǎng)絡(luò)服務(wù)部署架構(gòu)

馬爾可夫決策過程能夠連續(xù)自動(dòng)地描述網(wǎng)絡(luò)環(huán)境的變化和網(wǎng)絡(luò)資源狀態(tài)轉(zhuǎn)移。基于上述條件，我們需要找到一種合適、高效的服務(wù)鏈部署算法，其能夠在每個(gè)狀態(tài)下自動(dòng)采取合適的動(dòng)作以獲得較好的收益。因此，我們推出一種基于DQN的在線服務(wù)鏈部署算法，在滿足時(shí)延要求的條件下最小化服務(wù)請(qǐng)求占用資源開銷。

圖2 網(wǎng)絡(luò)服務(wù)部署架構(gòu)

3.2 基于DQN的服務(wù)鏈部署算法

為有效應(yīng)對(duì)網(wǎng)絡(luò)的動(dòng)態(tài)變化，本文采用泊松過程表示服務(wù)請(qǐng)求的到達(dá)和離開。當(dāng)服務(wù)請(qǐng)求到達(dá)時(shí)，NFV/SDN網(wǎng)絡(luò)管理編排器(MANO)決策是否接受服務(wù)請(qǐng)求，然后更新網(wǎng)絡(luò)狀態(tài)。MANO按照到達(dá)時(shí)間依次部署服務(wù)請(qǐng)求的服務(wù)鏈，如果服務(wù)鏈部署失敗則拒絕服務(wù)請(qǐng)求，并返回初始網(wǎng)絡(luò)狀態(tài)。服務(wù)鏈部署失敗的原因可能包含：(1)服務(wù)器資源短缺造成VNFs部署失敗；(2)無法滿足服務(wù)請(qǐng)求的帶寬或時(shí)延約束。為減小服務(wù)鏈部署過程中VNF放置動(dòng)作的取值空間，本文采用序列化的方式進(jìn)行服務(wù)鏈部署，即在每個(gè)MDP狀態(tài)轉(zhuǎn)移內(nèi)僅部署一個(gè)VNF。基于DQN的在線服務(wù)鏈部署算法(Deep Q network based Service Chain Deployment,DeepSCD)如表1所示。首先初始化網(wǎng)絡(luò)狀態(tài)，根據(jù)輸入服務(wù)鏈的長(zhǎng)度確定部署步長(zhǎng)，檢查底層網(wǎng)絡(luò)資源狀態(tài)，生成可用服務(wù)器節(jié)點(diǎn)集合作為動(dòng)作空間，根據(jù)設(shè)置條件選擇一個(gè)動(dòng)作at作為返回值；NFV/SDN使能網(wǎng)絡(luò)給予當(dāng)前網(wǎng)絡(luò)狀態(tài)下執(zhí)行的動(dòng)作at的獎(jiǎng)勵(lì)反饋，智能體根據(jù)獎(jiǎng)勵(lì)更新策略并轉(zhuǎn)移至下一個(gè)狀態(tài)。如果部署過程中出現(xiàn)可用服務(wù)器節(jié)點(diǎn)集合為空，MANO返回信息通知資源無法滿足條件，拒絕服務(wù)請(qǐng)求，并返回初始化狀態(tài)。其中經(jīng)驗(yàn)復(fù)用池用于神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，本文設(shè)置復(fù)用池大小M=500，當(dāng)經(jīng)驗(yàn)池存儲(chǔ)樣本收集滿時(shí)開始進(jìn)行訓(xùn)練((11)～(15)行)。如果網(wǎng)絡(luò)資源滿足整個(gè)服務(wù)鏈的部署要求，同時(shí)檢查輸入狀態(tài)中的服務(wù)鏈部署策略的端到端時(shí)延值。如果該值滿足服務(wù)請(qǐng)求的時(shí)延約束則輸出該策略提供服務(wù)；否則MANO返回?zé)o法滿足QoS條件消息拒絕服務(wù)請(qǐng)求。

表1 算法1 基于DQN的在線服務(wù)鏈部署算法

3.3 訓(xùn)練過程

DQN采用兩個(gè)神經(jīng)網(wǎng)絡(luò)，分別是在線網(wǎng)絡(luò)和目標(biāo)網(wǎng)絡(luò)，其中在線網(wǎng)絡(luò)不停地更新參數(shù)，用來進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練，計(jì)算出Q估計(jì)值；而目標(biāo)網(wǎng)絡(luò)則凍結(jié)參數(shù)，隔一段時(shí)間更新一次，用來計(jì)算Q現(xiàn)實(shí)值。DQN的訓(xùn)練流程如圖3所示，目標(biāo)網(wǎng)絡(luò)Q(s′,a′|θ?)與在線網(wǎng)絡(luò)Q(s,a|θ)結(jié)構(gòu)相同，只是在每L步后對(duì)目標(biāo)網(wǎng)絡(luò)進(jìn)行參數(shù)更新，使得θ?=θ。在一段時(shí)間內(nèi)保持Q值是穩(wěn)定不變的，一定程度上降低了當(dāng)前Q值與目標(biāo)Q值的相關(guān)性，提升了算法的穩(wěn)定性。在 Q網(wǎng)絡(luò)訓(xùn)練過程中，一般會(huì)通過隨機(jī)梯度下降來優(yōu)化損失函數(shù)，損失函數(shù)為

圖3 DQN訓(xùn)練流程

4 仿真結(jié)果與分析

4.1 實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置

仿真采用BtEurope[21]網(wǎng)絡(luò)拓?fù)洌?4個(gè)數(shù)據(jù)中心節(jié)點(diǎn)和37條全雙工鏈路。數(shù)據(jù)中心可用資源容量在[5, 50](unit)區(qū)間內(nèi)隨機(jī)選取，鏈路帶寬容量隨機(jī)選取以下數(shù)值：100 Mbps, 150 Mbps,600 Mbps和1 Gbps，傳輸時(shí)延在[500, 1000](μs)內(nèi)隨機(jī)生成。一條服務(wù)鏈包含5～9個(gè)VNFs，VNF請(qǐng)求的資源數(shù)量服從[0.5, 2]上的均勻分布，VL請(qǐng)求帶寬在1～40 Mbps內(nèi)隨機(jī)選取，服務(wù)請(qǐng)求最大容忍時(shí)延設(shè)置在[5, 20] (ms)。

基于上述設(shè)置，本實(shí)驗(yàn)在Xeon E5-2630 v4 2.2 GB和64 GB內(nèi)存的Windows 10系統(tǒng)內(nèi)使用Pycharm IDE進(jìn)行仿真。采用基于Python 3.8的Pytorch 1.6機(jī)器學(xué)習(xí)庫(kù)執(zhí)行深度學(xué)習(xí)，使用NetworkX[22]仿真數(shù)據(jù)中心基礎(chǔ)設(shè)施的底層網(wǎng)絡(luò)。管理編排智能體的設(shè)置使用以下參數(shù)，折扣因子γ=0.85，神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)采用Adma，目標(biāo)網(wǎng)絡(luò)的更新周期L=50，神經(jīng)網(wǎng)絡(luò)隱藏層采用2層全連接結(jié)構(gòu)，神經(jīng)元個(gè)數(shù)為100，線性整流函數(shù)(Rectified Linear Unit, ReLU)作為激活函數(shù)。

4.2 性能分析

為驗(yàn)證本文算法DeepSCD的性能和有效性，我們比較DeepSCD與啟發(fā)式算法First-Fit-Dijkstra(FFD)和貝葉斯方法(Bayes)的性能。FFD算法采用First-Fit算法為VNFs分配底層網(wǎng)絡(luò)服務(wù)器資源和Dijkstra算法定義VLs的底層傳輸路徑，在文獻(xiàn)[23-25]中作為評(píng)估性能的基準(zhǔn)線算法。貝葉斯方法采用貝葉斯學(xué)習(xí)方法來解決NFV組件的預(yù)測(cè)、分割和部署問題[26]。在DeepSCD中，VNFs的放置位置是由神經(jīng)網(wǎng)絡(luò)決定的，因此DQN agent生成動(dòng)作的質(zhì)量將會(huì)對(duì)算法性能產(chǎn)生明顯的影響。

圖4顯示了本文所提服務(wù)鏈部署算法在不同學(xué)習(xí)率下的獎(jiǎng)勵(lì)，學(xué)習(xí)率(Learning Rate, LR)分別為0.010, 0.025, 0.050和0.100。從圖中可以看出，學(xué)習(xí)率在算法的訓(xùn)練階段影響?yīng)剟?lì)的值，因?yàn)椴煌膶W(xué)習(xí)率表示獎(jiǎng)勵(lì)函數(shù)收斂的學(xué)習(xí)步長(zhǎng)。在學(xué)習(xí)過程中，較大的學(xué)習(xí)率可能錯(cuò)過全局最優(yōu)解，而較小的學(xué)習(xí)率可能導(dǎo)致收斂速度較慢。仿真環(huán)境中，LR=0.050表現(xiàn)出較好的性能，它不僅能獲得近似最優(yōu)解，而且收斂速度較快。

圖4 不同學(xué)習(xí)率對(duì)獎(jiǎng)勵(lì)函數(shù)的影響

圖5描述了本文算法在記憶回放階段抽取樣本批量大小對(duì)獎(jiǎng)勵(lì)函數(shù)的影響，批量大小(Batch Size,BS)分別為16, 32, 64和128。在訓(xùn)練過程中，從經(jīng)驗(yàn)復(fù)用池隨機(jī)抽取小批量樣本，并使用隨機(jī)梯度下降算法更新網(wǎng)絡(luò)參數(shù)。可以看出，不同抽取樣本批量大小影響訓(xùn)練階段獎(jiǎng)勵(lì)函數(shù)的收斂速度。抽取樣本批量過小可能帶來較大的方差，影響算法收斂速度甚至不收斂。大批量樣本的梯度估計(jì)更加穩(wěn)定和準(zhǔn)確，其需要較高的計(jì)算時(shí)間，且可能導(dǎo)致神經(jīng)網(wǎng)絡(luò)陷入較差的局部最優(yōu)解。因此，樣本批量設(shè)置不能過大或者過小。根據(jù)仿真結(jié)果，樣本批量設(shè)置為BS=64。

圖5 不同抽取樣本批量大小對(duì)獎(jiǎng)勵(lì)函數(shù)的影響

圖6表示不同請(qǐng)求到達(dá)強(qiáng)度下成功部署的服務(wù)鏈的平均部署開銷，部署開銷由式(8)定義，對(duì)應(yīng)參數(shù)分別取值ξD=0.95 和ξB=0.05。從圖中可以看出，本文的DeepSCD算法相較于FFD和Bayes算法的部署開銷存在明顯的降低。FFD算法采用簡(jiǎn)單的貪婪式部署，DeepSCD和Bayes算法能夠根據(jù)網(wǎng)絡(luò)資源狀態(tài)變化整體統(tǒng)籌調(diào)整SFC部署策略，保證服務(wù)請(qǐng)求部署開銷總體較低。Bayes學(xué)習(xí)基于假設(shè)模型參數(shù)和樣本的后驗(yàn)概率估計(jì)總體分布，樣本較少和網(wǎng)絡(luò)狀態(tài)的變化導(dǎo)致其準(zhǔn)確性相對(duì)降低。而DeepSCD算法采用的馬爾可夫決策模型，對(duì)網(wǎng)絡(luò)狀態(tài)變化的適應(yīng)性更好，因此在部署策略上更優(yōu)。

圖6 不同請(qǐng)求強(qiáng)度下的平均部署開銷

圖7表示不同請(qǐng)求強(qiáng)度下服務(wù)請(qǐng)求的請(qǐng)求接受率。3種算法均隨著請(qǐng)求到達(dá)強(qiáng)度的上升而下降，是因?yàn)殡S著服務(wù)請(qǐng)求數(shù)量的增加網(wǎng)絡(luò)資源被占用而導(dǎo)致后續(xù)服務(wù)請(qǐng)求被拒絕。FFD算法不考慮底層服務(wù)器節(jié)點(diǎn)和鏈路資源狀態(tài)對(duì)部署策略的影響，部分中心鏈路和節(jié)點(diǎn)被頻繁占用以致局部擁塞，故下降速度最快；而DeepSCD和Bayes算法統(tǒng)籌考慮了底層資源的分配策略，同時(shí)DeepSCD算法在服務(wù)鏈部署過程中序列化的方式能更好地捕捉網(wǎng)絡(luò)資源狀態(tài)的動(dòng)態(tài)變化，故在請(qǐng)求接受率方面存在優(yōu)勢(shì)。

圖7 不同請(qǐng)求強(qiáng)度下的請(qǐng)求接受率

圖8表示不同請(qǐng)求強(qiáng)度下部署成功網(wǎng)絡(luò)服務(wù)的平均時(shí)延。FFD算法在接受服務(wù)請(qǐng)求時(shí)采用Dijkstra算法首先占用較低時(shí)延鏈路，使得后續(xù)服務(wù)鏈僅能選擇迂回鏈路以致時(shí)延迅速上升，而Bayes和DeepSCD算法通過全局規(guī)劃考慮避免了局部鏈路過度使用。相較于Bayes算法未考慮鏈路的時(shí)延參數(shù)動(dòng)態(tài)變化，DeepSCD算法在部署過程中以序列化的方式實(shí)時(shí)更新鏈路時(shí)延信息，并根據(jù)輸入信息更新部署策略，使得網(wǎng)絡(luò)整體的鏈路使用更加高效。結(jié)果表明，本文算法能有效降低服務(wù)鏈的傳輸時(shí)延。

圖8 不同請(qǐng)求強(qiáng)度下的平均時(shí)延

5 結(jié)束語

本文主要研究了NFV/SDN使能網(wǎng)絡(luò)環(huán)境中服務(wù)鏈的部署問題，針對(duì)傳統(tǒng)服務(wù)鏈部署算法的不足和網(wǎng)絡(luò)狀態(tài)動(dòng)態(tài)變化問題，在保障5G業(yè)務(wù)時(shí)延性約束的條件下，為降低運(yùn)營(yíng)商網(wǎng)絡(luò)的資源開銷，提出基于DQN的在線服務(wù)鏈部署方法，并驗(yàn)證了方法的有效性。為了進(jìn)一步提高云化環(huán)境中資源利用的效率，后續(xù)將針對(duì)網(wǎng)絡(luò)中流量動(dòng)態(tài)變化研究虛擬網(wǎng)絡(luò)功能的自動(dòng)化擴(kuò)縮容問題，以滿足下一代移動(dòng)網(wǎng)絡(luò)的智能化和自動(dòng)化特征。