王大為,劉新浩,李 竹,蘆 賓,郭愛心,柴國強
(山西師范大學物理與信息工程學院,山西臨汾 041004)
近年來隨著物聯網、無線自組網、無人集群系統等技術的快速發展,無線通信業務量激增,導致頻譜資源供給與通信業務需求之間的供需不平衡問題日益嚴峻[1-2]。頻譜資源供給不足一方面是因為頻譜作為國家的重要戰略資源確實緊缺,而另一方面是由于傳統預先劃分的靜態頻譜分配方式所導致的頻譜利用率低。2019 年,全球首屆6G 峰會發表的《6G 無線智能無處不在:關鍵驅動與研究挑戰》白皮書指出,6G 需要改變頻譜使用規則,提升頻譜資源利用率。認知無線電技術可動態探測無線環境,通過智能算法進行空閑頻譜判斷、發射機和接收機工作參數調整,讓認知用戶智能地接入暫時不被授權用戶使用的“頻譜空穴”,從而實現頻譜資源的動態管理進而提高頻譜利用率,被認為是解決頻譜資源短缺問題的有效方法[3-4]。頻譜分配作為認知無線電技術的重要環節起著限制認知用戶和授權用戶之間的干擾、提高網絡效益的關鍵作用。而頻譜分配問題可抽象為一個數學上的非確定性多項式難題的約束優化問題。到目前為止,有大量研究通過將圖論著色模型[5]、博弈論模型[6]、定價拍賣模型[7]等經典數學模型以及人工智能算法與認知無線電技術相結合以解決頻譜分配問題。例如遺傳算法[8-10]、蟻群算法[11-13]、二進制粒子群優化(Binary Particle Swarm Optimization,BPSO)算 法[14-16]、離散人 工蜂群(Discrete Artificial Bee Colony,DABC)算法[17-19]等應用于解決該問題取得了不少成果。此外,在本文的前期研究中也提出了一種基于改進二進制粒子群優化(Improved Binary Particle Swarm Optimization,IBPSO)[20]的頻譜分配方法來提高網絡效益。但正如No Free Lunch Theorem of Optimization 定理[21]所言,沒有通用算法可以完美解決所有實際工程問題。這些算法在解決認知無線電頻譜分配時,特別是在用戶數和可用頻譜較多的大規模問題上,都難以避免地陷入局部最優。而蝠鲼覓食優化(Manta Ray Foraging Optimization,MRFO)算法是群智能算法領域的最新研究成果,由Zhao 等[22]受蝠鲼群體覓食過程中鏈式覓食、螺旋覓食和空翻覓食等行為的啟發而于2020 年設計和正式提出,具有結構簡單、參數少、全局探索能力強等特點,可有效避免傳統啟發式智能算法普遍存在的局部最優問題。然而該算法基于連續域提出,不能直接用于解決頻譜分配問題。因此,本文基于Sigmoid 函數(Sigmoid Function,SF)離散法和異或算子提出了離散蝠鲼覓食優化(Discrete Manta Ray Foraging Optimization,DMRFO)算法。該算法的主要工作體現在進行離散化設計時,根據頻譜分配問題的特點,通過定義蝠鲼運動速度和引入解的親1 性策略自適應地平衡DMRFO 算法在二進制空間的探索能力和開發能力,使得DMRFO 算法在理論上更適用于解決認知無線電中的頻譜分配問題。同時,實驗結果也表明DMRFO 算法的收斂速度和收斂精度明顯優于離散人工蜂群(DABC)算法、二進制粒子群優化(BPSO)算法和改進的二進制粒子群優化(IBPSO)算法。
MRFO 算法是Zhao 等[22]于2020 年提出的一種新的群智能算法。該算法受蝠鲼覓食行為的啟發分為鏈式覓食、螺旋覓食和空翻覓食三個過程,能有效避免傳統啟發式智能算法普遍存在的局部最優問題。
1)鏈式覓食(Chain foraging)。
蝠鲼群體覓食時,每個蝠鲼會跟在另一個蝠鲼后面形成一條覓食鏈,雄性蝠鲼被較大的雌性蝠鲼馱著并配合著雌性蝠鲼胸鰭舞動節拍在雌性蝠鲼的背部上空游動,以保證前面蝠鲼錯失的食物源會被后面的蝠鲼捕捉到,從而提升群體的覓食效益。在MRFO 算法中,某一位置的食物濃度越高則該位置越好。雖然當前時刻還不知道最佳食物源的位置,但假設目前已知的食物濃度最高的位置為最佳食物源,蝠鲼觀察并游向最佳食物源。在游動過程中,第一個蝠鲼向最佳食物源移動而其他蝠鲼同時向最佳食物源和它前面的蝠鲼移動,從頭到尾排成一行形成一條覓食鏈。即在每次迭代過程中,每個蝠鲼按照目前找到的最佳食物源位置和它前面的蝠鲼更新自己的位置。鏈式覓食過程的數學模型可表示如下:

其中:(t)表示第i個蝠鲼t時刻所在位置的第d維參數;r為服從[0,1]均勻分布的隨機數;α=2 ·r是權重系數(t)表示目前發現的最優食物源位置的第d維參數。第i個蝠鲼的位置更新取決于第i-1 個蝠鲼的位置和目前發現的最優食物源的位置xbest(t),而第1 個蝠鲼的位置更新策略取決于最優食物源的位置。需要特別說明的是,如果把蝠鲼運動的物理空間和MRFO 算法的搜索空間對應,則蝠鲼的位置xi(t)就是搜索空間中的解,最優食物源的位置xbest(t)就是搜索空間中的最優解。
2)螺旋覓食(Cyclone foraging)。
當某個蝠鲼發現深海中的優質食物源時,蝠鲼群體中每個蝠鲼會首尾相接螺旋式向食物源聚集。聚集過程中蝠鲼群體的運動方式由單純的鏈式運動轉變為圍繞最優食物源的螺旋運動。螺旋覓食過程可用如下數學模型表示:

其中:β=2er1(T-t+1)/T· sin(2πr1)表示螺旋運動的權重系數,T表示最大迭代次數,r1代表旋轉因子,為服從[0,1]均勻分布的隨機數。蝠鲼群體根據該式在最優食物源附近螺旋式隨機搜索,因此螺旋覓食過程對最優解附近的區域有較好的開發性能。此外,為了強化算法的搜索性能,可以隨機產生一個新位置(解),然后在該位置附近執行螺旋覓食操作,其數學模型式如下:

其中是在搜索空間中隨機產生的一個新位置(解)。
3)空翻覓食(Somersault foraging)。
當某個蝠鲼發現食物源后,將食物源視作一個支點并繞支點旋轉、空翻至一個新位置,以引起其他蝠鲼的注意。對蝠鲼群體而言,空翻覓食是一個隨機的、局部的和頻繁的動作,它可以提高蝠鲼群體的覓食效益,其數學模型如式(4):

其中:S是空翻因子,決定空翻的距離;r2和r3是服從[0,1]均勻分布的兩個隨機數。隨著S取值不同,蝠鲼個體會空翻至搜索空間中和當前位置關于最優解對稱的位置。如果當前位置和最優解相距較遠,則空翻后位置與最優解相距也較遠,表征著對搜索空間的探索;如果當前位置和最優解相距較近,則空翻后位置與最優解也較近,表征著對最優解附近空間的開發。
MRFO 是針對連續空間函數優化問題設計的,為解決工程中的頻譜分配問題須對蝠鲼覓食優化算法進行離散化處理。此外,由于頻譜分配問題中僅有{0,1}兩種狀態,故本文主要探索如何將適用于連續空間的MRFO 算法離散為二進制空間的優化算法。因此,在對MRFO 算法離散化的過程中需滿足兩點:首先是要保留覓食行為的不變性,即將連續空間中的覓食行為映射到二進制空間后相應的覓食動作應保持不變;其次是搜索空間應和待解決的實際問題相匹配,即搜索空間的一個解(位置)對應著解決問題的一種方案。在MRFO 算法中,通過分析式(1)~(4)可知,各式中等號左邊代表t+1 時刻蝠鲼的位置,而等號右邊第一項表示t時刻蝠鲼所在位置,其余項之和的含義為t時刻蝠鲼的位移,即速度v(t)。速度作為蝠鲼個體t時刻的移動距離直接與t時刻的位置相加決定蝠鲼t+1 時刻的位置。然而,在離散二進制問題中,解屬于{0,1}二進制集,對解的每一維參數僅存在“變”和“不變”兩種情況,因此應將連續空間中速度的方向性和長短性通過適當的映射表征為二進制空間中的“變”和“不變”兩種情況。
本文首先將速度離散為二進制值,然后采用異或算子求解新的位置。首先利用Sigmoid 函數對連續空間中的速度變量進行離散化,設(t)表示t時刻的連續速度變量,則采用SF 法離散速度的步驟如下:

則SF[(t)]為對連續變量(t)二進制離散化后的結果。其中rand(1)表示生成一個服從[0,1]均勻分布的隨機數。如果在連續空間中t時刻的速度變量較大則說明t時刻蝠鲼的位置與t+1 時刻的位置相距較遠,對應于二進制空間蝠鲼t+1 時刻的位置相對于t時刻則應“變”;反之則應“不變”。因此,t+1 時刻新的位置更新公式如式(7)所示:

其中⊕為異或符號。如果連續空間中t時刻的速度變量較大則由式(6)映射后速度為1 的概率會較大,經式(7)異或運算后(t+1)相對于(t“)變”的概率也較大;反之,則(t+1)相對于(t)“不變”概率較大。因此,本文首先采用式(5)~(6)表示的SF 離散法將連續空間的速度映射到離散的二進制空間,然后再用式(7)所代表的異或算子計算下一時刻的位置。本文提出的DMRFO 中的三個覓食過程分別簡述如下:
1)離散鏈式覓食過程。在MRFO 算法中,速度作為蝠鲼個體當前時刻的位移存在方向性和長短性,但在離散二進制問題中解(位置)屬于{0,1}二進制集,對解的每一維參數僅存在變和不變兩種情況。鏈式覓食過程中如果當前位置與全局最優位置、前一個體的位置存在較大差異時,速度的絕對值會較大,此時該維參數應該以更大概率向全局最優和前一個體學習,即變;而如果當前位置與全局最優位置、前一個體的位置相同時,速度的絕對值會較小,同時當前位置已為最優的概率較大,此時則應保持不變。因而本文將速度離散為二進制值,并以其和當前位置進行異或求解新的位置。離散鏈式覓食過程的速度定義如式(8):

其中c1、c2和c3為權重系數。引入調節因子c3r3是因為如果僅以求差之后的絕對值作為評價當前位置與全局最優的量度(式(8)的前2 項),此時(t)屬于閉區間[0,c1+c2],經由Sigmoid 函數映射后值在0.5 以上,具有不公平性,于是進一步引入調節因子c3r3以保證映射過程取1 和0 的公平性。將式(8)代入式(7)中可得離散化鏈式覓食的數學模型如式(9):

為分析算法的公平性,取數學期望進行分析。當i≥2 時的計算推導過程如式(10):

為保證映射過程取1 和0 的公平性,則權重系數應滿足約束條件:c1=c2,c3=0.5(c1+c2)。當c1=c2=4 時可得不同情況下速度離散概率分析如表1。
由表1 可以看出,當全局最優和前一蝠鲼位置一致,但與當前蝠鲼位置不一致時,(t)的期望值為2、離散為1 的概率為0.88,此時異或出的新位置將以較大概率向全局最優、前一蝠鲼的位置靠近,即相對于當前值變;當前位置、全局最優、前一蝠鲼三者一致時,(t)的期望值為-2、離散為0 的概率為1-0.12=0.88,即異或運算后當前位置以較大概率保持不變;而其他情況下,位置變與不變概率相等。因此,在離散鏈式覓食過程中,蝠鲼會向全局最優和前一個體學習并根據t時刻速度大小自適應調整t+1 時刻的位置。

表1 鏈式覓食的速度離散概率分析Tab.1 Discrete probability analysis of velocity in chain foraging
2)離散螺旋覓食過程。在MRFO 算法的螺旋覓食過程中蝠鲼群體在最優解附近進行螺旋運動,以增強對最優解附近空間的開發性能。在離散二進制空間內圍繞最優解的螺旋運動過程中,解的每一維參數只有變和不變兩種情況。因此以MFRO 算法計算出的連續螺旋覓食速度式(11)作為參考變量采用SF 離散化得到的離散螺旋覓食的數學模型如式(12)所示:

根據認知無線中頻譜分配的要求,應使得在最優解附近空間螺旋覓食的搜索結果具有親1 特性。故取數學期望對離散螺旋覓食過程的親1 性進行分析,當i≥2,螺旋系數β=4 時,不同情況下速度的離散概率如表2 所示。

表2 螺旋覓食的速度離散概率分析Tab.2 Discrete probability analysis of velocity in spiral foraging
由表2 可以看出,當全局最優解為0 時,根據頻譜分配問題可知其為全局最優的概率較小,故此處設計新解應該以更大的概率變;當全局最優解為1 時,根據頻譜分配問題可知其為全局最優的概率較大,故此處設計新解應該以更大的概率不變;其余情況下新解變與不變概率相等。離散化螺旋覓食策略可以使對最優解附近的開發結果以較大概率朝著1的方向改變。離散化螺旋覓食的親1 特性符合認知無線電中工程實際問題的要求,有利于提升對最優解附近空間的開發,從而避免算法陷入局部最優。
3)離散空翻覓食過程。由于直接采用MRFO 算法中空翻覓食的速度計算式(4)計算出的速度存在長短性和方向性,而二進制問題只存在變與不變,故在離散化時需對之進行二進制的修正,如式(13)。離散空翻覓食過程的數學模型如式(14):

其中:r1、r2和r3分別是服從[0,1]均勻分布的隨機數,r3為調節因子;S為空翻系數。引入調節因子是為了保證映射過程取1 和0 的公平性。當S=4 時,離散空翻覓食過程中不同情況下速度離散概率分析如表3 所示。
由表3 可知,當前解和全局最優解不一致時,當前解發生變化的概率為0.88;當前解和全局最優解一致時,當前解變的概率為0.12。該過程可以保證當前解不斷向全局最優靠近和學習。

表3 空翻覓食的速度離散概率分析Tab.3 Discrete probability analysis of velocity in somersault foraging
綜上所述,在DMRFO 中蝠鲼會向全局最優解和前一個體學習并根據t時刻速度大小自適應調整t+1 時刻的位置。同時,針對認知無線電頻譜分配問題的特定背景在離散螺旋覓食過程中引入最優解親1 性的先驗知識,通過在全局最優解附近進行二進制螺旋覓食從而避免算法陷入局部最優以提升算法解決頻譜分配問題的性能。此外,為提高算法的可移植性,最優解親1 性的先驗知識僅由螺旋系數β控制。
在認知無線電網絡中,認知用戶使用非授權頻段的前提條件是不能干擾授權用戶的通信,即授權用戶有通信請求時認知用戶應及時退出該頻段。實際通信環境中授權用戶、認知用戶數量都是不斷變化的。如果頻譜分配的計算時間相對于通信環境變化可忽略,則在一個較短的時隙內可認為信道參數不變。因此,頻譜分配模型可通過頻譜可用性矩陣L、效益矩陣B、干擾矩陣C和分配矩陣A描述。假設通信環境中認知用戶數量為N,可用頻譜數為M,則頻譜分配模型的主要參數[5,19-20]可表示為:
1)頻譜可用性矩陣:L={ln,m|ln,m∈{0,1}}N×M是一個N×M的二進制矩陣,表征頻譜的可用性。即ln,m=1 表示認知用戶n可以使用頻帶m;否則用戶n不可使用頻帶m。
2)效益矩陣:B={bn,m|bn,m∈R+}N×M,其中bn,m是一個正實數,表示認知用戶n使用頻帶m后能帶來的網絡效益。
3)干擾約束矩陣:C={cn,k,m|cn,k,m∈{0,1}}N×N×M是由M個N×N的二維矩陣組成的三維矩陣,表征認知用戶之間的干擾約束情況。其中cn,k,m=1 表示認知用戶n和認知用戶k同時使用頻帶m會產生干擾;cn,k,m=1 表示認知用戶n、k可同時 使用頻帶m。顯然n=k時,cn,n,m的取值由ln,m決定,即cn,n,m=1-ln,m。
4)分配矩陣:A={an,m|an,m∈{0,1}}N×M是一個N×M的二維矩陣,它代表在某一時隙上M個頻帶對N個認知用戶的無干擾分配策略,其中an,m=1 表示認知用戶n在此時隙內使用頻帶m。顯然,分配矩陣必須滿足分配時無干擾的條件,即:當cn,k,m=1 時,對?n,k∈[1,N],m∈[1,M],有an,m+ak,m≤1。
基于以上描述,第n個認知用戶所能獲得的網絡效益為

整個通信網絡所能獲得的網絡總效益為

如果設Λ(L,C)N,M表示在給定N、M以及L和C約束情況下的無干擾頻譜分配策略集,則頻譜分配問題可轉化為如下的最優化問題:

頻譜的最終分配策略記錄在分配矩陣A中,直接對A進行編碼,則搜索空間的維數為N×M,編碼維度較高。考慮到A受頻譜可用性矩陣L的約束,L中值為0 的元素所對應的A的元素值必定為0,因為不可用頻譜必定不能被分配,因此只需將L中值為1 的元素提取出來進行編碼,頻譜分配完畢后再根據之前的對應關系還原即可。如圖1 所示,L為4× 5二維矩陣,縮減為一維矩陣x后,成為一個1× 7 一維矩陣,解x的維數由20 縮減為7,搜索空間由220降為27,極大壓縮了搜索空間。

圖1 搜索空間壓縮與還原實例Fig.1 Example of search space compression and recovery
搜索空間中,解x的各維參數與A的元素存在一一對應的關系,當x的某一維參數由0 變為1 時,意味著系統嘗試將某一信道分配給某個認知用戶,如分配滿足無干擾分配條件則網絡總效益U(β)將會增加由該用戶在該信道通信帶來的效益值;如分配不滿足無干擾分配條件,則系統根據干擾矩陣C隨機拒絕當前某一認知用戶的通信請求,即將存在干擾的兩個參數中的一個隨機置0。相反,解x的某一維參數由1變為0 雖不會帶來干擾沖突,但卻意味著讓某個用戶退出在某一信道上的通信,此時網絡總效益U(β)必定減小,雖嘗試了新的解,但卻不是朝著網絡總效益增大的方向。因此,頻譜分配問題的解x具有親1 特性,DMRFO 算法應引導解朝著由0 向1 的方向搜索。
基于以上描述,首先根據頻譜分配模型對實際頻譜分配問題進行建模,然后將待分配矩陣A壓縮為x,則x張成的二進制空間即為優化算法的搜索空間,基于DMRFO 的頻譜分配算法偽碼如下所示。

仿真通信環境的參數L、B、C、M、N設置如下:L為隨機生成的0、1 矩陣;B的元素值為從1 到10 間隨機選取的實數;C為各二維矩陣隨機生成的0、1 二元對稱陣;可用頻譜數M=22;認知用戶數N=20。
3.1.1 DMRFO參數比較
本實驗旨在驗證前文對MRFO 算法離散化過程分析的正確性及所提DMRFO 算法的有效性。在DMFRO 算法中參數c1和c2取值不同會影響覓食行為中的選擇概率,因此本實驗設定群體規模SN=50,最大迭代次數T=500,進行100 次獨立實驗觀測本文算法的平均收斂情況以研究參數對算法收斂過程的影響。參數c1和c2取不同值時本文算法的收斂結果如圖2 所示。

圖2 不同參數的算法收斂過程對比Fig.2 Algorithm convergence process comparison of different parameters
通過圖2 可知,參數c1和c2的大小會影響DMRFO 算法的收斂速度,但對算法的收斂精度影響較小。因此,綜合實驗結果和前文的理論分析,在本文后續實驗中設定c1=4、c2=4。
3.1.2 DMRFO魯棒性分析
為分析本文算法在解決頻譜分配問題時的魯棒性,在參數c1=4、c2=4 的情況下,將本文算法(DMRFO)和離散人工蜂群算法(DABC)、二進制粒子群算法(BPSO)以及改進的二進制粒子群算法(IBPSO)分別獨立運行100 次以研究算法對隨機因素的魯棒性,實驗結果如圖3 所示。表4 為不同算法對應的均值和標準差指標值。
綜合圖3 和表4 可知,本文提出的DMRFO 算法的均值和標準差都優于其他3 個算法。均值反映了算法收斂精度的優劣,而標準差反映了收斂結果的穩定性。因此,本文算法在收斂性能上優于DABC、BPSO 和IBPSO 算法。

圖3 不同算法的魯棒性對比Fig.3 Robustness comparison of different algorithms

表4 不同算法的均值和標準差Tab.4 Mean and standard deviation of different algorithms
3.2.1 最大網絡效益仿真
頻譜分配基于某一瞬間信道環境不變的假設,以最大化網絡效益為目標函數,故要求算法能夠快速高效地收斂。本文對DMRFO 算法和DABC、BPSO、IBPSO 等典型算法在相同信道環境下進行對比,分別獨立重復30 次實驗后得到的平均網絡總效益收斂曲線如圖4。

圖4 不同算法的網絡總效益收斂曲線Fig.4 Convergence curves of network total benefit of different algorithms
由圖4 可知,DMFRO 的收斂結果遠優于DABC、BPSO 和IBPSO 算法。該實驗說明相比經典的算法,本文提出的DMRFO 算法更適合解決頻譜分配問題。這是因為首先MFRO 的機制本身要優于DABC 和BPSO,其次通過設計離散化策略將頻譜分配問題的先驗性信息有效融入到了DMFRO算法的運行機制中。
3.2.2 不同環境下網絡總效益仿真
為驗證本文算法的普遍性,分別采用本文算法對30 種不同的通信環境進行頻譜分配仿真實驗,不同通信環境下獲得的最大網絡總效益及和其他典型算法的對比如圖5所示。

圖5 不同通信環境下不同算法的網絡總效益Fig.5 Network total benefits of different algorithms in different communication environments
由圖5 可知,隨著通信環境不同,認知用戶使用空閑信道的頻譜后能帶來的網絡總效益也不同,但本文算法所帶來的網絡總效益始終大于DABC、BPSO 和IBPSO 算法獲得的網絡總效益。因此,本文提出的DMRFO 算法具有更好的頻譜分配性能。
3.3.1 不同用戶數下的平均效益
設環境中可用頻譜數M=22 保持不變,當認知用戶數N不斷增加時,認知用戶的平均效益隨認知用戶數的變化曲線如圖6 所示,可以看出,隨著認知用戶數不斷增加,單個認知用戶能獲得的平均效益呈遞減變化。
由圖6 可知,在認知用戶數較少時,即頻譜資源充足,四種頻譜分配算法的結果相近;但當認知用戶數較多時,即頻譜資源比較緊缺,本文算法的分配結果顯著優于其他三種經典算法。

圖6 認知用戶數N遞增時的平均效益Fig.6 Average benefit with the number of cognitive users N increasing
3.3.2 不同信道數下的平均效益
設認知用戶數N=20 不變,當可用頻譜數M不斷增加時,單個認知用戶獲得的平均效益值曲線如圖7 所示,隨著可用頻譜數的增加,單個用戶獲得的平均效益值不斷增加,且DMRFO 算法顯著優于其他3 種算法。
隨著通信環境中可用頻譜數M增加,頻譜分配問題的求解規模越大。從圖7 可知,當求解問題的規模較小時,4 種算法都能取得最優結果,但隨著求解問題規模遞增,DMRFO 算法的性能顯著優于其他3 種典型算法。

圖7 可用頻譜數M遞增時的平均效益Fig.7 Average benefit with the number of available spectrums M increasing
綜上所述,本文提出的基于DMRFO 的頻譜分配算法顯著優于典型的DABC、BPSO 和IBPSO 頻譜分配算法。
針對MRFO 算法只能處理連續函數的優化問題而不能解決頻譜分配問題的不足,本文提出了DMRFO 算法,然后將該算法應用于解決認知無線電中的頻譜分配問題。本文的主要工作如下:
1)通過SF 離散法和異或算子使蝠鲼可以根據當前時刻速度大小自適應調整下一時刻的位置從而向全局最優解和前一個體學習。同時,針對認知無線電頻譜分配問題的特定背景,在離散螺旋覓食過程中引入最優解親1 性的先驗知識,通過在全局最優解附近進行二進制螺旋覓食從而避免算法陷入局部最優,以提升算法解決頻譜分配問題的性能。此外,為提高算法的可移植性,最優解親1 性的先驗知識僅由螺旋系數β控制,從而方便了先驗性知識的引入和刪除。
2)將本文提出的離散蝠鲼覓食優化算法用于解決認知無線電中的頻譜分配問題,顯著提升了網絡的效益,取得了較好的效果。