馬 馳,丘航丁,鮑家旺,徐浩東
(福州大學 電氣工程與自動化學院,福建 福州 350108)
隨著工業物聯網(Industrial Internet of Things,IIoT)的快速發展,頻譜資源短缺已成為制約IIoT發展的關鍵瓶頸。頻譜稀缺的威脅促使政府采取重要措施,釋放多個波段進行動態頻譜共享。電視空白頻段是第一個被考慮的頻譜共享的主要實例。它是指超高頻頻譜中未使用的電視頻譜(TVS)。
認知無線電(Cognitive Radio,CR)可以通過訪問主用戶(Primary User,PU)擁有的頻譜來最大限度地提高頻譜利用率。這被認為是解決快速增長的移動流量與頻譜短缺之間矛盾的有效途徑。頻譜感知是CR通過重復利用未充分使用的頻譜來解決頻譜資源不足的關鍵技術。頻譜感知允許認知物聯網(Cognitive Industrial Internet of Things,CIIoT)設備識別未使用的TVS,并避免對PU造成干擾。然而,由于噪聲和信道等不確定性,頻譜感知的檢測性能可能會顯著惡化。協作頻譜感知(Cooperative Spectrum Sensing,CSS)通過多個次用戶(Secondary Users,SUs)合作的全局感知結果來提高衰落和陰影信道的感知性能。協作頻譜感知雖然可以很好地提高傳感性能,但其能耗很大。
受限于電池容量,物聯網設備很難長時間運行。能量采集(Energy Harvesting,EH)允許設備從環境中獲取能量,以補充電池,廣泛應用于室內和戶外多種場景。然而,在CSS中,EH的應用可能會加劇SUs采用不感知的態度。SUs向融合中心(Fusion Center,FC)發送感知結果的過程中,自私的SUs可能發送通過監聽其他SUs得到的結果。因此,出現了兩種類型的感知SUs:參與頻譜感知的貢獻用戶(CUs)和不參與頻譜感知的搭便車用戶(FUs)。而FUs選擇免費使用他人的感知結果,并可能獲得更高的盈利能力。文獻[1]中,搭便車用戶的問題首先被建模為公共物品博弈。文獻[2]中,作者使用演化博弈來優化SU的搭便車行為以獲得最大吞吐量。雖然這些論文考慮了SUs的兩種感知態度,但沒有考慮在SUs分布不均時平衡每個感知聯盟之間的性能。
博弈論是分析理性決策者之間競爭最優行為的有效工具。文獻[3]中,作者將多信道頻譜感知和信道訪問問題表述為一個享樂聯盟形成博弈(HCFG),其中一個聯盟對應于選擇感知和訪問特定信道的SUs。與傳統的博弈論不同,演化博弈論(Evolutionary Game,EG)既不要求玩家完全理性,也不需要完整的信息。EG理論將博弈論分析與動態進化過程分析相結合。文獻[4]中,作者將自我驅動車輛節點之間的競爭作為一個EG,并研究了納什均衡的基本性質和進化穩定性。
與現有的研究不同,在CIIoT中,本文是首次嘗試解決自私用戶在多信道中CSS的問題,其中SUs可能不愿意參與頻譜感知。在兩層博弈的基礎上,本文引入了一種新的懲罰機制來動態調整用戶感知態度和用戶感知聯盟。該方法可以有效優化各個聯盟的吞吐量、檢測概率以及誤警概率。
本文規定一個聯盟只能感知一個PU信道,則存在M個PUs信道分別被M個聯盟感知。其中,PUs可 用M={1,2,…,M}表 示,由N個SUs共 享。PU在一個帶寬上用K個子載波(K>N)傳輸信號。當PU不存在時,每個SU可以使用K個子載波中的任何一個。在每個時間段,每個SU必須感知PU上的一個子載波,以確定PU是否正在傳輸。
SUs可以自由選擇聯盟感知態度和感知聯盟。在同一感知時隙內,不同的聯盟必須感知不同的通道。在聯盟中,檢測概率最高的SU被認為是聯盟首領(CH)。CH在聯盟中扮演著FC的角色。假設噪聲是一個獨立的、同分布的均值和方差為零的隨 機 過 程(independent and identically distributed,i.i.d.)。在瑞利衰落環境中,SUi檢測PUj信道狀態的檢測概率和誤警概率分別由Pd,i,j和Pf,i,j表示:

式中:Yi,j為SUi感知PUj狀態的標準化輸出,θj為PUj的檢測閾值,m為時間帶寬乘積,γ-i,j為接收信號從PU到SU的平均信噪比。需要注意,Γ(.,.)是不完全的伽馬函數,而Γ(.)是伽馬函數。在檢測PU信道時,漏檢概率為

在聯盟Ω中,由于控制信道傳輸傳感結果為0和1,對應的誤差報告概率可以表示為


假設每個SU一次只能執行一個任務,如圖1所示。在能量采集時隙中,采集到的能量將用于感知PU信道和傳輸數據。傳感槽中的感知結果顯示了PU是否存在。在傳輸時隙期間,SUs只有在檢測到PU缺失時SU才能通信。在每個時隙中,M個主通道被同步感知。

圖1 時隙結構圖
CUs遵循圖1(a)所示的時間框架結構,可分為三個階段。與CUs相比,FUs不感知信道,因此有更多的時間來獲取能量和傳輸數據。FUs遵循圖1(b)所示的時間框架結構。根據時間結構,可以分別計算出Th期間的收獲能量為



式中:PH1表示PU存在的概率,PH0表示PU不存在的概率,RH0表示在PU不存在時SUs的平均吞吐量,RH1表示在PU存在時SUs的平均吞吐量。在動態頻譜訪問中,要求SUs的操作不應與PUs發生沖突或干擾,而Pd應該非常接近于1。此外,由于PUs對SUs的干擾,通常有式(10)的第二項比第一項要小得多。為了簡化公式,如圖1(a)所示框架結構中CUs的吞吐量RiC可表示為

式中:Tt1=β(1-α)T。同樣,如圖1(b)所示框架結構中FUs的吞吐量RiF可表示為

式中:Tt2=(1-α)T。
考慮到FUs不對聯盟檢測概率做出貢獻,需對其施加一定的懲罰。懲罰函數可被表示為

式中:λ為定義懲罰嚴厲性的預定參數,Pd j為PUj的檢測概率。對檢測性能的滿意度的S型函數計算為



式(15)和式(16)的第一項fc(x)是每個SU相對于可實現吞吐量的滿意度函數,為簡單起見,選擇設置fc(x)=μx,即:式中:μ為SUi將吞吐量利潤轉化為相應的能源利潤以統一單位的參數。
所有SUs通過其優化感知態度和感知聯盟來最大化其效用。因此,SUi優化問題表述如下:

式中:ai表示為SUi采取的感知態度,ai∈{C,F},bi表示為SUi加入的感知聯盟。
針對式(19)的優化問題,本文提出了一個基于雙層博弈的協作感知和接入算法(TL-CSAG)。SUs需要在下一個時間段之前選擇一個策略組合S=(A,B)。在該博弈中,SUs被視為參與者,Ui被視為SUi的效用函數,SUi的策略用si=(ai(bi),bi)表示。A是在每個聯盟中SUs的感知態度的集合,B是SUs選 擇 的 感 知 聯 盟 集合,B={b1,b2,…,bN},其中bi∈Ω={Ω1,…,ΩM}。表示在每個聯盟中SUi對應的感知態度,ai(Ω2),…,ai(ΩM)},ai(Ωj)表示在聯盟Ωj中SUi對應的感知態度。
由于所有的SUs都是理性和自私的,它們在進化過程中傾向于最大化自己的效用。在每個時間槽,每個SU計算自己的效用,如果SUi的策略si=(C,Ωj)的效用高于SUi從所有態度選擇的平均效用獲得“C”的概率被采用在下一個時間槽增加。為了描述Ωj中SUi的演化,構造以下微分方程:

式中:ηi為由SUi確定的調整步長。可以推斷,如果策略“C”產生的收益高于所有i?策略的平均收益,那么SUi選擇策略“C”的概率將會增加,因為未來策略“C”的選擇次數將會增加。下一個時隙中,在Ωj中SUi選擇“C”策略時的概率可以計算為

式(21)描述了選擇一個感知態度的動態過程。該概率的默認最小值和最大值分別為0和1。需要注意的是,兩種不同策略的概率之和為1。因此,只需要推導出“C”或“F”的概率。
為了表示聯盟形成的過程,定義一個交換規則如下。
定義1(切換規則):給定SUs的集合N的一 個分區∏={Ω1,…,Ωm,…,ΩM},SUi∈Ωm決定 離開當前聯盟Ωm,加入另一個聯盟Ωm′∈∏,其中m≠m′,當且僅當Ωm′∪{i}i?Ωm,其中i?是SUi的偏好關系。因此,{Ωm,Ωm′}→{Ωm{i},Ωm′∪{i}}。
為了評估SUi對其自身可能的聯盟集的偏好,引入偏好關系的概念。

式中:Ω1和Ω2是SUi可能加入的兩個可能的聯盟。
i■的不對稱對應物表示為i?,當在Ω1i?Ω2中使用時,意味著SUi嚴格地更傾向于加入聯盟Ω1而不是聯盟Ω2。uiΩm是SUi在聯盟Ωm中的偏好函數,定義如下:

根據式(22)中SUs的偏好關系,當不考慮SUi的歷史集時,可以認為

式(24)中的偏好函數允許SUs選擇一個聯盟,最大化它們的效用。SUs避免了它之前訪問過的任何聯盟。這有助于降低享樂主義聯盟形成算法的復雜性,因為已經訪問過的聯盟被排除在SUs的選擇集合之外。給定了SUi的偏好函數,通過比較每個聯盟的SUi的效用,可以很容易地生成偏好關系。
詳細的訓練過程在算法1中描述。在初始化階段,選擇每個聯盟中檢測概率最高的SU作為CH,它始終處于合作態度。然后通過各SUs間的演化,得到各聯盟感知態度策略的NE(A*)。在A*的基礎上,通過交換規則可以獲得感知聯盟的NE(Ω*)。
算法1 雙層協作頻譜感知和接入算法(TLCSAG)
初始化:設置迭代次數t=1,初始感知策略概率P0=50%,初始化參數μ,η;隨機初始化SUs的感知態度A={a1,a2,…,aN};將SUs隨機且均勻的分配到各個聯盟Ω={Ω1,Ω2,…,Ωk}(1≤k≤M)。
輸出:A*和Ω*;
步驟1 在聯盟Ωk中,計算所有聯盟中SUs的檢測概率Pd k,將具有最高的檢測概率的SU設為聯盟首領CHk,設置其感知態度a→“C”步驟2 whileS≠S*且t=1:Max do步驟3t←t+1
從Ω中隨機選擇兩個聯盟Ωn和Ωm,在Ωn中選擇SUi加入到另外一個聯盟Ωm中,{Ωn,Ωm}→{Ωn′,Ωm′}={Ωn{i},Ωm∪{i}};
步驟4SUi在聯盟Ωm中以概率Pim(a,t)選擇選擇感知態度a,a∈{C,F};
步驟5 計算在聯盟Ωn中的SUi的效用uin(ai,t),計算在交換后聯盟Ωm′中的效用
步驟6SUi根據定義1決定是否加入聯盟Ωm;
步驟8 whileA收斂 do
步驟9t←t+1;
步驟10 重復步驟5、步驟6;
步驟11 設置A←A*;
步驟12 重復步驟8,直到得到Ω*;
步驟13 end while步驟14 end while
本節對所提方法的性能進行仿真。在已建成的模擬平臺上,空間環境建立在1 km×1 km的平面坐標系中。在坐標系中隨機分布3個PUs和15個SUs。系統中,幀長時間為T=10 ms,其余部分仿真參數如表1所示。這里使用文獻[5]提出的方法作為比較,“Con”表示文獻[5]中提出的方法。隨機算法通過隨機化所有SUs的感知態度和感知聯盟。

表1 仿真參數
本文研究了λ和SUs的數量對合作概率的影響。如圖2所示,結果表明,當λ增加時,合作的概率增加。此外,當SUs的數量趨近于無窮時,合作的概率趨近于零。當CUs的數量達到一定數量時,在聯盟中增加更多的SUs并不會增加合作者的數量。

圖2 合作概率與SUs的數量的關系
圖3比較和分析了傳統方法[5]、隨機算法和TL-CSAG在檢測概率和誤警概率方面的性能。達到平衡狀態后,與隨機方法和常規方法相比,三個聯盟的平均Pd分別提高了4.3%和2.3%,三個聯盟的平均Pf分別降低了205.7%和46.7%。如圖4所示,在達到常規方法和TL-CSAG的平衡狀態后,三個聯盟的平均吞吐量分別提高了40.9%和13.1%。

圖3 三種算法的比較

圖4 迭代次數和吞吐量之間的關系
本文提出了一種基于兩層博弈的協作頻譜感知和訪問方法。在兩層博弈的頂層,SUs是否感知通道的問題被表述為EG。由于自私SUs采用搭便車策略將獲得更高的效用,自私SUs的感知態度都將演變成穩定的搭便車策略。本文方法通過引入懲罰機制,有效地提高自私SUs的合作概率,來提高聯盟檢測概率。在底層,SUs選擇哪個信道的問題被表述為一個HCFG。通過加入具有更高效用的聯盟來平衡聯盟之間的性能。與傳統方法相比,該方法能更好地平衡各聯盟的資源。仿真結果表明,與傳統方法相比,SUs的吞吐量提高了13.1%,聯盟的平均檢測概率提高了2.3%,聯盟的平均誤警概率降低了46.7%。