馬增起,羅屹潔,周 浩,王潤升,胡宏達,王嘉琦
(中國人民解放軍陸軍工程大學,江蘇 南京 210007)
近年來,無人機(Unmanned Aerial Vehicle,UAV)通信由于部署方便、靈活機動、成本較低、存在視距通信鏈路等多種優勢[1],引起人們的廣泛關注。無人機通信增大了空地視距傳輸的可能性,從而提升了傳輸性能,但也增加了其被竊聽和被干擾的風險。因此,如何實現無人機通信過程中的安全可靠傳輸是一個迫切需要解決的問題。
智 能 反 射 面(Intelligent Reflecting Surface,IRS)由大量的無源反射單元組成,每一個反射單元都能夠改變入射信號的反射特性(包括信號的振幅和相位),從而達到控制反射信號的目的。到目前為止,有許多研究者從不同角度對使用IRS 輔助無人機通信以增強通信安全性和可靠性進行了有益探索[2-13]。
文獻[2]通過聯合優化UAV 飛行軌跡、IRS 相移和系統傳輸功率,提出了一種IRS 輔助無人機通信的物理層安全傳輸方案。文獻[3]通過聯合優化無人機軌跡、發射波束成形和IRS 相移,最大限度地提高了IRS輔助無人機網絡的平均安全可達速率。文獻[4]將搭載著IRS 的無人機當作移動中繼,主要是通過聯合優化無人機的位置和IRS 的相移來最大化系統的安全速率。文獻[5]考慮空地通信網絡中存在空中的竊聽者,通過聯合優化發射功率、主動波束成形、IRS 的相位矩陣和無人機的3D 軌跡來改進安全性能。文獻[6]在之前研究的基礎上,考慮了多個地面用戶的場景,聯合優化用戶調度、發射機功率控制、IRS 相位和無人機軌跡來最大化被動竊聽下的安全可達速率。文獻[7]通過聯合優化UAV 的位置、基站波束成形和IRS 相移最大化系統的最小安全速率,實現IRS 輔助的無人機中繼系統的安全通信性能。文獻[8]通過利用IRS 動態地加強回傳鏈路,以及通過協作無人機引入人工噪聲干擾非法竊聽者,從物理層提高無人機通信系統的安全性。文獻[9]利用IRS 和方向調制的手段研究了基于毫米波通信的無人機輔助無線網絡的物理層安全機制。
在抗干擾研究方面,文獻[10]將IRS 部署在基站附近,探討了無人機通信中上行鏈路和下行鏈路的抗干擾方法,通過無人機的發射功率控制和IRS的被動波束設計來提升空地通信的抗干擾性能。文獻[11]和文獻[12]都在主動干擾者信道狀態信息不完美的情況下,利用IRS 的輔助提升了無人機通信系統的抗干擾能力。其中,文獻[11]將IRS 部署在地面用戶附近,通過聯合優化地面用戶的發射功率、IRS 的被動波束和無人機的航跡,提升了上行鏈路的傳輸性能。文獻[12]通過聯合優化無人機的飛行軌跡、飛行速度和IRS 的相移矩陣來提升系統的能量效率。文獻[13]在用戶接收信干噪比約束和連續相移約束的條件下,提出了對應的解決算法,并且仿真結果表明該算法在抗干擾方面具有顯著的作用。
綜上所述,IRS 的輔助可以有效提高無人機通信的安全性和可靠性。不過以上研究分別是在被動竊聽或主動干擾下進行了IRS 輔助無人機傳輸方法研究,沒有考慮主動竊聽對無人機通信的影響。所謂主動竊聽,是在信道估計階段發射干擾信號,引入導頻污染,然后在數據傳輸階段竊聽合法用戶的信號[14],其帶來的危害更大。因此,本文主要聚焦導頻污染下的IRS 輔助無人機傳輸方法研究,利用IRS 智能調控無線環境,聯合優化IRS 的被動波束成形和發射機的主動波束成形,有效緩解導頻污染帶來的影響,提升無人機通信的物理層安全性能。
受文獻[15]的啟發,本文建立了導頻污染下的IRS 輔助無人機通信的系統模型。與文獻[15]不同的是,本文考慮的導頻污染在不同時隙不是恒定不變的,而是根據主動竊聽者的效用動態變化。因此,利用博弈模型建立了合法用戶和主動竊聽者之間的對抗關系,分析了信道估計階段的導頻污染對傳輸階段的合法用戶傳輸性能的危害,并研究了主動竊聽者干擾功率的動態變化對信道估計的影響。同時,合法用戶也具有一定的智能性,采用機器學習算法對發射機的波束成形和IRS 的相位進行調整,從而降低導頻污染的危害,提升空地通信系統的傳輸安全性。
假設系統中存在一個多天線的基站、多個單天線的無人機用戶和固定在建筑物外墻上的IRS。合法通信鏈路包括基站到無人機的直連鏈路和通過IRS 的反射鏈路。系統中還存在一個單天線的主動竊聽者,其在信道估計階段主動干擾合法用戶以影響信道估計,并在信息傳輸階段竊聽合法用戶信息。系統模型如圖1 所示。

圖1 系統模型
假設系統工作在時分雙工(Time Division Duplex,TDD)模式下,上下行信道是互易的,也就是說,可以認為上行的估計信道與下行的傳輸信道是一樣的。用戶在傳輸過程中經歷上行訓練階段和下行傳輸階段,在訓練階段進行信道估計,然后根據上行信道估計的值調整下行傳輸時基站的預編碼和IRS的相位偏移,實現安全可靠的通信[15]。如圖2 所示,假設信道估計階段時長為Te,包括直連鏈路估計時長Td和反射鏈路估計時長MTr,其中,M為IRS 反射單元的數目,Tr是啟用每個反射單元的時間,數據傳輸階段時長為Tc。

圖2 信道估計
因為既有直連鏈路,又有反射鏈路,都需要進行信道估計,因此假設信道估計的過程如下:
(1)首先在符號周期Td內,將IRS 關閉,第k個用戶發射導頻信號uk,然后用基站接收到的信號來估計直連鏈路的信道增益;
(2)在Td+(m-1)Tr+1 的符號周期內,依次打開第m個IRS 單元,第k個用戶發射導頻信號vk,m,基站依次接收信號;
(3)基站通過將接收到的信號投影到導頻序列,并減去直連鏈路的信道增益,就可以得到等效反射鏈路的信道增益。
假設在信道估計階段,導頻都是彼此正交的,對于第k個用戶,導頻序列表示為,其中,uk∈CTd×1表示直連鏈路的導頻信號,vk,m∈CTr×1表示反射鏈路的導頻信號,它們彼此是正交的,并且對于所有用戶都已知,包括主動竊聽者。為了使問題可解,假設在信道估計階段噪聲的影響可以忽略。
假設接收機能收到兩條鏈路的信號:一條是直連鏈路,一條是經過IRS 反射的鏈路。因此,假設基站在數據傳輸階段發射信號x∈CN×1,那么第k個用戶收到的信號為:
式中:nk為滿足均值為0,方差為σ2的加性高斯白噪聲;為通過直連鏈路收到的信號;為通過IRS 反射鏈路收到的信號。的表達式為:
式中:ak∈CM×1為從用戶到IRS 的上行鏈路增益;U∈CN×M為從IRS 到基站的上行鏈路增益;Θ=diag{θ};θ為M維向量,是IRS 的反射系數,第m個元素為:
式中:?m∈{0,1}是IRS 單元的幅度,要么為0,要么為1,表示是否啟用該單元;?m表示第m個IRS單元的相位偏移。
式中:Fk為用戶通過IRS 發射到達基站的等效反射信道增益。
同樣地,竊聽者收到的信號為:
式中:ne為滿足均值為0,方差為ρ2的加性高斯白噪聲。
對應地,
式中:ae∈CM×1是從竊聽者到IRS 的上行鏈路增益。同樣地,從竊聽者到IRS 再到基站的等效反射鏈路增益為:
在信道估計的第1 階段,主動竊聽者在第l個用戶信道上發射干擾信號,因此在信道估計階段Te時隙基站收到的信號為:
式中:Pk和Pe表示第k個無人機用戶和主動竊聽者的發射功率。
利用收到的信號,基站估計直連鏈路hk信道增益為:
根據導頻信號之間的正交性,對于k≠l,可以得到=hk,而對于第l個無人機用戶的直連信道估計為:
在信道估計的第2 階段,在每一個子幀,基站收到的信號為:
式中:fk,m和fe,m表示第k個無人機用戶和主動竊聽者到第m個反射單元再反射到基站的轉發信道增益。
根據這個信號,得到的轉發信道的估計值為:
對于k≠l,可以得到=fk,m,而對于第l個無人機用戶的轉發信道估計為:
綜合考慮以上直連鏈路和反射鏈路,對于除了被竊聽的無人機用戶,信道估計都是準確的,而對于被竊聽的無人機用戶,其信道估計表示為:
式中:U∈CN×M表示從智能反射表面到基站的信道矩陣;ae∈CM×1表示從竊聽者到智能反射表面的信道;θ表示智能反射表面的相位偏移向量;gl(θ)=hl+fl包含直連和反射鏈路;(θ)是總的信道增益(包含直連和反射)的估計值。
在數據傳輸階段,假設信號通過線性預編碼再發射,則通過基站發射出去的信號可以表示為:
式中:sk為需要發送給第k個無人機用戶的信息符號;wk為發射給第k個無人機用戶的波束向量,滿足||wk||2=PT。
在這種情況下,第k個無人機用戶收到的信號表示為:
定義第k個無人機用戶獲得的傳輸速率為:
而對于竊聽者來說,假設它可以根據收到的基站發送的信道狀態信息抵消其他用戶對它的干擾,則其竊聽速率可以表示為:
則安全可達速率可以定義為:
對于主動竊聽者來說,在信道估計階段可以通過調整其干擾功率來誤導合法用戶對信道進行錯誤估計,由此在數據傳輸階段提升其竊聽速率。對于合法用戶來說,可以在數據傳輸階段通過調整基站的預編碼波束向量和智能反射表面的相位偏移來提升其安全可達速率?;谝陨系姆治?,定義主動竊聽者的效用函數為:
同時,定義合法用戶的效用函數為:
因此,可以將這部分的優化問題建模為斯坦伯格博弈G,博弈的參與者是主動干擾者和合法用戶,主動竊聽者的目標是最大化竊聽速率并盡量減小干擾代價,合法用戶的目標是最大化其安全傳輸的能力。主動竊聽者的策略是調整其干擾功率的大小,合法用戶的策略是設計基站的預編碼波束向量和調整智能反射表面的相位偏移。根據策略實施的時序性,將它們之間的對抗關系建模為斯坦伯格博弈,然后根據基于機器學習的分層迭代算法,求解所提斯坦伯格博弈的混合策略,獲得穩定的基站預編碼波束向量和智能反射表面的相位偏移策略,提升不完美信道信息下空地通信網絡的物理層安全性能。
因為主動竊聽者在信道估計階段是要發射信號的,可以假設基站能夠獲知其信道狀態信息(Channel State Information,CSI),但是無法獲知主動竊聽者的干擾功率。如果只是被動竊聽,能夠完美獲得竊聽的CSI,合法用戶可以采用安全廣義迫零(Secure Regularized Zero Forcing,SRZF)準則實現預編碼,較好地壓制信息的泄露[16]。SRZF 預編碼的基本思想是將竊聽信道考慮到發射機預編碼的過程中,本質上是通過額外獲得的竊聽信道狀態信息來提升安全傳輸的能力,相比于廣義迫零預編碼來說,系統的安全傳輸速率有了較大的提升。根據SRZF 準則設計的預編碼為:
如果沒有引入導頻污染,根據安全廣義迫零預編碼可以獲得完美信道狀態信息條件下最佳的編碼矩陣。而加入了導頻干擾,基站在不知道干擾功率的情況下,就會對信道估計存在誤差,因此,干擾功率會對合法用戶的防竊聽效果造成一定影響。另外,主動竊聽者在最大化竊聽的情況下,還要考慮干擾功率的消耗,因此存在一個最佳的干擾功率;合法用戶根據安全廣義迫零原則可以獲得完美信道條件下最佳的預編碼矩陣,然后再采用分層學習算法優化IRS 的相位,通過在和主動竊聽者的不停博弈過程中,最終獲得博弈的均衡解。
因此,在斯坦伯格博弈模型的建模中,假設主動竊聽者基于Q 學習的算法來更新每個信道估計階段的干擾功率大小,合法用戶在主動竊聽者干擾功率變化的情況下,采用分層迭代優化算法來更新發射機的主動波束成形和IRS 的相位矩陣。具體地,合法用戶首先固定IRS 的相位矩陣θ,其次根據SRZF 準則優化基站的預編碼矩陣,在此基礎上,再根據隨機學習算法更新IRS 的相位矩陣θ,直到算法收斂。具體的算法描述如下。

在仿真部分,假設系統中只存在一個無人機用戶,并且從基站到無人機用戶的信息被主動竊聽者竊聽。為了簡化分析,假設IRS 的相位離散分布,并且每個反射單元的相位調整是彼此獨立的,主動竊聽者的干擾功率也取離散值。假設發射機天線數目為8,IRS 包含8 個智能反射單元。合法通信鏈路包括基站到無人機的直連鏈路和通過IRS 的反射鏈路。假設發射機的發射總功率設定為PT=1 W,主動竊聽者干擾功率集合為{0,0.2,0.4,0.6,0.8,1} W,主動竊聽的干擾代價因子ce=0.000 1,背景的高斯加性白噪聲功率水平設為N0=10-17W。假設發射機到無人機用戶之間的距離為20 m,發射機到主動竊聽者之間的距離為50 m。
圖3 是一次仿真中某個智能反射單元的相位選擇收斂曲線,圖3 中的p1到p8是某個反射單元選擇8 種相位的概率。從圖中可以看出,使用本文所提的相位選擇算法時,智能反射單元選擇離散相位在30 次左右達到收斂,收斂速度較快。圖4 是主動竊聽者干擾功率選擇概率的收斂曲線,圖4 中的p1到p6是主動竊聽者選擇6 種檔位的功率的概率。從圖中可以看出,基于Q 學習的主動竊聽者干擾功率選擇算法中,主動竊聽者選擇離散干擾功率值在20 次左右達到收斂,收斂速度較快。

圖3 某個IRS 反射單元相位選擇概率收斂曲線

圖4 主動竊聽者干擾功率選擇概率收斂曲線
圖5 和圖6 是仿真結果為103次獨立實驗的平均值。圖5 是安全可達速率隨著發射機功率變化的曲線。從圖中可以看出,安全可達速率隨著發射機總功率的增大而增大,這一方面是由于發射機總功率的增大,會增大合法用戶的傳輸速率,另一方面是由于發射機總功率增大,主動竊聽者發射干擾功率帶來的信道誤差就相對較小,從而進一步提升了合法用戶的安全可達速率。同時還可以看出,本文聯合發射機預編碼和IRS 相位選擇算法的方法優于聯合基于最大比傳輸(Maximum Ratio Transmission,MRT)的預編碼和IRS 相位選擇算法的方法。圖6 是安全可達速率隨著智能反射單元數目變化的曲線。從圖中可以看出,隨著智能反射單元數目的增多,系統的安全可達速率增大,并且采用IRS 輔助的無人機通信比沒有引入IRS 的方法具有更高的安全可達速率。

圖5 安全可達速率隨著發射機功率變化曲線

圖6 安全可達速率隨著智能反射單元數目變化曲線
本文提出了一種利用多天線發射機的主動波束成型、IRS 的被動波束成型等功能削弱主動竊聽者導頻干擾帶來的影響,從而提升空地鏈路被污染情況下的安全可靠傳輸性能的通信方法。在斯坦伯格博弈、機器學習和分層優化理論與方法的指導下,通過建立系統模型分析合法用戶和主動竊聽者之間的交互關系,將原問題分解為兩個子問題進行求解。最后的仿真結果表明,本文所提方法可以有效緩解導頻污染對空地安全傳輸的影響,提升無人機通信的安全性。