李苗鈺, 杜忠昊, 劉雨彤, 牛思瑩
(西北大學 信息科學與技術學院, 陜西 西安 710127)
第五代移動通信技術(5th-generation,5G)[1]的發展為物聯網的規模化部署提供了技術支撐,在物聯網時代,海量通信設備的高速無線連接需求與有限的頻譜資源之間產生了矛盾[2]。在通信帶寬的限制下,從本質上提高通信速率的方法是提高接收端的信噪比(signal-to-noise ratio,SNR)。傳統上,提高信噪比的方法有:提高信號的發送功率、中繼通信和分集接收等。但是在部署海量物聯網設備的場景下,傳統的方法已經無法滿足高速無線通信的需求。主要原因是物聯網設備一般采用電池供電,而且由于設備眾多,部署之后不能頻繁維護,設備也不能具有太高的復雜度,否則會造成部署和運行成本的急劇上升。因此,物聯網設備的功耗和設備復雜度受到嚴格限制,傳統技術手段在物聯網設備的應用上遭遇了瓶頸。
事實上,接收端的信噪比是信號發送功率、傳輸損耗和干擾噪聲共同作用的結果。近年來,隨著元材料和元表面等相關研究的進一步發展,研究人員開始另辟蹊徑,從傳輸損耗下手,通過改善無線傳輸環境來提高接收端的信噪比,于是智能反射面(intelligent reflecting surface,IRS)[3]技術應運而生。IRS技術通過軟件編程智能地配置集成在平面上的大量無源反射元件,達到改善無線傳播環境,提高無線通信系統性能的目的。IRS在形式上類似于中繼,但不需要對信號進行處理和二次發送,因此相對于傳統的中繼具有無時延、低成本、低功耗、易部署等特點。鑒于IRS的大量優點,IRS被廣泛應用于各類通信系統中[4-10],IRS輔助的無線通信技術正在成為5G乃至6G的重要技術之一[11]。
在大數據時代,用戶隱私泄露問題也日益受到重視,保護用戶隱私已經成為通信系統設計過程中不可忽視的要求之一。因此,本文針對物聯網和大數據時代海量設備高速無線連接和用戶隱私保護的需求,提出了一種基于深度學習和聯邦學習的自適應IRS反射系數配置算法,使系統能夠依據信道狀態信息實時對IRS進行最優配置。該算法還能夠依據不同用戶對通信質量的差異化需求,智能地進行IRS反射系數的全局配置,實現對高優先級用戶的服務質量保障。
IRS的基本工作原理如圖1所示,當用戶受到障礙物阻擋,無法與基站進行有效通信時,可以通過部署IRS來建立可靠的反射鏈路,用戶接收到的信號由IRS所有反射單元的反射信號所合成。只要IRS中的每個反射單元按特定的角度反射基站的信號,用戶接收到的合成信號就能夠具有較高的質量。

圖1 IRS的基本工作原理
IRS的配置主要有以下2類思路:①首先測量信道狀信息,然后從數學上計算出IRS各個反射單元的最優反射角度;②事先設計好IRS的配置碼本,通過遍歷的方式來查找最優的配置。以文獻[12]為代表的第一類方案雖然能實現精確的IRS配置,但隨著反射單元數量的增加,運算的復雜度都會提升,而且運算時間的增加導致信道狀態信息已經發生較大變化,計算得出的IRS配置與當前真實信道狀態信息的匹配度將會下降。而且為了測量每一塊IRS反射單元的信道狀態信息,需要集成信道感知器件,從而導致設備復雜度和成本的提升。為了解決該問題,第二類方案事先設計好IRS的配置碼本,然后通過遍歷的方式得到不同信道狀態信息下最優的碼本,在得到多組信道狀態信息和最佳配置碼本的數據后,利用深度學習的方式建立信道狀態信息和最佳碼本之間的映射關系,從而實現給定任意信道狀態信息時均能快速配置IRS的目的。
注意到IRS反射單元的距離較近且布局具有規律性,因此相鄰反射單元之間的信道狀態信息也將接近,文獻[13]通過利用相鄰反射單元之間信道狀態信息的相關性,僅對部分反射單元的信道狀態信息進行采樣,從而在保證IRS性能的同時,減小獲取信道狀態信息的成本。進一步地,文獻[13]通過遍歷碼本得到最優的反射系數矩陣,在獲取足夠的采樣信道狀態信息與對應的最優反射系數矩陣之后,利用該數據集對多層感知機進行訓練,最終建立采樣信道狀態信息與最優反射系數的映射關系。
在如圖2所示的多用戶場景下,如果需要對IRS進行配置以使得所有用戶的信號質量都有提升,則需要對IRS進行全局最優配置。通過采樣信道狀態信息、遍歷碼本然后訓練深度神經網絡的方法,可以實現IRS的全局最優配置。但傳統上,該方法需要將用戶測量的數據全部反饋給中心服務器,這種中心式機器學習的機制存在3個問題:①大量的本地用戶將大規模的數據集傳輸至中心服務器,對傳輸帶寬的要求極高,無線鏈路的不穩定性可能會導致數據傳輸失敗;②多個用戶傳輸數據產生的時延不同,時延最大的用戶會對系統造成決定性的影響,而且處理更多用戶的數據也會帶來更高的運算時延;③數據集里的信道狀態信息與用戶的位置信息具有很高的相關性,因此中心式機器學習所傳輸的數據可能會帶來用戶隱私泄露的風險。

圖2 服務多用戶的IRS
為了解決中心式機器學習所存在的安全隱患,可以采用聯邦學習(federated learning,FL)的方式,將用戶采集的數據直接在本地進行訓練,然后將用戶訓練得到的神經網絡參數在中心服務器上進行聚合[14]。由于用戶只傳輸訓練后的神經網絡參數,用戶的隱私信息得到了保護,同時,神經網絡參數傳輸所需的數據量與原始數據相比微乎其微,網絡開銷和傳輸時延得到了有效的降低。
在傳統的聯邦學習中,用戶本地訓練的目標為最大化自己的通信速率,而在中心服務器在聚合時,則直接對所有用戶的神經網絡參數進行平均,即所有用戶具有同等重要性。但在實際場景中,不同用戶的服務可能存在不同的緊迫性,因此不同的用戶具有不同的服務優先級,網絡的全局配置需要優先考慮服務質量要求高的用戶。基于上述實際場景需求,本文對聯邦學習的聚合算法進行改進,以確保網絡的全局優化向優先級高的用戶傾斜。加權聯邦學習算法的核心思想是:對于通信質量要求較高的用戶,中心聚合時提高其參數的權重,從而使系統在更新全局參數時,能夠更多地采用高優先級用戶的參數,在結果上將表現為把速率更多地分配給優先級較高的用戶。

(1)


(2)
(3)
(4)
式中:D和T分別代表循環前綴長度和采樣時間;p代表脈沖成型函數;a(θl,φl)代表IRS對第l徑的入射波的陣列響應,其中θl和φl分別是第l徑入射波與IRS各個單元到達角的方位角和仰角;γl是第l徑的路徑增益系數;ρ和η分別代表路徑損耗和時延。
IRS輔助的多用戶無線下行鏈路通信場景中的速率優化問題可以等效于信道狀態信息和IRS的反射系數矩陣的最優匹配問題,因此為了實現IRS輔助無線通信系統中的下行可達速率最大化,需要建立接收機的真實信道狀態信息與IRS的最優反射系數矩陣之間的匹配關系,本文將采用碼本搜索的方法構建神經網絡的輸入與輸出數據集。
(5)

(6)
(7)

(8)
(9)

(10)

測量得到采樣的級聯信道信息作為神經網絡的輸入之后,需要確定對應的最優輸出。根據公式(5)和香農定理[15],接收機k處的可實現通信速率為
(11)

(12)
式中,O為預定義的碼本。根據公式(12)在碼本中經過遍歷搜索得到最優的反射系數向量,則在最優反射系數向量下的最優平均可實現通信速率為
(13)

(14)
傳統的神經網絡訓練大量采用中心式機器學習的方式,該方式要求所有的接收機將數據集上傳至中心服務器,這不僅會消耗大量的通信資源、導致計算壓力集中至中心服務器,而且還將造成訓練結果出現較大的延遲。訓練結果的延遲由兩方面造成,一方面服務器需要等待接收完成所有用戶的數據集,另一方面訓練數據量的增加也導致訓練時間的增長。通過采用聯邦學習的訓練方式,則能解決上述若干問題。
注意到參與聯邦學習的每個用戶都采用本地數據集進行訓練,而本地數據集則是由該用戶的接收機采樣得到的信道狀態信息所生成的,因此訓練結果對于該用戶來說是最優的。如果對所有用戶的訓練結果進行算術平均,則會在物理上對所有用戶進行資源分配。考慮到物聯網中存在種類繁多的設備,不同的設備有不同的網絡質量保障需求,所以需要在平均訓練結果時設定不同的權重,從而實現用戶資源分配的傾斜。
基于上述討論,本文使用加權聯邦學習的方法訓練神經網絡,通過建立采樣級聯信道信息與IRS最優反射系數矩陣之間的映射模型,獲取面向IRS輔助的多用戶無線下行鏈路通信場景中的最優速率策略。
在訓練之前需要確定神經網絡的結構,本文選擇多層感知機作為基本的神經網絡結構,層數為6,連接方式均為全連接,輸入層的維度等于采樣級聯信道向量的維度,即NM,輸出層的維度等于平均可實現通信速率標量的維度,即1。激活函數為修正線性單元(rectified linear unit,ReLU),損失函數為均方誤差函數(root mean square error,RMSE),梯度更新規則為隨機梯度下降(stochastic gradient descent,SGD),其中接收機k第i次訓練的損失函數為
(15)
之后需要開始聯邦學習的訓練,訓練過程主要分為2個部分,即本地訓練和中心聚合。所有參與聯邦學習的設備根據自己的本地數據集訓練出本地模型,然后通過無線鏈路將本地模型參數上傳至中心服務器進行聚合得到全局模型參數,最后將全局模型參數下載至每一個本地設備上作為下一輪本地訓練的初始參數,重復以上過程,直至全局模型收斂,最終得到最優的全局模型。

(16)
式中,qk為不同優先級用戶對應的權重。最后每個參與訓練的設備將Wi+1下載至本地作為下一輪訓練的初始參數,重復以上3個過程至全局模型收斂,得到最優的全局模型Wopt。

由于本地用戶訓練得到的結果為神經網絡的模型參數,神經網絡模型參數與系統最高速率之間的關系難以直接確定,因此聯邦學習權重與最高速率的定量關系也超出了本文的研究范圍,本文僅通過仿真實驗對權重設置進行定性分析。
為了驗證本文提出的算法的有效性,本節采用開源的真實世界數據集DeepMIMO[16]進行仿真,DeepMIMO采用射線追蹤方法對一條十字形街區內各個地點由位置、建筑環境等因素產生的綜合信道響應進行了記錄。
本文采用其中的“O1”射線追蹤場景來產生仿真信道,仿真場景如圖3所示。

圖3 仿真場景配置
“O1”場景中的基站7被設置為IRS,發射機的位置在(1 850,90),接收機網格從R2001至R2300,共有54 300個接收點,其中每一行包含181個點。在仿真中,接收機網格劃分為5個區域,即U1,U2,…,U5,接收機數量K=5。因此,每個區域內包含的接收點為單個接收機的信道估計次數,即ξ=10 860,其中80%和20%被分別劃分為訓練集與測試集。
在仿真中,IRS的單元數量為N=576,行數和列數均為24,工作頻率為28 GHz,基帶為100 MHz的OFDM信道,子載波數量為M=512,但是為了降低神經網絡結構的復雜度,只選取前64個子載波來構建本地數據集,即MFL=64。此外,發射機和接收機均配有單個增益為5 dBi的天線。在算法對比設置方面,所對比的傳統算法采用的神經網絡和本文所提出的加權聯邦學習的多層感知機結構保持完全一致。
依據上述仿真場景配置所獲得的仿真結果如圖4至8所示。其中圖4的結果用于驗證算法的收斂性,圖5至8的結果用于分析權重設置對不同用戶網絡性能的影響。

圖4 q1=0.6,其余權重均為0.2時的損失函數
從圖4中可以看出,加權聯邦學習的損失函數略大于等權聯邦學習,原因是加權聯邦學習使得優先級較低的用戶分配到的速率比等權聯邦學習更低,因此訓練得到的配置與本地最優配置有更大的差異,最終導致損失函數增大。由于多用戶場景下無法保證IRS的反射系數配置對于所有用戶都是最優的,因此一般情況下損失函數都將大于零。此外,隨著迭代次數的增加,損失函數將維持在一個恒定的值附近,說明訓練結果達到收斂。
圖5比較了加權聯邦學習和等權聯邦學習下用戶U1和用戶U5可達速率,其中用戶U1具有更高的權值(優先級)。顯然,在加權聯邦學習下,用戶U1可以達到更高的傳輸速率,仿真結果證明了加權聯邦學習可以使系統分配更多的速率給優先級較高的用戶,從而有效保障高優先級用戶的服務質量。
與圖5相比,圖6中除用戶U1之外的所有用戶均提高了權重,因此可以看到系統減少了對用戶U1的速率分配,而用戶U5的可達速率則有一定的提升。

圖5 q1=0.6,其余權重均為0.2時 圖6 q1=0.6,其余權重均為0.4時 圖7 q1=0.8,其余權重均為0.4時的可達速率 的可達速率 的可達速率
從圖6到圖7,用戶U1的權重從0.6提高到0.8,從而導致其他用戶的可達速率有所下降,以此為代價,用戶U1的可達速率則有所增加。此外,通過比較圖5和圖7的結果,可以發現在2個場景中,用戶U1的權重均比其他用戶高出0.4,然而圖7中用戶U1的可達速率低于圖5中的速率。注意到圖5中用戶U1權重為其他用戶權重的3倍,而圖7中為2倍,因此說明用戶權重配置的比例關系比權重的絕對差值更能影響系統對可達速率的分配。

圖8 q1=q2=0.8,其余權重均為0.4時的可達速率
圖8則將用戶U1和用戶U2的權重均設置為0.8,通過與圖7對比,可以發現用戶U1和用戶U5的可達速率均有所下降,因為用戶U2權重的提高導致系統將用戶U1和用戶U5的部分資源分配給了用戶U2。
圖5至8的仿真結果有效地證明了加權聯邦學習具有對高優先級用戶服務質量保障的能力,同時還說明了權重配置變化對用戶可達速率的影響,即:提高某個用戶的權重,將犧牲其他用戶的部分資源來提升該用戶的可達速率,反之亦然。
本文基于物聯網時代海量設備對高速無線通信和用戶隱私保護的需求,提出了一種基于深度學習和加權聯邦學習的IRS反射系數自適應配置算法。該算法首先利用部分具有信道測量功能的反射單元進行信道狀態信息采樣,然后通過遍歷碼本的方式查找最優IRS反射系數矩陣,并將采樣信道狀態信息和最優IRS反射系數矩陣的組合納入訓練數據集里。之后每個接收設備利用訓練數據集對神經網絡進行本地訓練,建立采樣信道狀態信息和最優IRS反射系數矩陣的映射關系,再將訓練后的神經網絡參數上傳到中心服務器。中心服務器根據每個用戶對通信質量的需求程度來確定用戶的優先級,在對神經網絡參數進行聚合時,高優先級用戶的神經網絡參數會具有更高的權重。最后,本文利用真實世界測量的數據集進行了仿真實驗,仿真結果驗證了本文所提出的加權聯邦學習算法能夠保障高優先級用戶的服務質量。