王俊智, 仲偉志, 肖麗君, 王 鑫, 朱秋明, 林志鵬
(1. 南京航空航天大學航天學院, 江蘇 南京 210016; 2. 南京航空航天大學電子信息工程學院, 江蘇 南京 210016)
毫米波頻段具有巨大且連續的未分配帶寬,可以滿足無線通信系統對更高數據速率的要求。因此,毫米波通信獲得了人們的廣泛關注[1]。
由于毫米波傳輸具有路徑損耗和遮擋問題[2],因此需要采用大規模陣列天線波束形成技術,產生高增益的定向窄波束以彌補路徑傳輸損耗[3]。毫米波的高頻特性決定了其較適合室內或室外的短距離傳輸,但是實際應用中發射端和接收端的相對運動會導致波束搜索復雜度高、波束對齊困難等問題,尤其當室內或者室外小區內存在豐富障礙物時,用戶與基站之間的波束選擇難度將進一步增加,波束匹配過程也將消耗大量的運算時間和數據資源[4]。針對這一難點,國內外研究者做了大量的研究工作。經典的波束搜索算法為窮舉搜索方法[5],即對碼本中所有的波束對逐個搜索以找到最佳波束對,但該方法的搜索時間較長,難以適用于室內目標隨機移動這一場景。為了減少搜索時間,研究者提出一種分層搜索[6-7]方法,但當主信道路徑的預波束成形信噪比較低時,分層搜索精度會降低。文獻[8]從亞6 GHz獲得帶外信息,用于毫米波波束搜索以解決上述問題,但先驗信息需要通過收發器上的傳感器或者進行額外測量來獲得,這就導致了額外的系統開銷。文獻[9]提出一種逆指紋方法,該方法利用多路徑指紋和位置信息,在非視線路徑(non-line-of-sight, NLOS)的情況下擴展了基于先驗信息的波束選擇方法。文獻[10]提出一種基于匈牙利算法的波束選擇方案,通過將波束選擇建模為二部圖上的最大權匹配進行波束選擇,此算法的計算性能雖好,但復雜度較高。文獻[11]提出一種基于臨近波束的波束搜索算法,該方法可以有效地減少波束搜索次數,降低波束搜索時延,在移動場景中具有更高的搜索效率。
此外,由于機器學習在處理非線性問題中具有較好的性能表現,因此學者們提出將機器學習應用于波束選擇。文獻[12]證明了信道預測最佳毫米波波束的過程存在非線性函數關系,并且證明了一個足夠大的神經網絡可以預測最佳毫米波波束和阻塞狀態,其成功概率可以無限接近1。文獻[13]提出一種基于三維(three-dimensional, 3D)場景的波束選擇方法,該方法主要貢獻為使用攝像機離線拍攝場景圖像進行3D場景重建,并將其場景點云作為輸入來構建神經網絡,顯著降低了運算復雜度,且適用于小型移動終端。文獻[14]引入基于深度學習的圖像重建方法提高波束形成效率,該方法能夠有效降低波束選擇的開銷。文獻[15]提出一種基于深度神經網絡(deep neural networks, DNN)的波束選擇方法,該方法利用接收機的位置和方向來推薦最佳波束對的列表,從而顯著地減少了搜索開銷。然而,基于神經網絡的方法需要大的訓練數據集來優化其網絡中的所有可訓練參數。訓練數據集特定于每個部署站點及其傳播環境,以及基站和用戶使用的天線陣列配置。由于數據集收集的時間和成本較大,因此大型訓練數據集的構建是采用神經網絡進行波束選擇需要面臨的一個主要難點。針對上述問題,遷移學習(transfer learning, TL)技術[16]得到了廣泛應用,該技術可將先前用大數據集訓練的網絡中的部分信息轉移到僅有小訓練數據集可供使用的另一網絡。文獻[17]提出一種帶有TL的并行DNN來預測用戶多鏈路的最佳波束,并表明并行TL結構可以有助于減少干擾和訓練開銷。文獻[18]為了有效利用經驗樣本,使用了遷移強化學習來解決毫米波網絡中的干擾緩解問題,從而加快了任務的收斂。
基于TL技術具有能夠節約數據集收集時間和成本的優點,本文提出一種基于TL的室內波束選擇優化方法。該方法使用小數據集來優化神經網絡參數,可以從用大數據集訓練的網絡中傳輸有用的信息。當無法在任意環境和任意可能的配置下測量大量樣本時,本文提出的優化方法能夠有效地進行波束選擇。
本文采用二維(two-dimensional, 2D)室內幾何信道模型[19]。如圖1所示,在該模型中,發射機和接收機均配備均勻線性陣列(uniform linear arrays, ULA)天線。假設天線均水平放置,分別由Nt和Nr個陣元組成,陣元間隔為半波長,即d=λ/2。接收機隨機放置在位置pr=(xr,yr)的定義區域內,其方向為αr∈[0,2π)。

圖1 室內2D幾何信道模型Fig.1 Indoor 2D geometric channel model
發射機和接收機之間的信道由一條視線路徑(line-of-sight, LOS)路徑和L條NLOS構成,因此接收機在某一位置、某一時刻的信道矩陣可建模為
(1)

(2)
(3)
本文采用模擬波束賦形系統,分別用F=[f1,f2,…,fNt]和W=[w1,w2,…,wNr]表示發射機的波束賦形碼本和接收機的波束結合碼本,為了簡單起見,設定每個碼本分別具有Nt和Nr個碼字。本文采用常見的基于離散傅里葉變換(discrete Fourier transform, DFT)的碼本[15]。因此,波束賦形向量和波束結合向量可分別表示為
(4)
(5)
式中:p∈{1,2,…,Nt},q∈{1,2,…,Nr}。在每個時隙上,根據預編碼器fp∈F和組合器wq∈W,接收信號功率R∈RNt×Nr可以表示為
(6)

利用環境中的先驗信息有助于提高波束選擇的精度[12-15],同時減少匹配過程的延遲。先驗信息可在訓練階段從測試環境中感知提取。由于利用信道先驗信息預測最佳波束對的過程存在非線性函數關系,且神經網絡具有較強的學習非線性函數的能力。因此,可采用DNN來解決此類問題。但是,DNN需要采用大數據集來調整其參數,但在每個環境中捕獲大量樣本會導致成本大幅度增加。TL是一種將大數據集場景的知識轉移到小數據集場景中使用的技術,可以解決因為數據集過小而導致神經網絡無法得到充分訓練這一問題。因此,本文將采用TL對小數據集情況下基于深度神經網絡的波束選擇進行優化。具體優化步驟如算法1所示,后續將對每一步進行詳細介紹。

算法 1 基于TL的波束選擇優化方法參數設定:設場景A對應網絡為DNNA,數據集為DA;設場景B對應網絡為DNNB,數據集為DB;其中DA為大型數據集,DB為小型數據集,并且DNNA和DNNB網絡層數和隱藏層神經元個數都相等。1: 隨機初始化DNNA的權重 2: 使用DA對DNNA進行訓練3: 對目標環境特征和用戶配置進行判斷情況 1: B場景與A場景用戶配置相同,環境改變4-1: 使用訓練后的DNNA的隱藏層和輸出層權重初始化DNNB的隱藏層和輸出層權重,凍結DNNB的輸出層權重使其不被訓練,僅使用DB對其隱藏層權重進行訓練。情況 2: B場景與A場景用戶配置改變,為同一環境4-2: 使用訓練后的DNNA的隱藏層權重初始化DNNB的隱藏層權重,DNNB的輸出層權重隨機初始化,凍結DNNB的隱藏層權重使其不被訓練,使用DB僅對其輸出層權重進行訓練。5: DNNB訓練完成。
由于TL是對神經網絡的權重進行遷移,因此,在本文中為了簡化模型,假設源域跟目標域使用的神經網絡層數和神經元個數相同,該DNN參考結構如圖2所示[15]。

圖2 網絡結構Fig.2 Network structure
該神經網絡根據接收機的坐標和方向來預測每個波束對產生最大接收信號強度(received signal strength, RSS)的概率。其中,輸入是接收機的位置(xr,yr)及其方向αr,每個輸出對應于一個唯一的波束對,因此共有NtNr個輸出。該網絡的隱藏層和輸出層分別使用tanh及Softmax函數作為非線性激活函數。如圖2所示,DNN的輸出O={oi,j|i=1,2,…,Nt;j=1,2,…,Nr}是關于輸入的非線性函數,如
(7)

為了生成具有M個用戶點的環境訓練數據集,本文采用式(6)計算設定場景中與每個用戶位置和方向相對應的各個波束對的RSS,獲得大小為M的數據集,該數據集可以表示為D,每組數據中包含的信息有:神經網絡輸入的向量(xr,yr,αr)和第m={1,2,…,M}個用戶相對應的各個波束對的RSS。對于給定的位置和方向,神經網絡可以學習RSS最高的波束對。
TL旨在通過轉移不同但相關的源域中包含的知識,提高目標學習者在目標域的表現。通過這種方式,可以減少構建目標學習者對大量目標域數據的依賴。研究表明,TL具有多樣性,既可以跨領域也可以跨任務應用,其目標是分別在不同環境或不同任務之間轉移知識[16]。本文分別對跨領域和任務的兩種情況與所考慮場景進行結合,提出以下兩種方案。
2.3.1 域自適應
假設在一個環境中有一個大的測量數據集DA,將此環境稱為源域,假設在另一個環境中只有有限大小的數據集DB可供使用,將該環境稱為目標域,兩種環境中的發射機和接收機分別有Nt和Nr個陣元。將源域中使用的深度神經網絡定義為DNNA,該網絡有Nh個隱藏層,每個隱藏層有n個神經元。由于該環境有大數據集DA可供使用,因此DNNA的權重可以用隨機值初始化,并通過標準反向傳播算法進行訓練。如果在目標域中使用一個與DNNA具有相同網絡層數和神經元的DNNB,則可以使用DNNA的訓練權重W初始化DNNB,將源域中學習的信息傳輸到目標域,其中網絡的隱藏層可以理解為包含環境等先驗信息,輸出層可以理解為包含用戶配置信息[12]。因為域自適應中環境不同,用戶配置相同,因此隱藏層的映射需要更新,輸出層的映射可以保留。故在仿真中可以凍結輸出層權重,僅使用DB訓練隱藏層權重,凍結這些層減少了網絡中可訓練參數的數量,這極大提高了使用小數據集訓練時的性能。
2.3.2 任務自適應

由于TL技術是對基于深度學習(deep learning, DL)的波束選擇方法的優化,故本節將對基于TL的波束選擇與基于DL的無TL波束選擇方法進行比較。為了評估域自適應案例中的TL思想,設定兩種不同的2D室內場景,一個為空闊房間(empty room, ER),一個為普通室內房間(ordinary indoor room, OR)。
ER表示一個沒有任何障礙物的室內環境,其大小為60 m×60 m。OR場景如圖3所示,設定該室內場景中有6個靜態物體,包括4個墻壁和2個固定障礙物,動態物體的數量λ可作調整[15]。用于信道建模的參數如表1所示。

圖3 OR場景Fig.3 OR scenario

表1 信道模型參數Table 1 Channel model parameters

仿真所用到的兩種室內場景模型發射機均放置在距離左墻1 m處,室內的接收器放置在任意位置。
在每個波束對的選擇過程中,根據2D齊次泊松點過程在房間內繪制新的移動對象,而靜態對象在所有環境實現中始終保持相同的位置和方向。設定移動物體映射到2D平面的大小為0.35 m×0.6 m,以模擬室內的行人,接收機隨機放置在房間內,與靜態物體和移動物體沒有重疊。在這種情況下,由于房間內有兩個尺寸為6 m×1 m的固定障礙物和其他移動物體,因此部分或所有路徑可能會被阻塞。
高階反射路徑是指那些經過物體多次反射后才能到達接收機路徑。根據成像理論,反射物體越大,反射路徑從給定物體到達接收機的概率越大[19]。由于在OR場景中,移動對象比靜態對象小得多,因此,除了信號能量較小的高階路徑之外,有的反射路徑經過多個移動對象到達接收機的概率接近于零。鑒于此,在生成數據集的過程中可以忽略來自多個移動對象的反射路徑,以減少射線跟蹤過程的計算時間。
仿真中,每個接收機的位置處均使用100條最強路徑來構造信道響應。通過計算每個用戶位置處每個波束對的RSS來生成數據集,并將該數據集隨機分成兩組:第一組包含80%的數據,用于訓練;另一組包含其余20%的數據,用于評估遷移學習的性能。ER和OR中培訓樣本分別是100 000和50 000。設定用于訓練的神經網絡有5個隱藏層,每個層有128個神經元,為了防止過擬合,每個隱藏層設定10%的節點丟失率。使用具有50個epoch的Adam優化器來訓練神經網絡,訓練樣本從32個逐漸增加到8 192個。此外,將每個波束對的標簽轉換成一個向量,用來計算損失函數。仿真中將使用以下4種方法進行評估。
(1) DNN:具有隨機權重初始化并在目標數據集上進行訓練的DNN方法。
(2) DNN-TL:使用源權重初始化,并使用目標數據集對所有層進行微調的DNN方法。
(3) 域自適應DNN-TL(DNN-TL-domain adaptation, DNN-TL-DA):使用源權重初始化,輸出層被凍結,隱藏層使用目標數據集進行優化,即域自適應。
(4) 任務自適應DNN-TL(DNN-TL-task adaptation, DNN-TL-TA)。使用源權重初始化,隱藏層被凍結,隱藏層使用目標數據集進行優化,即任務自適應。
其中,方法(1)為基于DL的無TL波束選擇方法,方法(2)~方法(4)為3種不同的基于TL的波束選擇方法。
為了評估TL技術在域自適應場景中的效果,設定源場景和目標場景中TX和RX天線單元個數均為64個。使用100 000數據集DA將ER中的網絡DNNA作為源域進行訓練。為了在目標域OR中微調DNNB,分別使用10 000數據集和50 000數據集DB評估目標數據集對TL性能的影響。
在本文中,使用失配概率來評測這幾種方法的性能,其定義為不包含接收功率最高的波束對的最小概率,其表達式為
(8)
式中:B表示所有可能的波束對的集合;Sk表示排名前Nb的波束對。
圖4和圖5分別展示了處理OR中不同數據集時不同波束選擇方法的失配概率。當采用較少數據集訓練時,使用TL技術可以顯著改善波束選擇性能,并且數據集越小,效果越好。這是因為通過使用528 384個參數凍結輸出層,可訓練參數的數量從594 944減少到了66 560個。凍結約88%的權重有助于網絡更好地工作,尤其是在目標域中訓練樣本很少的情況下。

圖4 數據集10 000的域自適應Fig.4 Domain adaptation of dataset 10 000

圖5 數據集50 000的域自適應Fig.5 Domain adaptation of dataset 50 000
圖6和圖7展示了不同波束選擇方法可實現的頻譜效率。通過假設一個固定的信道相干時間,從系統的可實現速率中減去每個相干時間段用于波束選擇的信道資源比例即可得到。因此,有效頻譜效率可以定義為
(9)
式中:Ts和Tfr分別表示在波束選擇過程中掃描波束對所需的時間和固定信道響應的一幀持續時間[14]。SNRp,q是波束對準之后與選定波束對(p,q)相對應的信噪比,其定義為
(10)

圖6 域自適應的頻譜效率(數據集10 000)Fig.6 Spectrum efficiency of domain adaptation (dataset 10 000)

圖7 域自適應的頻譜效率(數據集50 000)Fig.7 Spectrum efficiency of domain adaptation (dataset 50 000)
在仿真中,設定Tfr=20 ms,Ts=0.1 ms,可以通過改變候選波束列表大小來調整Nb。通過使用TL和凍結輸出層,在掃描波束對數相同的情況下,基于TL的方法獲得的頻譜效率明顯優于DNN方法,并且數據集越小,頻譜效率提高越明顯。
TL在任務自適應問題中的優越性如圖8和圖9所示,其中任務是指在同一環境中使用不同天線配置進行波束選擇。

圖8 數據集10 000的任務自適應Fig.8 Task adaptation of dataset 10 000

圖9 數據集50 000的任務自適應Fig.9 Task adaptation of dataset 50 000
在環境OR中,使用分別具有64個和16個天線陣元的TX和RX來捕獲大型數據集DA。在相同的環境中,收集一個小型數據集DB,其中TX和RX均有64個天線陣元。如圖8和圖9所示,TL在小數據集下,通過凍結隱藏層,能夠有效的改善失配概率。
在室內毫米波通信中,可以使用DNN方法,充分學習環境信息,來實現波束選擇,但有限的數據集使DNN不能高效地進行波束精確匹配?;诖?本文利用TL技術對深度機器學習進行優化,其中引入參數重用方法,可以顯著降低執行基于位置和方向的波束選擇的神經網絡對于大訓練數據集的依賴。此外,在目標環境或者目標天線配置中使用小數據集對不同層的網絡參數進行微調,可使經過訓練的神經網絡權重在其他傳播環境或目標天線設置中有效重用。仿真結果表明,本文提出的基于TL的室內波束選擇優化方法能夠有效提高有限數據集下的神經網絡訓練效果。