





摘 要:為了改善有監督學習的泛化性較差,只能較好地識別已經見過的用于訓練的信道數據屬于哪種信道場景的問題,文章提出了一種基于偽標簽半監督學習方法的無線信道場景識別方法,仿真結果表明,在識別新的信道數據(來源不同但屬于模型中的某一類信道場景)所對應的信道場景時,半監督學習方法的識別準確率遠高于有監督學習方法的識別準確率。由此可見,半監督學習的方法可以提高無線信道場景識別模型的泛化能力。
關鍵詞:信道場景識別;半監督;偽標簽
中圖分類號:TN92;TP183 文獻標識碼:A 文章編號:2096-4706(2024)08-0001-05
DOI:10.19850/j.cnki.2096-4706.2024.08.001
0 引 言
如今,隨著技術的快速發展,手機、電腦等無線智能設備的使用在很大程度上依賴無線通信。電磁波在無線通信中的傳播會通過無線信道,對信道特性的分析對提高通信性能具有重要意義。以前對信道的研究主要集中在信道特征提取和信道建模上,而近年來,如何對信道場景進行分類的研究也越來越受到關注。信道場景識別對于許多應用都是重要和有益的,例如智能交通系統(ITS)[1]、定位和信道建模[2]。此外,準確地對無線信道場景進行分類以滿足無線通信系統的專用需求成為一個挑戰[3]。無線信道的建模離不開信道測量,而對無線信道進行場景識別,既可以使信道建模更加精確,又可以對測量得到的信道數據進行更細致的分析。
信道的場景識別依據信道數據,即信道的各種特征。信道數據的采集是通過信道測量得到的。進行信道測量需要精密的儀器以及詳細的計劃,人力物力成本較高,所以不易獲取信道實測數據,目前也沒有公開的信道數據集[4]。目前國內外有多個團隊為了進行信道的場景識別測量了多種信道場景下的信道,這些場景大多數為室外的場景。文獻[5]在包括城市地區、高速公路、隧道、NLOS在內的四種典型的車輛通信場景中進行了信道測量,反向傳播神經網絡(Back Propagation Network, BPNN)作為場景識別模型。文獻[6]在美國南加州大學校園和校園附近的公共道路上進行了測量,獲取了LOS和NLOS場景的信道數據,比較了三種不同的機器學習方法,即支持向量機、隨機森林和人工神經網絡的性能。文獻[7]測量了鄉村場景、車站場景、郊區場景、多鏈路場景的信道數據,并用長短時記憶(Long Short-Term Memory, LSTM)網絡進行識別。也有針對室內信道場景的識別研究,文獻[8]對包括實驗室、狹窄走廊、大廳、體育館在內的四種環境進行了信道測量,通過不同的機器學習算法:決策樹、支持向量機和K近鄰算法,對室內場景進行分類。文獻[9]使用卷積神經網絡基于常見的室內障礙物對NLOS場景進行細分,并在真實的室內多場景環境中進行了測試。
但以上采用的都是有監督學習的方法,其存在的一個普遍的問題為訓練得到的識別模型的泛化性較差,泛化性指在面對未曾見過的數據時的表現能力。在信道的場景識別中,有監督學習的方法的該局限性表現為,用多種信道場景的信道數據訓練得到的信道場景識別模型,只在輸入為用于訓練的信道數據時達到良好的識別效果,而對于新的未用于模型訓練信道數據,即使該信道數據屬于該信道場景識別模型中的一類信道場景,但由于信道測量的地點不完全相同,即與用于模型訓練的信道數據不同源,有監督學習得到的模型的信道識別結果表現不佳。
而半監督學習可以改善這一問題,本文提出了一種基于偽標簽半監督學習方法的信道場景識別方法,使得信道場景識別模型不再局限于識別已經見過的用于訓練的信道數據屬于哪種信道場景,實現能較準確地識別不同源但屬于模型中的某一類信道場景的信道數據所對應的信道場景的效果。本文首先證明原本的監督學習不適用于新信道數據的信道場景識別,然后用偽標簽的半監督學習的方法提高了對新信道數據的識別準確率。其中訓練集為在云南采集到的信道數據,包含城區、山區、空地三種場景,測試集為在青島采集到的信道數據,包含城區、山區兩種場景。
1 信道測量和數據預處理
1.1 信道數據采集
在多個場景下采用信道探測系統按照所計劃好的路線進行實驗。探測系統平臺由發射端、接收端及其配套天線系統構成,發射機固定在高樓上,接收機每間隔5 s記錄一條時長1 s的接收樣本,采用ZC序列進行測量。在青島的城區和山區分別進行測量,得到不同信道環境下的數據,同時在云南采用信道探測儀按照所規劃好的路線進行實驗,得到的數據包括城區、山區和空地。
1.2 數據去噪
如圖1所示,通過滑動相關方法獲得的原始測量信道脈沖響應(CIR)快照不僅包含明顯的多徑分量,還包含大量的噪聲分量。因此,有必要在收集測量數據后對數據進行去噪和參數提取。為了去除噪聲引起的偽峰值,根據恒虛警率檢測器(CFAR)方法確定噪聲閾值。通過閾值的動態估計來區分信號抽頭和噪聲抽頭。這種去噪方法可以通過計算動態閾值將信號抽頭與噪聲區分開。
1.3 信道特征提取
提取每個信道快照的多個參數作為模型的輸入,不同的信道場景下的信道特征存在著明顯的不同。
1.3.1 萊斯K因子
萊斯K因子定義為直射路徑的信號功率與非直射路徑的信號功率比值,文獻[10]提出信道萊斯K因子計算式為:
(1)
式中μ2和μ4分別表示樣本數據二階矩和四階矩。由于上式方程求解時可能不存在實數解,在沒有視距鏈路的場景下也能計算萊斯K因子,所以廣義上的萊斯K因子的計算式如下:
(2)
在本文中,空地的萊斯K因子最大,城區的萊斯K因子最小,山區的萊斯K因子介于二者之間。
1.3.2 均方根時延擴展
多徑擴展是指無線通信中,電磁波在多徑衰落信道中傳播,空間傳輸距離與路徑干擾的差異性造成信號到達接收端的時間不一致的現象。通常使用均方根時延擴展(Root Mean Squared-Delay Spread, RMS-DS)參數對多徑擴展進行描述,其計算式為:
(3)
其中τ表示該徑的時延,Pτ表示該徑的功率。在本文中,城區的RMS-DS最大,空地的RMS-DS最小,山區的RMS-DS介于二者之間。
1.3.3 最大接收功率
不同信道場景下中的多徑分量(Multipath Component, MPC)包含的功率不同,因此,每個快照的最大接收功率" 可以用于識別LOS情況。在本文中,空地的最大接收功率最大,城區的最大接收功率最小,山區的最大接收功率介于二者之間。
1.3.4 上升時間
上升時間表示為最強MPC和第一個MPC之間的時間間隔:
(4)
其中l表示MPC的序號。在視距鏈路少的信道場景中的第一組分可能會因阻擋物體或強衍射而衰減,因此,視距鏈路少的場景下的上升時間通常大于視距鏈路多的場景中的上升時間。在本文中,城區的上升時間最長,空地的上升時間最短,山區的上升時間介于二者之間。
1.4 信道數據歸一化
采用離差標準化的方法將提取到的信道的多個特征的數據進行歸一化處理,具體方法如下:
將全部抽頭的其中一個特征作為序列x1, x2, …, xn中的元素,其中n為抽頭數量,采用算式" 進行處理,得到的新序列y1, y2, …, yn ∈ [0,1]且無量綱,即是該特征歸一化之后得到的特征值。對選取的4個信道特征均進行歸一化處理,使得其數值處于[0,1]之間,便于其后將多個數值差距大的特征共同用于進行信道類型的聚類。
2 信道場景識別
在處理完信道數據后,將信道數據用于信道場景的識別。
2.1 有監督學習
有監督學習方法的信道場景識別過程如圖2所示。
首先用有監督學習的方法進行信道場景的識別,作為訓練集的樣本數據由多個信道快照組成。每個信道快照都是由4個特征值組成的行向量,將第i個樣本被表示為xi = {xi,1, xi,2, xi,3, xi,4},1≤i≤N,第i個樣本所對應的信道場景用yi表示。因此在輸入部分的信道數據表示為:
(5)
用該數據訓練好信道識別模型之后,將測試集輸入模型,測試集被表示為:
(6)
模型將根據特征數據預測其屬于哪一類信道場景,預測的結果為 ,1≤i≤NT,將其與測試集數據真實的標簽進行對比,得到信道場景識別的準確率。
采用支持向量機(Support Vector Machine, SVM)作為有監督學習中的神經網絡,首先訓練集和測試集都使用在云南采集到的信道數據,每類場景都有各2 400個樣本。訓練集包含城區、山區、空地三種場景,取總樣本中的70%為訓練集,其學習曲線如圖3所示。
圖3中的學習曲線是根據不同訓練集大小,顯示模型在訓練集和驗證集上的得分變化的曲線,其反映了信道場景識別模型的訓練過程,不代表最終的識別準確率,最終的識別準確率還與待識別的樣本數據有關。測試集為方便后續的比較,僅采用在云南采集到的城區和山區場景,得到的識別結果如圖4所示。
圖4為用云南的城區、山區和空地數據進行訓練,并用云南的城區、山區進行測試的結果,取總數中的30%作為測試集,即每個場景各720個信道快照。該結果由混淆矩陣表示,一行為該信道數據實際所屬的類別,一列為該信道數據被預測為的類別。因為沒有用空地數據進行測試,所以空地數據那一行都為0。黑色方塊表示被準確預測的信道數據,白色表示被錯誤預測的信道數據。從圖中可以看出,在城區場景中有626個信道樣本被準確預測為城區,有58個信道樣本被錯誤預測為了山區,有36個樣本被錯誤預測為空地,準確率為87%;在山區場景中有634個信道樣本被準確預測為山區,有58個信道樣本被錯誤預測為了城區,有28個樣本被錯誤預測為空地,準確率為88%。
然后使用和圖4所示結果同樣的訓練集和神經網絡,但將測試集換成在青島測量得到的城區和山區場景的信道數據,得到的結果如圖5所示。
圖5為用云南的城區、山區和空地數據進行訓練,用青島的城區和山區數據測試的結果,測試集中每個場景各有1 200個信道樣本。從圖中可以看出,在城區場景中有696個信道樣本被準確預測為城區,有240個信道樣本被錯誤預測為了山區,有264個樣本被錯誤預測為空地,準確率為58%;在山區場景中有732個信道樣本被準確預測為山區,有48個信道樣本被錯誤預測為了城區,有420個樣本被錯誤預測為空地,準確率為61%。
兩次實驗的結果不同說明了在有監督學習中,如果識別的信道樣本和用于訓練的信道樣本數據同源,信道識別網絡的性能較好,識別準確率能達到88%。但如果將該信道識別模型用于識別新的信道樣本數據(其對應的信道場景屬于模型中的信道場景)的話,準確率只有60%。可以得出結論,將有監督學習所得到的信道識別網絡用于新的信道樣本數據時,識別的效果較差,體現了有監督學習的泛化性較差的缺點。
2.2 偽標簽的半監督學習方法
因此本文提出了用偽標簽的半監督學習的方法改善有監督學習中識別模型泛化性較差的缺點,使得信道識別模型在識別新的信道樣本數據(其對應的信道場景屬于模型中的信道場景)時也能達到較好的效果。使用半監督學習的方法識別信道場景的具體步驟如圖6所示。
最開始的步驟和有監督學習一樣,用輸入數據 進行訓練,得到訓練好的信道識別模型。接下來,使用經過訓練的信道識別網絡來預測所有要用于測試的新的信道樣本數據的類標簽,但對于一個信道樣本數據來說,該標簽不一定是其真實對應的信道場景 。設p(i)為經過訓練的網絡在樣本x(i)上的概率輸出,使得" 表示樣本中出現c類的概率。為控制變量,其中神經網絡仍然采用SVM使用這些輸出概率,當" 時,可以為x(i)生成" 的偽標簽。其中γ ∈ (0, 1)是一個用來獲得硬標簽的門限,本文中取γ = 0.8,即當對該信道樣本對應的場景的預測的置信度大于0.8時,就將預測的標簽作為新的信道樣本數據的類標簽。將“偽標記”數據與正確標記的訓練數據連接起來,新的訓練數據為:
(7)
本實驗中,N = 2 400,NE = 1 200。在組合的“偽標記”和正確標記訓練數據上重新訓練信道識別模型。將測試集即新的信道樣本數據(山區信道和城區信道數據各1 200個)輸入訓練后的信道識別模型,將識別結果和它的真實標簽進行對比,得到的結果如圖7所示。
圖7與圖5的訓練集和測試集都相同。圖7為使用半監督學習中的偽標簽方法,用云南的山區、城區和空地信道數據進行訓練后,再加入青島的山區和城區數據,并用青島的山區數據和城區數據進行測試所得到的結果(各有1 200個信道樣本)。從圖中的混淆矩陣可以看到,在城區場景中有1 092個信道樣本被準確預測為城區,有84個信道樣本被錯誤預測為了山區,有24個樣本被錯誤預測為空地,準確率為91%;在山區場景中有1 068個信道樣本被準確預測為山區,有60個信道樣本被錯誤預測為了城區,有72個樣本被錯誤預測為空地,準確率為89%。
2.3 結果對比
將有監督學習的識別結果和半監督學習的識別結果進行更直觀的對比,如圖8所示,即同樣的用云南測量得到的城區、山區、空地信道數據訓練得到的信道場景識別模型,對在青島測量得到的城區、山區的信道數據的識別效果的對比。
對比識別結果可以看出,無論是山區場景、城區場景還是總體的信道場景識別準確率,半監督學習的識別準確率都遠高于有監督場景的識別準確率。所以可以得出結論,運用半監督學習的方法,可以提高分類網絡對于新的信道場景樣本數據的識別準確率。
3 結 論
針對有監督學習的泛化性較差,只能較好地識別已經見過的用于訓練的信道數據屬于哪種信道場景的缺點,本文提出了一種基于偽標簽半監督學習方法的無線信道場景識別方法,實現能較準確地識別新的信道數據(來源不同但屬于模型中的某一類信道場景)所對應的信道場景的效果,提高了無線信道場景識別模型的泛化能力。
參考文獻:
[1] 黃家煒.車聯網中基于信道狀態信息的輕量化場景識別算法研究 [D].南京:南京郵電大學,2023.
[2] HUANG C,HE R S,AI B,et al. Artificial Intelligence Enabled Radio Propagation for Communications—Part II: Scenario Identification and Channel Modeling [J].IEEE Transactions on Antennas and Propagation,2022,70(6):3955-3969.
[3] ZHANG J C,LIU L,FAN Y Y,et al. Wireless Channel Propagation Scenarios Identification: A Perspective of Machine Learning [J].IEEE Access,2020,8:47797-47806.
[4] 劉祥.基于深度學習的無線通信場景識別研究 [D].西安:西安電子科技大學,2018.
[5] YANG M,AI B,HE R S,et al. Machine-Learning-Based Scenario Identification Using Channel Characteristics in Intelligent Vehicular Communications [J].IEEE Transactions on Intelligent Transportation Systems,2021,22(7):3961-3974.
[6] HUANG C,MOLISCH A F,HE R S,et al. Machine Learning-Enabled LOS/NLOS Identification for MIMO Systems in Dynamic Environments [J].IEEE Transactions on Wireless Communications,2020,19(6):3643-3657.
[7] 王英捷,周濤,陶成.基于LSTM與多特征融合的高鐵無線信道場景識別 [J].電波科學學報,2021,36(3):453-459+476.
[8] ALHAJRI M I,ALI N T,SHUBAIR R M. Classification of Indoor Environments for IoT Applications: A Machine Learning Approach [J].IEEE Antennas and Wireless Propagation Letters,2018,17(12):2164-2168.
[9] DENG B W,XU T W,YAN M D. UWB NLOS Identification and Mitigation Based on Gramian Angular Field and Parallel Deep Learning Model [J].IEEE Sensors Journal,2023,23(22):28513-28525.
[10] 馮松.無線信道測量參數提取算法研究 [D].西安:西安電子科技大學,2013.
作者簡介:譚思源(1998.11—),女,土家族,重慶人,碩士研究生在讀,研究方向:信道測量和信道場景識別。
收稿日期:2024-01-12
Wireless Channel Scenario Classification Based on Semi-supervised Learning
TAN Siyuan
(Xi'an Electronic Engineering Research Institute, Xi'an 710000, China)
Abstract: To address the issue of poor generalization of supervised learning, which can only effectively classify which channel scenario the channel data used for training belongs to, this paper proposes a wireless channel scenario classification method based on pseudo-label semi-supervised learning. Simulation results indicate that, when classifying the channel scenario corresponding to new data (originating from different sources but belonging to a known category of channel scenario in the model), the semi-supervised learning approach significantly outperforms supervised learning in terms of classification accuracy. Thus it can be seen, it is concluded that semi-supervised learning can enhance the generalization ability of wireless channel scenario classification models.
Keywords: channel scenario classification; semi-supervised learning; pseudo label