蘆偉東,羅士偉,劉依卓
(國家無線電監測中心哈爾濱監測站,黑龍江 哈爾濱 150010)
頻譜占用度是用來描述無線電頻譜資源利用率的重要指標,其也可以反映一個地區的頻譜利用率變化趨勢,邊境地區的無線電監測的重要任務之一就是獲取準確的頻譜占用度,為上級無線電主管部門制定頻率使用規劃和國際臺站申報計劃提供重要依據。傳統的分析方法不能通過頻譜占用度的歷史數據來預測頻譜未來一段時間的頻譜占用情況,難以滿足無線電管理需求。本文提出一種邊境頻譜占用度預測方法,通過實驗優化預測模型參數設置,使其能夠達到預測未來一段時間內頻譜占用度的目標。
在不同時間對相同對象的持續觀察而得到的序列稱為時間序列[1]。通過對歷史數據進行相關性分析,達到預測未來時間序列的目標。頻譜占用度是通過不同時間段觀測頻譜占用情況而得到的數據,因此其自然構成了時間序列。頻譜占用度時間序列的平穩性取決于具體數據的變化趨勢。
長短期記憶(Long Short Term Memory,LSTM)神經網絡通過門限機制留下輸入數據的有用信息[2],并控制其積累速度,相對于普通循環神經網絡,LSTM神經網絡的隱藏層中除狀態h外,還引入了狀態c用于非線性信息的傳遞(如圖1所示),即

式中,U為網絡參數;tanh(·)為激活函數。
隨著時間t的增加,ct的累積量將會變得越來越大,如圖2所示,這時LSTM的門限機制會主動遺忘部分累積信息,避免出現信息量過大的問題。

圖2 增加新狀態后的循環神經網絡結構
在t時刻有三個輸入量:xt,ct-1和ht-1,有兩個輸出量:ct和ht。LSMT的門限機制由輸入門、遺忘門和輸出門實現。
(1)輸入門的主要目的是通過下式確定輸入xt中部分信息留在ct中。

式中,i表示輸入;為激活函數;U,V,W為網絡權重參數;it為t時刻的輸入數據,通過輸入門,將輸入中對應的保留下來,即對應向量中對應元素的乘積。
(2)遺忘門的目的是確定t時刻輸入中的ct-1有多少成分保留在ct中,實現公式為

式中,f表示遺忘,此公式確定了遺忘門的門限,與輸入門的門限一樣,即通過遺忘門之后,將輸入中的保留下來。
(3)輸出門的目的是利用控制單元ct確定輸出ot中有多少成分輸出到隱含層ht中。

式(4)由兩部分組成,一部分為輸入門中存儲的信息,另一部分為遺忘門中的存儲的信息。下面給出留在ht中的信息實現公式:

式中,輸出層狀態ot經過輸出門,留在隱藏層中的信息實現公式為

綜上所述,隨著時間的變化,整個網絡的結構設計流圖如圖2所示,目前LSTM神經網絡已被成功應用于數字識別、語音識別、圖像識別等領域。
建立基于LSTM的頻譜占用度預測模型主要有5個步驟(如圖3所示):首先導入時序數據,通過設定隱藏層和輸出層數量及激活函數來定義模型;然后編譯模型,為了使用模型能夠有效的進行數值計算,設定整個模型的損失函數和優化函數;最后對模型進行訓練和評估預測效果。

圖3 建立LSMT預測模型流程
模擬2010年1月至2021年12月期間某邊境監測站某頻段的頻譜占用度數據,根據從實際邊境頻譜監測工作中獲取的頻譜占用度數據特征,隨機生成144個月的頻譜占用度數據樣本,即生成時間序列數據。下面將根據建立LSMT預測模型流程進行實驗仿真。
4.1.1 導入時序數據
導入時序數據集(如圖4所示),可以看到頻譜占用度逐年增高的趨勢。對數據集進行預處理,將單列數據集轉化為兩列數據集,第一列包含當月(t)頻譜占用度,第二列包含下個月(t+1)的頻譜占用度。

圖4 原時序數據集
4.1.2 定義模型
首先對數據集進行歸一化處理,設定存儲單元和輸出層數,選定sigmoid作為激活函數,選取訓練數據集,設定訓練次數。
4.1.3 編譯模型
損失函數選取均方誤差,優化函數選取自適應矩估計。
4.1.4 訓練和評估模型
用訓練數據集對LSMT模型進行訓練,用均方根誤差(Root Mean Squared Error,RMSE)作為模型預測準確度評價指標。

4.2.1 選取不同比例的訓練數據
在144個數據樣本中,分別選取30%、60%和90%比例的數據作為訓練數據集。用激活函數對數據進行[0,1]區間的歸一化處理,設定隱藏層有4個存儲單元,訓練次數為100,單個預測值輸出層,對比預測結果的評價指標如表1所示。

表1 不同訓練集比例的預測結果評價指標
可以看出,當選取訓練數據集的比例由30%增加至60%,訓練誤差增大,預測誤差減小;由60%增加至90%時,訓練和預測誤差都增大。這說明并非訓練數據的比例越高越好,預測效果取決于樣本特征數量與網絡存儲能力的匹配程度。
選取60%的總樣本數據作為訓練數據集,分別選取4,128,256個隱藏層存儲單元,其他實驗條件不變,對比預測結果的評價指標如表2所示。

表2 不同存儲單元個數的預測結果評價指標
可以看出,在存儲單元個數從4個增加到128個時,訓練誤差略有增加,預測誤差降低,從128個增加到256個時,預測誤差并沒有隨著存儲單元個數的增加而明顯降低,反而有所增加,這說明存儲單元個數達到128以后,LSTM網絡記憶了太多無效信息,因此無需再增加存儲單元的個數。
4.2.2 選取不同的訓練次數
選取60%的數據樣本作為訓練數據,128個隱藏層存儲單元,分別采用50、100、300訓練次數,其他實驗條件不變,對比預測結果如表3所示。

表3 不同訓練次數的預測結果評價指標
可以看出訓練次數為100次時,可以得到較低的預測誤差,說明網絡已經比較穩定,訓練效果較好。
4.2.3 選取不同的窗口大小
對于時序預測問題,可以使用多個最近的時間項來進行下一個時間項的預測,時間項的大小即為窗口大小。分別選取1個月和3個月的窗口大小對下一個月進行預測,以總樣本60%的數據作為訓練集,預測結果如表4所示。

表4 不同訓練次數的預測結果評價指標
可以看出,當窗口大小從1月增大為3月時,訓練次數和存儲單元的個數都會對預測誤差產生影響,這說明窗口的大小需要針對不同的問題進行調整,不斷進行調整參數的嘗試,才能得到較好的預測效果,如圖5所示。

圖5 較好預測結果
4.2.4 分析
以上實驗涵蓋了影響邊境頻譜占用度預測準確度的主要因素,分別進行了對比實驗,得到以下結論:對于此模擬邊境頻譜占用度數據集進行基于LSMT的頻譜占用度預測,以總樣本數據的60%作為訓練數據集,選取4個隱藏層存儲單元,網絡進行300次訓練,選取窗口大小為3個月,可以得到較為理想的預測結果。
對于邊境頻譜占用度的預測問題,本文提出了基于LSMT的邊境頻譜占用度預測方法,分析了影響預測誤差的主要因素,并得出結論,此預測方法在滿足一定的條件下,可以得到較為理想的頻譜占用度預測結果,為提升我國邊境地區頻譜競爭力和上級主管部門頻譜規劃的前瞻性提供了一種解決方案。■