基于5G的強化學習算法分析與挑戰

2022-09-21 01:34:20董春利王莉

電子測試 2022年17期

董春利，王莉

(南京交通職業技術學院電子信息工程學院，江蘇南京， 211188）

0 引言

強化學習（RL）是指通過在環境中采取一些行動，來增加獎勵。這種學習涉及執行使這些獎勵最大化的那些行動。這種類型的學習行為與自然學習相同，其中代理必須通過命中和試驗機制自己學習以獲得最大獎勵[1]。機器學習（ML）可分為監督、無監督和半監督學習。RL（半監督）不同于有監督和無監督學習。在監督學習中，每個動作都有一組指令，目標是映射輸入對應的輸出并從標記數據中學習規則。此類中使用回歸和分類模型，取決于值是連續的，還是離散的。而在無監督學習的情況下，代理必須發現未標記數據的隱藏結構[2]。無監督學習與有監督學習相反，通常可以在數據不足且未標記時應用。但是在RL的情況下，代理具有初始點和終點，并且要到達其目的地，代理必須通過操縱環境來找到最佳可能的行動。達到最終解決方案后，代理會獲得獎勵，但如果未能達到，則不會獲得任何獎勵，因此，代理必須學習環境才能獲得最大的獎勵。在RL中，問題的制定是使用馬爾可夫決策過程(MDP) 完成的，解決方案可以是策略或模型庫，并且可以是無模型的，即 Q-learning、SARSA。在這種技術中，代理與環境交互并根據獎勵生成策略，最后系統被訓練并提供改進的性能。

1 RL模式

RL有兩個主要特征:（i）試錯搜索;（ii）延遲獎勵。圖1顯示了RL和深度Q學習模式。

圖1 (a)RL示意圖，(b)深度Q學習示意圖

模型用于預測環境的性質。同時使用規劃和模型的ML設計是基于模型的機制。如果沒有環境模型，則可以通過試錯法進行學習。RL算法的實現一般有2種方式。

基于值：在基于值的RL算法中，用戶試圖實現最大值函數，這意味著智能體期望現有狀態的長期回報。

基于策略：在這種方法中，用戶設計一個策略，其中在每個狀態下執行多個動作，以在未來獲得最大獎勵。策略描述了代理必須在某些環境條件下采取行動的方法。基本上，策略總是映射狀態和動作的功能。許多格式可以作為策略來實現，例如它可以是一個表格、任何搜索過程或可以是一個函數。RL的想法是最大化該策略的方法。信號獎勵描述了代理采取的行動是好是壞。這個獎勵信號的目的是夸大整體獎勵。策略依賴于信號獎勵，如果代理收到不好的獎勵，它必須修改它的策略，然后再次執行操作。獎勵可以分為即時獎勵或延遲獎勵。在延遲獎勵的情況下，代理必須找出導致該獎勵的原因。價值函數計算即將到來的整體獎勵，價值函數背后的核心思想是弄清楚狀態并相應地執行操作。上面給出了RL的基本圖，它顯示了狀態及其相關動作。

基于策略的方法進一步分為以下類型：

(1)確定的：對所有狀態執行相同的操作，并由策略模塊處理。

(2)隨機的：每個動作都對應一個基于特定策略的模型。在這種方法中，為所有類型的周圍氛圍或環境設計了一個虛擬模型。創建虛擬模型后，智能體的學習過程開始在該環境中執行。

2 深度學習(DL)

在DL中，使用近似于復雜函數的神經元操作來建立規則。在移動通信中，DL對于解決復雜的非凸挑戰和高計算問題具有重要意義。由于神經網絡用于特征提取和學習階段，因此該算法可用于多種場景，即非線性模型增強、連續變化的移動環境評估、過擬合程度和復雜度降低以及數據最小化的重構誤差。DRL是許多科學領域的革命性和新興工具，特別是在移動通信領域，用于有效地提供各種挑戰的解決方案。深度卷積神經網絡（DNN）旨在學習信道的特征并預測適當的調制編碼方案。對于無需人工干預的智能決策，采用多層構建人工神經網絡。為了改善網絡的參數，人工智能(AI)、機器/深度學習技術是最好的方法，因為有更少的物理干預和先進的計算約束。

如今，諸如HetNets、物聯網和無人機網絡等先進的網絡被重塑為自主、臨時和分散的形式，在這種形式中，移動用戶、無人機和物聯網設備自行做出決策，即小區關聯、功率控制、數據傳輸等。在這些場景中，MDP 塑造的問題值得做出相應的決策，并且算法和學習技術的數量有助于解決MDP[3]。事實證明，求解計算復雜的高級和大型網絡是非常困難的。在這方面，DRL提供了一些必要的好處，例如獨立決策、通過大狀態和動作空間提高學習速度、學習和發展對通信和環境的網絡理解、復雜的網絡優化、數據卸載、干擾管理和網絡物理攻擊建模。需要在5G環境下研究基于DRL的5G HetNet聯合資源管理功能、基于多目標DRL的資源管理、靈活的資源管理設計、基于DRL的5G HetNet負載均衡。圖2顯示了使用機器學習工具的HO優化技術的類別。

圖2 HO優化技術

對于預測分析，AI需要在渠道建模方面更加成熟。主要問題是由于巨大的天線導致的高維搜索、發射和接收信號的關系、發射和接收波束的更快組合學習、AI模型訓練的收斂性。AI/ML/DL的先進技術為5G和超5G的無線網絡注入活力，以支持現實世界中引入的新興用例。然而，盡管取得了進展，但仍然需要解決開放的研究問題和未來的方向。在實際實施中，訓練過程的效率需要成熟度，例如學習算法的最佳可能參數更快地收斂。為了從廣泛的測量操作中獲取數據，從密集的城市傳播區域、陸地區域上的高速移動節點和動態變化的環境中，獲得的真實實驗結果仍然存在差距，以證明學習算法的精度[4]。在分層網絡中，架構設計、網絡實體通信參數控制、計算能力、集中或分布式控制性能以及精度要求，仍需要使用 AI/ML/DL方面進行探索。先進的算法和操作期間的網絡攻擊技術，也是該領域的一個公開挑戰，例如無人機系統的可靠通信，會話劫持，中間人攻擊等。

3 RL的類型

正面及負面，是RL的兩種類型，定義如下：

(1)正面

正面的RL是指由于特殊行為而發生的事件。它放大了行為的強度和振蕩度，并影響了代理執行的活動。它最大化了事件的性能，并在較長時間內保持變化，而RL的過度實施，會產生影響活動結果的過度優化狀態。

(2)負面

在這種類型的RL中，會采取措施來提高由于不良條件而發生的行為的強度。應停止或減少這些不良條件，以達到最低性能要求。然而，需要付出很多努力才能達到該要求的條件。

4 結論

已經進行了許多研究來解決未來無線網絡的最大挑戰，例如5G小型蜂窩中的HO管理。新興技術，即D2D、M2M、MIMO、EC、SC、BF、WiFi和SDN、NFV和 CC的融合，以及mMTC、eMBB和uRLLC等即將推出的用例和服務，帶來了新的挑戰。此外，5G超密集小蜂窩（ UDSC）網絡中的高速移動性、高數據速率應用和有限的資源，也面臨著眾多挑戰，仍然需要使用先進的ML算法，以優化的方式解決一些重大挑戰。

(1)多媒體流量的QoS/QoE；多媒體業務對服務質量和服務能力的要求不同于數據和語音業務。HO技術在不同的用例中提供不同的QoS/QoE，以執行各種類型的多媒體流量。在考慮HO管理中的QoS/QoE的同時，提供最佳機器學習解決方案是超5G無線小型蜂窩網絡的一個活躍研究領域，在該網絡中，將以低延遲和最佳連接性驅動大量數據。

（2）控制通信開銷；現有的HO解決方案需要在所有可用于通信的節點，即宏小區、小型小區和UE之間進行復雜且頻繁的協作。這種現象需要大量的網絡資源來交換必要的信息。同時考慮提供最好的機器學習解決方案來控制通信開銷，是超5G無線小型蜂窩網絡的活躍研究領域。

（3）無線回程頻譜效率；在超5G的無線網絡中，小區BS需要具有強大能力的無線回程網絡來處理大量無線連接和靈活的部署。因此，為頻譜資源管理、網絡復雜性，和基礎設施成本，提供最佳機器學習解決方案，以處理超5G無線網絡中的大量小區，是一個活躍的研究領域。

（4）先進技術整合；在5G小蜂窩網絡中，毫米波、大規模MIMO和mMTC是使網絡容量提高100倍的關鍵推動力[5]。這些先進技術的大量信令開銷，產生了密集的通信和信號處理。因此，在5G無線網絡中，使用機器學習提供資源效率、成本效率和抑制干擾，也是一個活躍的研究領域。

(5)安全和隱私問題；超密集5G小型蜂窩網絡的 HO管理中，最關鍵的挑戰是安全和隱私問題，因為蜂窩和UE的高密度化。處理通信數據的新功能和應用程序的數量，對安全妥協和隱私問題提出了新的挑戰。因此，在5G小蜂窩無線網絡中，使用機器學習進行有效反擊也是一個積極的研究方向。