摘 要:無人機自組織網絡(FANET)被廣泛應用于軍事、應急救災和環境監測等情況下的網絡通信服務,良好的路由協議能為其在通信條件惡劣場景下的可靠傳輸提供保障。利用強化學習將路由選擇描述為一個馬爾可夫決策過程進行路由決策成為研究熱點。為了更進一步地介紹和挖掘基于強化學習的FANET路由協議研究現狀,首先介紹近幾年來FANET傳統路由協議上的一些改進;其次,基于強化學習的FANET路由協議研究的最新調研結果進行詳細的介紹;同時,對路由研究算法中的狀態、動作和獎勵等建模規律進行深度挖掘,從路由的優化標準和強化學習優化過程等方面進行了比較;最后,根據目前基于強化學習FANET路由協議的研究現狀進行總結和展望。
關鍵詞:無人機自組織網絡; 路由協議; 強化學習
中圖分類號:TN929.5
文獻標志碼:A
文章編號:1001-3695(2023)07-003-1937-10
doi: 10.19734/j.issn.1001-3695.2022.11.0566
Review of research on flying Ad hoc network routing
based on reinforcement learning
Sun Chen, Mo Guomei, Shu Jian
(School of Software, Nanchang Hangkong University, Nanchang 330063, China)
Abstract:Flying Ad hoc network(FANET) are widely used for network communication services in situations such as military, emergency disaster relief and environmental monitoring, and good routing protocols can provide reliable transmission in scena-rios with harsh communication conditions. Using reinforcement learning to describe routing as a Markov decision process for routing decisions has become a hot research topic. In order to further introduce and dig into the current state of research on FANET routing protocols based on reinforcement learning, this paper firstly introduced some improvements on FANET traditional routing protocols in recent years. Secondly, it provided a detailed introduction on the latest research results on the research of FANET routing protocols based on reinforcement learning. At the same time, this paper deeply explored the modeling laws of state, action and reward in reinforcement learning-based routing research algorithms, and compared them in terms of routing optimization criteria and reinforcement learning optimization process. Finally,it presented a summary and outlook based on the current research status of reinforcement learning based FANET routing protocols.
Key words:flying Ad hoc network; routing protocol; reinforcement learning
0 引言
近年來,隨著無人機性能的日益提高[1],在應急救災、目標識別、中繼通信、環境監測等諸多領域,無人機都扮演著重要的角色。可以相信,隨著5G技術的大規模應用,在未來的幾年甚至幾十年里,將會有更好的通信性能及信息處理能力的無人機出現,無人機集群正是其重要的發展方向之一。無人機集群能夠在更有限的空間內避免多架無人機發生碰撞,集群的無人機會智能分解和協同完成一個整體任務,更好地完成無人機應用。
無人機集群所組成的無人機自組織網絡(flying Ad hoc network,FANET)是移動自組織網絡(mobile Ad hoc network,MANET)在無人機領域的擴展應用[2],具有快速搭建、自組織、部署靈活、成本較低等優點,但也面臨著很多的挑戰。
首先,FANET面臨無人機節點能量有限的挑戰。無人機大部分依賴于鋰電池進行供電,一塊電池只可持續飛行30~40 min[3]。因此需要解決節點能量有限問題,保障無人機的能量損耗,降低網絡的路由開銷。其次,FANET節點之間為無線傳輸,無人機節點在通信時可能會產生信號碰撞、噪聲干擾等問題;應該在可傳輸的條件下,保證傳輸的質量要求,避免出現丟包或者數據安全問題。最后,FANET的網絡拓撲變化十分頻繁,所建立的鏈路穩定性較差[1],這是因為無人機節點的運動速度較快,每個節點都隨時有可能加入或者脫離網絡。如圖1所示,節點1擬發送分組數據給節點5,根據圖1(a)所示拓撲結構和傳統路由協議算法選擇(1-2-3-5)作為傳輸路徑,而在分組傳輸時,節點3、4和5都發生了劇烈的位置變化,從而形成如圖1(b)所示的拓撲結構,為了更加有效的網絡路徑傳輸,路由協議就需要快速應對這種變化,例如形成(1-2-4-5)的新傳輸路徑;所以本文的目標是在網絡拓撲發生變化時能快速地選擇出可代替的路由,應對網絡拓撲變化頻繁。
由此可見,FANET網絡拓撲變化非常頻繁,FANET中的路由協議需要為網絡在動態網絡環境中進行數據分組傳輸提供可靠保證[4],選擇合適的路由協議可避免許多不必要數據傳輸的能量消耗,極大地降低網絡路由開銷,提高網絡性能,延長網絡壽命。傳統的路由協議在選擇路由上的標準過于單一,并沒有全面地考慮路由標準,且由于無人機節點移動速度較快,傳統路由在選擇更新路由上顯得過于笨拙,隨著人工智能的發展,越來越多的學者使用強化學習來解決網絡拓撲變化頻繁的問題,自學習選擇更新路由,將在第3章中詳細地介紹這方面的內容。因此,近幾年來有幾篇綜述文章對涉及無人機自組織網絡路由的研究進行了討論。Gupta等人[5]闡述了移動自組織網絡和車載自組織網絡(vechile Ad hoc network,VANET)以及無人機自組織網絡的特性,并對其進行了比較,介紹了無人機自組織網絡路由的延遲和中斷概念。Maxa等人[6]回顧了UAV網絡中的路由協議和安全挑戰,介紹了幾種可用于UAV動態網絡中的傳統路由協議的改進版本。Oubbati等人[7]對現有的、非人工智能化的FANET路由協議進行了比較,并仔細分析了它們在不同設計約束和規劃策略下的性能。Arafat等人[8]全面回顧UAV網絡設計、架構、路由協議、開放問題和研究挑戰,討論了基于確定性、隨機性和社會網絡的非智能化路由協議,并對其主要特征和性能進行了定性比較。董超等人[9]針對車聯網和無人機自組網的網絡特性,從不同的優化目標出發,對其使用的MAC協議進行了分析和歸納。張珉等人[10]介紹了無人機自組網中路由領域的一些最新研究,重點介紹了最新的PSOR,并且將該協議和其他大類的典型路由協議共同對比,分析了性能表現。上述文獻對非人工智能化FANET路由協議進行了描述,但對基于人工智能的路由協議,特別是利用強化學習優化FANET路由協議的研究還沒有深入討論。
Rovira等人[11]除了討論UAV網絡的移動性和網絡模型、仿真工具和公共數據集以及與UAV群集的關系,還對UAV網絡路由協議進行了介紹,包括傳統改進型路由協議、人工智能路由協議和自適應路由協議等,對這些路由協議進行了參數的比較。但沒有較全面深入地檢視基于強化學習的路由算法這一重要的FANET路由協議研究思路,缺乏對其具體研究思路的分類,也沒有對其狀態、動作以及獎勵的設計情況等進行詳細描述和分析。Rezwan等人[12] 較全面地調查并比較了強化學習在FANET下的多種應用,如路由協議、飛行軌跡選擇、中繼和充電,但對基于強化學習的路由協議研究并沒有進行全面地回顧和深入地討論。
為了更進一步地介紹和挖掘基于強化學習的FANET路由協議研究現狀和研究趨勢,本文首先將介紹在FANET傳統路由協議上近幾年來的一些改進,包括通過改變路由選擇判斷依據,從而選擇出更穩定、更有效的路由進行數據傳輸;其次,就基于強化學習的FANET路由協議研究的最新調研結果進行介紹,包括深度強化學習對路由協議的改進以及利用模糊邏輯進行預處理;同時更全面深入地對基于強化學習的路由協議研究中狀態、動作和獎勵的建模規律進行挖掘和分析;最后,對上述綜述文獻路由協議部分的研究進行補充和延伸探討。
1 無人機自組網中傳統路由協議優化的進展
無人機自組織網絡中的路由協議為網絡在動態網絡環境中進行數據分組傳輸提供可靠保證。傳統的無人機自組網路由協議主要包括主動式路由、反應式路由、混合路由以及基于地理位置的路由協議。目前,已經有很多國內外的學者在FANET的傳統路由協議的基礎上,不斷提出改進。下面將介紹無人機自組網的傳統路由以及改進的路由協議,具體分類如圖2所示。
1.1 主動式路由
主動路由協議又稱做表驅動路由協議[13],最大的特點就是每個節點都需要定期更新和共享路由表。最優鏈路狀態路由協議[14](optimized link state routing,OLSR)是一種基于鏈路狀態的經典主動式路由協議。近幾年來通過改進FANET的主動式路由解決路由擁塞、MPR集合選擇以及路由開銷等問題的路由協議有鏈路感知路由OLSR-LA [15] 、多維感知和能量意識路由MPEAOLSR [16] 、修改了尋路機制的ODR-OLSR [17] 路由、基于鏈路質量的LCO-OLSR [15] 路由協議。目的節點序列距離矢量協議(destination sequenced distance vector routing,DSDV)[18]是基于經典Bellman-Ford[19]算法基礎之上的一種“表驅式”主動式路由協議。
1.2 反應式路由
反應式路由協議又稱做按需式路由,在源節點需要時才開始路由發現,并不事先生成路由[20]。搜尋路由包括路由發現、路由維護、路由選擇和路由回應[13]四個過程。Ad hoc按需距離矢量路由(Ad hoc on-demand distance vector routing,AODV)是一種自組網中被廣泛使用的按需路由協議[21]。該路由認為在路由協議中路由跳數最為重要。動態源路由(dynamic source routing,DSR)協議也是按需路由協議的一種,它采用源路由機制[27]。不少學者通過使用路由開銷、通信成功率、平均鄰居節點個數以及剩余能量等路由參數代替傳統路由協議的選擇標準,以下是反應式路由協議的一些重要實現:重新設置了路由發現機制的I_AODV[22]路由、基于節點差異的路由協議ND-AOMDV[23]、基于負載均衡的LD-AODV[24]路由、平面多徑路由協議FMR[25]路由、能量均衡多路徑的EEMP-AODV[26]路由以及基于蟻群算法的AC-DSR[28]路由。
1.3 混合式路由
混合式路由是由主動式路由和反應式路由結合而成的路由。區域路由協議 [29] (zone routing protocol,ZRP)是典型的混合型路由協議,ZRP在小尺度區域內使用主動式路由,在大尺度范圍使用反應式路由。解決混合式路由最關鍵的問題就是區域的鉤爪,為避免分區的重疊,沈亮光等人[30]提出基于ZRP的速度自適應AV-ZRP路由協議,使節點速度為動態可調節變量,提出了網絡周期自適應機制和區域半徑自適應機制,使網絡針對拓撲結構變化具有更強的自適應性。
1.4 基于地理位置的路由
基于地理位置的路由協議是FANET路由協議中的另一大類。周邊無狀態貪婪轉發路由協議(greedy perimeter stateless routing,GPSR)是一種應用在無線網絡方面的路由協議[31]。
為FANET提出的基于位置的路由算法的一些重要實現包括:解決時延問題的GPSR-RLP[32]路由、針對GPSR路由協議中鄰居節點位置信息不準確以及數據轉發效率低下的問題提出的基于鄰節點的GPSR-NS[33]路由,為FANET提供低延遲、低能量的路由支持提出了基于粒子群優化貪婪轉發和有限泛洪的扇形網自組織PSO-GLFR[34]路由等。
2 基于強化學習的路由選擇研究現狀
強化學習(reinforcment learning,RL)是一個重要的機器學習研究方向,它既不同于有監督學習,也不同于無監督學習。Bellman [35] 在探索最優控制問題的過程中,提出了最優控制的離散版本,即著名的馬爾可夫決策過程(Markov decision processes,MDP),這一決策過程之后被廣泛地用于強化學習問題的定義中。Deepmind團隊[36]提出了深度神經網絡(deep Q network,DQN),其在傳統的Q學習算法中引入了卷積神經網絡(convolution neural network,CNN)用于提取特征并擬合價值函數。
由于FANET中的節點快速移動導致的頻繁拓撲變化、網絡可能出現“空洞”等問題,傳統路由算法在路由選擇時標準過于單一,沒有完全考慮整個網絡的其他性能參數,且在節點發生劇烈運動時,無法捕捉該變化,容易造成鏈路斷裂,傳統路由算法已經很難直接應用于高動態的場景中。隨著人工智能的發展,越來越多的學者使用強化學習來解決網絡拓撲變化頻繁的問題,自學習選擇更新路由。近幾年來,不少學者也提出了很多基于強化學習的路由選擇優化方法,其中包括直接利用Q-learning對傳統路由選擇進行優化和基于深度Q學習(DQL)來解決路由選擇的優化問題,也有基于模糊邏輯預處理之后再使用強化學習來解決路由優化問題,下面將具體介紹近幾年來利用強化學習對FANET路由協議進行改進所取得的一些進展。
2.1 基于Q-learning路由選擇算法
Q-learning是一種智能體在馬爾可夫域中選取并執行最優動作的強化學習算法。智能體作為動作的發起者,通過與環境的交互完成學習過程,并累計該過程中環境的反饋獎勵值為下次處于相同狀態時提供決策依據。無人機飛行的過程具有馬爾可夫性,系統的下個狀態只與當前狀態信息有關,而與更早之前的狀態無關。MDP考慮動作對系統的影響,即系統下個狀態不僅和當前的狀態有關,也和當前采取的動作有關。MDP過程可以用三元組〈S,A,R〉表示,其中state表示agent的有限狀態集,action表示agent可用的動作集,reward表示環境的獎勵值。馬爾可夫決策過程如圖3所示。
Q- learning的目標是學習一個最優策略Π,agent在狀態S下執行動作A,即Π(s)=A。agent從狀態St開始執行動作At及采取后續到達最終目標的策略Π,期間所有累積的獎勵值為
其中:Rt是指agent從狀態St轉到狀態St+1時的獎賞值;λ是回報因子,0≤λ≤1是由用戶預先定義的。λ越接近0,回報就變得越“短視”,也就是說,回報更看重眼前的回報,而不是未來的回報。強化學習的目標和目的可以被認為是接收到的標量信號(獎勵)的累積總和的期望值的最大化。式(1)則表示了這個期望收益。
agent的目標是尋找最優策略,若有最優策略Π*,則總存在一個策略優于其他策略,可表示為R*(s)≥Rπi(s),πi∈π。
其中:R*(st)表示最優狀態值函數,即在狀態St下能夠獲得最高的獎勵。
π(st)=maxA[R(st,A)+λR*(st+1,A′)](3)
式(3)表示最優狀態—動作值函數,即在狀態St下取得動作A值能夠獲得最高的獎勵。
Q-learning的目標是R(st,A)+λR*(st+1,A′),則定義一個Q函數:
其中:Q值表示在狀態St執行動作A時評估函數;α反映學習效率。將式(4)代入式(3)可得最優策略;式(5)表示最優策略函數,在狀態St下取得能夠獲得最高獎勵的A值,這是一種貪婪策略。由此,根據上述所有公式可求得無人機路由的最優策略。
由式(1)和(4)可得Q評估函數:
式(6)是離線Q學習的更新公式,其中α∈(0,1)是學習率,表示新信息學習的程度。如果α值越接近于0,學習過程就會非常緩慢,而α值越接近于1會導致快速學習。為了更好地學習,最初的學習率應該接近于1,隨著時間的推移學習率應該逐漸下降。當動作A在狀態St中執行時,會導致St+1的出現。
在利用Q-learning對FANET路由協議進行優化的時候,已有研究考慮了兩種優化思路:a)利用Q-learning優化路由協議參數,即在傳統路由協議應用的基礎上通過強化學習優化其中的某些參數,以更好地適用FANET的路由選擇需求;b)利用Q-learning直接選擇路由,即把路由選擇過程描述為一個馬爾可夫決策過程,通過當前網絡狀態選擇下一跳路由,再通過反饋優化選擇算法。下面將分別介紹這兩種對路由協議優化的相關研究。
2.1.1 基于Q-learning優化傳統路由協議參數的方法
在利用Q-learning優化路由協議時,會采取優化路由選擇過程中所用到的一些參數,如利用Q-learning對傳統的OLSR路由協議中MPR的選擇上進行優化,而不是在選擇整條路徑上利用該方法進行優化。下面將介紹關于近幾年來不少學者在這方面所提出的一些進展。
姚玉坤等人[37]在OLSR路由協議基礎上提出了一種動態感知優化鏈路路由協議DSQ-OLSR,在選取中繼節點MPR時添加了鏈路穩定性和鏈路存在時間這兩個指標,使得選出的中繼節點集合更加穩定;將TC消息的自適應發送過程描述為一個馬爾可夫過程,用MPR集合的變化率和節點MAC層的緩存占用率作為兩個狀態參量,采用TC消息發送周期的自適應調整的策略,將MPR集合變化率、節點負載能力和鏈路穩定性三個參量的結合作為價值函數,從而實現對TC消息的發送間隔進行自適應的調整。該協議在端到端時延、吞吐量、成功率和網絡生存時間性能上都提高了不少,但在HELLO消息中添加了節點的速度信息,可能會導致網絡開銷有一定的增加。
謝勇盛等人[38]在傳統的OLSR路由協議上提出了自適應鏈路狀態路由優化算法QLA-OLSR。該算法將HELLO時隙調整問題描述為一個MDP過程,由鄰居節點變化程度、隊列中待發送的數據包個數和當前節點的HELLO時隙長度組成了三個狀態變量,動作為根據環境和鄰居節點的拓撲變化來更改HELLO消息發送時隙,獎勵考慮了周圍鄰居節點的變化數量以及路徑的負載能力,并采用Kanerva編碼的函數逼近策略,減少了訓練所需的狀態空間,從而求解出最優的HELLO間隙時長;提高了節點鏈路發現與維護能力,有效提升了網絡吞吐量,減少了路由的維護開銷;但并沒有考慮到網絡節點的端到端時延。
2.1.2 基于Q-learning直接選擇路由的算法
在利用Q-learning優化路由選擇的過程中,就是把路由選擇過程描述為一個馬爾可夫決策過程,節點通過當前網絡狀態選擇下一跳路由,直到到達目的節點,再通過反饋優化選擇算法。下面將介紹近幾年來這一方面的研究。
Jung等人[39]提出一種基于Q-learning的無人機網絡地理(geographic)路由協議QGeo,該協議由位置估計、鄰居表和Q學習三個模塊組成。位置估計通過定位系統更新節點位置信息;鄰居表管理著鄰居的位置、鏈路信息;Q學習是路由決策的關鍵部分,采用強化學習算法將每個移動節點定義為表示狀態集中的一個離散節點狀態,考慮了數據包傳輸速度和鄰居節點的距離作為回報函數值,折扣因子根據距離來選擇,最后選擇Q值最高的節點作為下一跳。對比傳統的OLSR路由協議,在端到端時延和網絡開銷的性能上有了明顯改善,但對于其他網絡性能的參數并沒有過多考慮。
Colonnese等人[40]提出了一種基于Q學習的無人機飛行規劃Q-SQUARE算法,該算法將無人機路徑規劃建模為馬爾可夫決策過程,首先使用spatial聚類算法進行分簇,狀態對應由簇重心、飛行時間和無人機剩余能量所組成的三元組,獎勵由時延來決定,動作為選擇下一跳節點,最終選擇出一條能保證傳輸質量的路由進行傳輸,保障在無人機網絡中傳輸視頻的質量。
Khan等人[41]提出了一種基于強化學習的Q路由模型,該模型的狀態表示為潛在下一跳鄰居UAV的剩余能量和移動性,其動作為選擇的下一跳鄰居UAV,獎勵設定為成功地將數據包傳輸到目的地UAV;剩余能量由總能量減去傳輸和接收過程中消耗的能量,與數據包大小和節點之間的距離相關;利用強化學習考慮5G網絡中剩余能量和穩定性較高的無人機來確定最優路由,延長了網絡壽命,減少了網絡能耗和斷鏈數量;但是只用了節點密度來調整學習率,希望能與其他路由自學習算法做對比實驗。
劉芬等人[42]在路徑尋找過程中,將最小的時延作為反饋信息沿對應路徑原路返回到源節點,從而計算到達目的節點的總時延,時延越短,路徑越優,通過強化學習將無人機節點的端到端時延融入到Q函數更新中,選擇出下一跳節點;再根據時延的估計值,即Q值評估當前路徑設置增加或減少路徑的壽命;為了應對擁塞問題,引入了由丟包率、平均時延和丟包后等待重傳的時間所組成的目標函數,該函數反映了網絡當前狀態的趨勢,改進后的路由協議優化了網絡性能,提高了路由的穩定性,降低了路由的控制開銷;建議對于Q學習算法的設定值可以進一步提高,如獎勵值的設定不只是1或0。
Liu等人[43]提出了一種基于Q-learning的多目標優化路由協議QMR(Q-learning multi objective routing),QMR使用全球定位系統(GPS)收集其鄰居節點的地理位置,并發送HELLO數據包以啟動路由發現過程,每個數據包包含節點的地理位置、能量、移動性模型、排隊延遲和折扣因子和Q值;此外,鄰居表還包括學習速率和MAC延遲;發起路由后,QMR將每個節點都作為一個狀態,提出了一種自適應調整Q-learning參數的方法,根據相鄰時間區間內鄰居的移動性自適應調整折扣因子,單跳延遲自適應調整學習率,利用端到端延遲和能量消耗作為獎勵函數,貪婪地選擇最高Q值的鄰居節點作為下一跳節點,從而選出了一條低時延和低能耗的路由,大大提高了路由的生存壽命;但并未考慮整個網絡的穩定性能,如果節點丟失,可能無法建立通信,可以選擇備選路徑或避免空洞機制等來解決這一問題。
Da Costa等人[44]提出了一種基于改進的Q-learning算法的路由方案,稱為Q-FANET,以應對高移動性場景中的網絡延遲問題。Q-FANET是由兩種不同路由協議中使用的主要技術和元素結合在一起,QMR[43]和Q-Noise+[45];Q-Noise+算法考慮了信道占用的歷史數據和SINR水平來評估信道質量。Q-FANET利用QMR發現鄰居的能力,即通過定期發送HELLO數據包不斷建立和更新鄰居節點表,簡化了QMR的獎勵函數;利用Q-Noise+評估信道條件和無人機飛行速度結合起來去更新學習率;通過考慮有限數量的最后一集的加權報酬和鏈路的SINR水平,更精確地更新Q值。最后根據節點間距離設置獎勵值,來選擇合適的下一跳節點,最終選擇出一條更低時延的路由進行數據傳輸,以在高動態FANET中獲得更好的服務質量;但使用中繼節點來平衡勘探與開發,缺少隨機性,且沒有考慮到計算Q值所帶來的網絡開銷問題。
Qiu等人[46]為了解決基于地理位置的路由算法可能“掉入”路由空洞問題,提出了一種基于多智能體強化學習的地理QLGR-S路由協議。該協議將每個節點視為一個智能體,并通過本地信息評估其鄰居節點的價值,在價值函數中,節點考慮鏈路質量、剩余能量和隊列長度等信息,從而減少路由空洞的可能性;使用全局獎勵,使各個節點能夠協作傳輸數據;此外,該方法根據鄰居節點的變化程度和緩沖隊列中的數據包數量來自適應地調整HELLO數據包的廣播周期,從而在保持鏈路質量的同時最小化維護開銷優化;但沒有考慮網絡拓撲問題,忽略了路由過程中節點能量消耗不平衡問題,對網絡壽命有一定的影響。
Rovira-Sugranes等人[47]提出了一種具有自適應學習率的全回聲Q路由算法,該算法以源節點發送數據到達目的節點的時間來更新Q值,選擇最小Q值來確定下一跳節點,大大地減少了能量消耗。并利用模擬退火(SA)優化通過溫度下降率來控制算法的學習速率,有效地應對網絡拓撲的劇烈變化,對無人機應用有一定的參考價值;建議考慮更多的網絡性能參數。同樣地,Shilova等人[48]也提出了自適應Q路由算法,該算法是以發送節點選擇具有最小Q值(即最短時間)的鄰居進行數據傳輸,但不同的是,該算法是根據估計節點的平均交付時間來動態地改變每個節點的學習速率,能很好地利用Q學習適應網絡拓撲變化,由于平均交付時間的減少,網絡中的路由可能變得還有效,實現了良好的路由性能;但對于網絡參數的考慮還是過于片面。
Chen等人[49]在傳統的GPSR路由協議基礎上,提出了一種無人機自組織網絡流量感知的路由協議TQNGPSR。該協議利用鄰居的擁塞信息來實施流量均衡策略,通過隊列長度得到排隊等待的時延來確定Q值;該Q值是對每條無線鏈路的評估,在多個可用選擇中作出路由決策,以減少延遲和丟包。在仿真實驗中,對比了傳統的OLSR、AODV、GPSR等路由協議,具有一定的全面性,但對于網絡能量消耗、拓撲變化頻繁等問題還尚未考慮到。
Lyu等人[50]提出了一種基于地理位置的Q-network路由協議QNGPSR,該協議由鄰居表、數據包訪問列表和Q-network組成。鄰居表用于存儲節點鄰居的位置、上次更新時間和鄰居拓撲信息;數據包訪問列表用于保存已將數據包轉發到當前節點的鄰居的地址;QNGPSR中使用的Q-network使用手動設計的特征,包括將前一跳、當前節點和目標節點的位置視為一個狀態,將下一跳位置及其鄰居拓撲信息視為一個動作;Q-network有兩個隱藏層,并使用SELU[51]作為激活函數,將上述特征和預測的最大Q值結合到訓練樣本中,然后進行梯度下降;最后使用softmax策略在多個可用路徑中進行下一跳選擇;該協議在高節點密度和高移動性環境下,減少了端到端延遲并提高了數據包交付率;建議優化特征提取,并多考慮鏈路狀態參數來提高網絡性能。
以上提到了不少關于利用Q-learning對FANET路由進行優化,使用馬爾可夫過程進行路由決策。本文將對上述所提到文獻進行比較和分析所使用的參數以及狀態、動作和回報函數等,分析文獻的優點和缺點,在保證優點的同時可以改進存在的問題,如表1所示。大多數學者會把每個節點作為一個狀態,其動作為選擇下一跳節點,從而構建一條可行的路徑進行傳輸,但在選擇下一跳節點時,學者所利用的參數各有不同,如有的學者利用端到端時延來作為選擇路由的依據,但有的學者認為包到達率是路徑保障的基礎等。
2.2 基于深度Q學習的路由選擇算法
將路由選擇描述為一個馬爾可夫決策過程時,其動作和狀態空間都比較大,上面所提到的Q-learning算法在處理這么大的狀態空間和動作的時候,可能會出現更新速度慢和預見能力不強的情況,特別是Q-learning算法會導致一個最大化偏差問題,可能無法實現最優策略;因此,不少學者提出利用深度Q學習(DQL)來解決路由選擇優化問題。
深度Q學習是典型的DRL模型,該模型應用深度神經網絡作為Q函數的近似值[52],如圖4所示。DQN學習的目標是從歷史數據中訓練和找到最可行的權重因子,包括歷史Q值、動作和狀態轉換;對于以多層感知器作為底層神經網絡的DQN,計算Q值和動作的復雜性是線性的;與RL相比,DRL顯著降低了模型復雜度。DQN算法包含兩個神經網絡,即估計值網絡和目標值網絡[53]。
DQN學習的目標是保證估計值網絡輸出的估計Q值和目標值網絡輸出的目標Q值越相近越好,該過程可以通過損失函數表示為
其中:Q(St,At;θ)是當前狀態的估計Q值;θ是神經網絡的參數;Qtarget是目標Q值。DQN利用值函數近似的方法,通過計算Qtarget與帶參數的評估Q值(DQN)之間的均方誤差,然后計算誤差對參數θ的梯度從而減少誤差,不斷更新θ值使之接近Qtarget。則Qtarget可表示為
當St+1=Sfinal時,Qtarget=R。
式(8)表示了Qtarget的計算方法,R表示當前狀態下的獎勵;該式采用貪婪策略,在取得當前狀態下的獎勵后,環境給了新的狀態St+1,DQN通過學習能夠取得在St+1狀態下最大化累積折扣獎勵的Q值。
孫鵬浩等人[54]提出了一種基于深度增強學習的智能路由技術SmartPath,通過控制器動態收集網絡狀態信息,在控制器上運行智能路由應用生成動態路由策略跟蹤網絡流量分布,從而達到動態智能路由效果。SmartPath中以循環神經網絡(recurrent neural network,RNN)作為DRL[55]網絡的神經網絡,典型的RNN基本結構如圖5所示,其中網絡主要分為輸入層、輸出層和隱藏層三部分。采用GRN作為RNN的具體實現方案,其中GRN的輸出層連接到兩層前饋神經網絡,經過再次計算后得到最終輸出結果。實驗證明,SmartPath能夠不依賴人工流量分析動態更新網絡路由,在測試環境下對比其他路由減少了端到端時延,證實了使用深度強化學習與網絡控制相結合的技術發展潛力;但由于深度強化學習算法的訓練成本高、不確定性等問題也會隨之出現,建議通過某種算法對數據進行預處理,從而降低訓練成本。
Koushik等人[56]提出了一種基于深度Q學習的無人機集群網絡算法來確定兩個無人機節點之間的最優鏈路,然后使用優化算法局部微調無人機節點的位置,以優化整體網絡性能;狀態是由信噪比、誤碼率和丟包率組成的多維空間,獎勵設置為信噪比的最大優化;將當前狀態、下一個狀態、動作以及因該動作而產生的獎勵都作為CNN的特征向量存儲在重播內存中,重播內存存儲了N個過去的經驗。在每次迭代中,從N批中選擇M批來訓練CNN模塊,通過CNN的方法實現了無人機網絡的吞吐量優化;同時,確保了以完全分布式的方式實現長期通信覆蓋,也降低了網絡開銷;希望以后能考慮更多的網絡性能參數。
Liu等人[57]提出了基于深度強化學習的無人機網絡自適應可靠路由協議ARdeep,每個節點利用DRL基于本地環境信息分布式地作出最優轉發決策;使用由鄰居和目的地之間的距離、鄰居的剩余能量、分組錯誤率(PER)和鏈路的預期連接時間組成的向量來描述鏈路狀態S,獎勵函數由節點間距離和包到達率為標準。把與鄰居相關的鏈路狀態表示作為DQN的輸入,鄰居的Q值作為DQN的輸出,通過DQN選擇動作來確定下一跳節點;為網絡提供了更好的路由轉發決策,但對于劇烈變化的網絡拓撲結構還不能友好地應對,可以參考QMR文獻。
利用DQN優化路由選擇可以分為兩種方法:a)通過DQN學習整體網絡狀態,擬合網絡鏈路參數,并嘗試預測下一時刻鏈路狀態;b)利用DQN學習路徑選擇,通過擬合路徑選擇的價值,從而幫助判斷下一跳節點的選擇,最終構建整條路徑。下面將闡述基于DQN優化路由選擇的文獻,并對文獻的設定值進行對比以及對優缺點進行分析,如表2所示。
2.3 結合模糊邏輯的強化學習路由選擇算法
上文利用深度Q學習來解決Q-learning算法中狀態和空間較大的問題,但也有不少學者提出利用模糊邏輯預處理節點消息,更加有效地選擇出所需節點,這樣大大地降低了節點的相關狀態和空間。模糊邏輯于1993年由Zadeh[58]引入,模糊邏輯是用嚴格的數學符號來表達人類的推理。它是一種多值邏輯,允許在傳統評估之間定義中間值,如真/假、是/否、高/低、小/大、短/長等。通常,基于模糊邏輯的系統包括輸入、處理和輸出三個步驟。
在數據輸入部分,通過模糊語言生成器將輸入數據轉換為模糊語言,例如傳輸時延的隸屬函數,如圖6所示。
在模糊語言處理部分,模糊翻譯器將輸入數據轉換為IF-THEN規則設置的語言,制定模糊規則。例如,當時延低、穩定性高時,該節點或鏈路的質量是完美的;當時延低、穩定性為中等時,則表達該鏈路一般;這些模糊規則可由自己設定。
在去模糊化過程中,解模糊處理器將語言集更改并輸出最終數值,常見的有重心法。重心法的主要理論是將輸出隸屬函數曲線和橫坐標所包圍區域的重心作為模糊控制的最終輸出值。
Al-Kiyumi等人[59]提出了一種新的基于分布式能量感知代價函數的路由算法DEFL(distributed energy-aware cost function based routing algorithm that uses fuzzy logic),該算法使用模糊邏輯方法在動態網絡條件下提高網絡壽命。算法在其獎勵函數中包含能量消耗率和節點剩余能量度量。首先使用兩個模糊邏輯系統來映射度量的清晰值,然后使用最短路徑法Bellman Ford算法來確定從任何節點到接收節點的最小成本路由。
He等人[60]為了解決FANET跳數高和鏈路連通性低的問題,提出了一種基于模糊邏輯強化學習的路由算法。模糊控制系統包括數據輸入、模糊語言處理和輸出結果三個部分。將節點間的延遲度量、穩定性等級和寬帶效率因子進行模糊化,選擇IF/THEN規則作為模糊規則,最后進行去模糊輸出該節點的鄰居節點評估值,選出最佳中繼節點來進行數據傳輸;但由于模糊邏輯系統確定的中繼節點所構成的路徑可能并不是跳數最少的路徑,所以通過強化學習不斷地訓練以減少由模糊邏輯確定路徑的平均跳數。與蟻群算法優化相比,該算法在鏈路成功率和平均跳數方面都有顯著的改進。
趙蓓英等人[61]基于按需多徑距離矢量路由協議(Ad hoc on-demand multipath distance vector,AOMDV),提出一種基于信任的按需多徑距離矢量路由協議TAOMDV,建立了節點信任度評估模型,引入數據包轉發率、可信交互度、探測包接收率作為信任評估因子,根據信任評估因子不同的模糊隸屬等級,合理計算節點間的直接信任度;在路由發現與維護過程中考慮節點信任度,建立可信路由路徑,保障通信安全;但這只考慮了數據傳輸的安全性,并沒有考慮到數據傳輸的時延和到達率等問題。
Jiang等人[62]提出了一種基于Q學習的自適應無人機(UAV)輔助地理路由QAGR,路由方案分為兩個部分:a)在空中組件中,利用無人機收集的全球道路交通等信息,通過模糊邏輯和深度優先搜索算法計算出全局路由路徑,然后轉發給地面的請求車輛;b)在地面組件中,車輛保持一個固定大小的Q表,通過設計良好的獎勵函數收斂,查找根據全局路由路徑過濾的Q表,將路由請求轉發給最優節點。QAGR在分組傳送和端到端延遲方面的性能優于傳統AODV和GPSR等路由方法,可以考慮優化更多網絡性能參數。
Yang等人[63]提出了一種在扇形網中結合模糊邏輯和強化學習算法的路由算法,模糊系統用于推導兩個無人機節點之間的可靠鏈接,Q學習通過在路徑上提供獎勵來支持模糊系統。首先用鏈路相關參數傳輸速率、能量狀態和節點的飛行方向與相鄰節點的飛行方向的相似性三個參數輸入模糊系統中找到目的節點;再由目的節點返回跳數和成功數據包交付時間所組成的Q值后,并將以上所有參數輸入到模糊系統中;最終求出最優路徑。該方法可以保持低跳數和低能耗,延長網絡壽命。在仿真實驗中,與傳統的模糊邏輯和基于Q值的AODV路由協議進行了比較,具有一定的價值,但建議可以多比較一些網絡性能參數,如時延以及吞吐量等。
在基于模糊邏輯的路由算法中,每個節點通過交換HELLO消息來評估其鏈路相關參數,如丟包率、剩余能量和飛行狀態等。表3對上述文獻中模糊邏輯算法的輸入和輸出值進行了比較和分析。當節點必須發送分組時,該節點使用模糊邏輯基于這些鏈路參數來計算每個鄰居的中繼適合程度,從而選出最合適和鄰居節點進行轉發,大大地降低了可選鄰居節點的個數。
2.4 實驗性能比較
實驗性能直接表達了文獻的價值,評判一個文獻的好壞無疑是它比別人改進了多少,改進了哪里。表4列出了部分參考文獻所提出的路由協議與其他路由協議的實驗性能比較結果。為了更具說服力,對照實驗包括對照組路由協議以及變量,不同的對照組協議,其實驗結果可能會不同;同一對照組協議,變量不同,其實驗結果也可能有所不同,因此,表中包含了參考文獻的對照組以及所對應的變量。在進行對比實驗時,突出該文獻比對照組文獻改進的地方是至關重要的,在網絡性能參數上有所提升是最有權威性的,所以,表中展示了實驗結果,包括時延、吞吐量、網絡開銷、網絡生存時間和PDR等網絡性能參數。有的參考文獻并沒有與其他路由協議進行實驗對比,又或者是文獻側重于在傳輸過程中視頻或圖片的質量問題,這一類文獻與文中所提到大多數文獻并不是一個評定標準,所以并沒有展示所有參考文獻的性能對比。
表4中有基于Q-learning的路由協議與傳統路由協議的比較,也有利用Q-learning的路由之間性能的比較。總的來說,絕大多數的路由實驗性能都是基于傳統路由協議來作為基底進行比較,兩者都利用了強化學習進行改進的路由協議之間的比較還是較少,可能原因是訓練成本高,且實驗具體設置不夠明了。但在這些文獻中可以看出,所有作者更加看重在網絡數據傳輸過程中時延以及吞吐量的問題,大部分人會關注網絡開銷和PDR這兩個網絡性能參數,極少人會關注到網絡生存時間這個問題。由此可知,優秀的端到端時延、吞吐量、網絡開銷和PDR等參數都是網絡路由性能的重要評價指標,在未來設計良好的路由協議時都應該考慮到這些參數。
3 存在問題和未來展望
3.1 存在問題分析
上述文獻都針對傳統路由協議提出了不同的技術,對FANET是一種好的發展。
有的學者提出基于強化學習的路由協議,但強化學習算法自身所帶來的問題值得被考慮,文章中所提到的路由算法對狀態的定義都有所不同,但肯定的是,其狀態空間維度都很高,隨著無人機節點數量的增加,其狀態數量也增加。強化學習算法將難以收斂,無法確定最佳狀態,也會增加消耗的功率。有的學者通過改變路由選擇判斷依據,從而選擇出更穩定、更有效的路由進行數據傳輸;但只用兩個甚至是一個參數來代替原有路由選擇所使用的參數標準,如用時延來代替跳數進行路由選擇,并沒有全面考慮其他的一些網絡性能指標。網絡性能指標有很多,例如吞吐量、端到端時延、網絡的穩定性、剩余能量、網絡安全等,可能在對路由協議進行改進時,并不能做到周全,總會犧牲一方面去成全另一方面。所以上述文獻對路由協議的改進并不能解決FANET自身所面臨的所有問題。因此,迫切需要提出新的路由協議,以便在特定情況下部署適當的技術。
3.2 未來研究方向展望
未來對無人機自組網的研究, 主要目的還是提高無人機自組網的有效性和可靠性,在針對不同的場景下,提出有效的路由協議,使其能夠更廣泛地應用于軍事和民用領域。
3.2.1 移動自組織網(MANET)路由
本文提到FANET是MANET在無人機領域的擴展應用,那么,針對MANET所提出的路由協議是否適用于FANET中。例如,文獻[64]針對路由規劃、路由選擇等問題,提出了可用于智能天線TDMA自組網系統的主動式路由技術,設計了一種廣義的路徑長度度量準則,使得每個節點有著較高的鄰居選取率,提高網絡抗毀性和魯棒性[64];據分析,該文中所提出的路徑長度度量準則也能適用于FANET中。可以大膽猜測,某些針對MANET所提出的路由改進協議也能適用于FANET中。在未來對FANET路由協議的研究上,可以對現有的MANET路由改進協議對其研究和分析,嘗試將其運用到FANET上,應該會取得不錯的效果。
3.2.2 強化學習的策略改進
強化學習是機器學習領域中重要的研究分支之一,目前強化學習已經取得不錯的成果,但該算法也存在著收斂慢、魯棒性差、只適用于低維度等問題;深度強化學習能解決其高維度問題,但其他的問題還尚未解決。文獻[65]提出通過進化算法引導策略搜索的強化學習[65],彌補了強化學習的一些缺陷。但用進化算法與深度強化學習結合的方法還較少,將進化計算領域與深度強化學習領域中最新的研究成果應用于結合進化算法的強化學習方法中還有較大的空間可以發掘。未來將對強化學習算法進行價值過程或策略進一步的改進,使其更好地運用于路由選擇規劃上。
3.2.3 強化學習與啟發式算法的結合
本文提到強化學習與模糊邏輯結合的方法,是否有其他算法可以和強化學習相結合獲得更佳的效果。文獻[66]將強化學習結合博弈論方法,有效地降低了CUE的干擾。也可以利用K-means聚類算法、粒子群算法、蟻群算法以及模擬退火法等結合強化學習對其狀態空間進行降維處理,使強化學習更好地收斂。利用強化學習結合于路由協議中,使路由協議能夠應對網絡的高移動性和稀疏性,能夠預測網絡節點的未來位置和鏈路損耗,保障無人機之間的有效傳輸。
4 結束語
無人機間的路由通信問題是設計網絡時必須考慮的問題,也是極具挑戰性的一個問題。基于自組織網絡技術的飛行自組網可有效解決無人機間的通信問題,但由于UAV節點的高動態性、拓撲結構快速變化等特點,給無人機自組網的路由協議提出了更多挑戰。將強化學習應用于FANET的路由協議上,更好地應對UAV節點間的問題,選擇出一條時延短、包到達率高以及穩定可靠的路徑來進行數據傳輸,為FANET更好地應用于實際中開拓新的方向。
參考文獻:
[1]Morgenthaler S, Braun T, Zhao Z, et al. UAVNet: a mobile wireless mesh network using unmanned aerial vehicles[C]//Proc of IEEE Globecom Workshops. Piscataway,NJ: IEEE Press, 2012:1603-1608.
[2]Liu Jia, Ren Fengyuan, Miao Limin, et al. A-ADHOC: an adaptive real-time distributed MAC protocol for vehicular Ad hoc networks[J]. Mobile Networks amp; Applications, 2011(16): 576-585.
[3]黃靜, 張皓琳. 無人機動力技術發展現狀與展望[J]. 信息技術與信息化, 2019(12): 202-204. (Huang Jing, Zhang Haolin. UAV power technology development status and outlook[J]. Information Technology and Informatization, 2019(12): 202-204.)
[4]朱軍. 移動Ad hoc網絡路由協議研究綜述[J]. 信息通信, 2018(11): 218-220. (Zhu Jun. A research on routing protocols in mobile Ad hoc networks[J]. Information Communication, 2018(11): 218-220.)
[5]Gupta L, Jain R, Vaszkun G. Survey of important issues in UAV communication networks[J]. IEEE Communications Surveys amp; Tutorials, 2016,18(2): 1123-1152.
[6]Maxa J, Mahmoud M S B, Larrieu N. Survey on UAANET routing protocols and network security challenges[J]. Ad hoc amp; Sensor Wireless Networks, 2017,37(1-4):231-320.
[7]Oubbati O S, Atiquzzaman M, Lorenz P, et al. Routing in flying Ad hoc networks: survey, constraints, and future challenge perspectives[J]. IEEE Access, 2019,7: 81057-81105.
[8]Arafat M Y, Moh S. Routing protocols for unmanned aerial vehicle networks: a survey[J]. IEEE Access, 2019,7(1): 99694-99720.
[9]董超, 陶婷, 馮斯夢, 等. 面向無人機自組網和車聯網的媒體接入控制協議研究綜述[J]. 電子與信息學報, 2022,44(3): 790-802. (Dong Chao, Tao Ting, Feng Simeng, et al. Overview medium access control protocol in flying Ad hoc networks and vehicular Ad hoc networks[J]. Journal of Electronics of Information Technology, 2022, 44(3):790-802.)
[10]張珉, 董超, 楊朋, 等. 無人機自組網路由協議研究綜述[J]. 數據采集與處理, 2022,37(5):952-970. (Zhang Min, Dong Chao, Yang Peng, et al. Overview on routing protocols for flying Ad hoc networks[J]. Data Acquisition and Processing, 2022,37(5): 952-970.)
[11]Rovira S A, Razi A, Afghah F, et al. A review of AI-enabled routing protocols for UAV networks: trends, challenges, and future outlook[J]. Ad hoc Networks, 2022,130:102790.
[12]Rezwan S, Choi W. A survey on applications of reinforcement lear-ning in flying Ad hoc networks[J]. Electronics (Basel), 2021,10(4):449-467.
[13]呂文紅, 屈衍璽, 徐鋒, 等. 車載自組織網絡中AODV協議研究進展[J]. 山東科技大學學報: 自然科學版, 2021,40(3): 105-115. (Lyu Wenhong, Qu Yanxi, Xu Feng, et al. Research progress of AODV protocol in vehicular Ad hoc networks[J]. Journal of Shandong University of Science and Technology: Natural Science, 2021,40(3): 105-115.)
[14]Jacquet P, Muhlethaler P, Clausen T, et al. Optimized link state routing protocol for Ad hoc networks[C]//Proc of IEEE International Multi Topic Conference. Piscataway,NJ: IEEE Press, 2001: 62-68.
[15]馬林華, 張嵩, 茹樂, 等. 航空高動態網絡鏈路感知OLSR路由算法[J]. 北京航空航天大學學報, 2016,42(7): 1326-1334. (Ma Linhua, Zhang Song, Ru Le, et al. Link awareness-based OLSR routing algorithm for airbonre highly dynamic networks[J]. Journal of Beijing University of Aeronautics and Astronautics, 2016,42(7):1326-1334.)
[16]董思妤, 張洪, 王路. 無人機自組網OLSR路由協議的優化[J]. 軍械工程學院學報, 2017,29(2): 67-70. (Dong Siyu, Zhang Hong, Wang Lu. Optimization of OLSR routing protocol in UAV Ad hoc network[J]. Journal of Ordnance Engineering College, 2017,29(2): 67-70.)
[17]胡春, 任智, 崔忠林. 無人機自組網按需尋路的可靠OLSR協議[J]. 小型微型計算機系統, 2021,42(1): 122-126. (Hu Chun, Ren Zhi, Cui Zhonglin. Reliable OLSR protocol for on demand pathfinding of drone Ad hoc networks[J]. Journal of Chinese Compu-ter Systems, 2021,42(1): 122-126.)
[18]Perkins C E, Bhagwat P. Highly dynamic destination-sequenced distance-vector routing (DSDV) for mobile computers[J]. ACM SIGCOMM Computer Communication Review, 1994,24: 234-244.
[19]Sampoornam K P, Darshini G R. Performance analysis of Bellman Ford, AODV, DSR, ZRP and DYMO routing protocol in MANET using EXATA[C]//Proc of International Conference on Advances in Computing and Communication Engineering. Piscataway,NJ: IEEE Press, 2019: 1-5.
[20]Royer E M, Toh C K. A reviewon current routing protocols for Ad hoc mobile wireless network[J]. IEEE Personal Communications, 1999,2(2): 55.
[21]Perkins C E, Royer E M. Ad-hoc on-demand distance vector routing[C]//Proc of the 2nd IEEE Workshop on Mobile Computing Systems and Applications. Piscataway,NJ: IEEE Press, 1999: 1-11.
[22]梁青, 張文飛, 上官藝偉, 等. 無人機自組網中AODV路由協議的改進[J]. 西安郵電大學學報, 2018,23(6): 44-49. (Liang Qing, Zhang Wenfei, Shangguan Yiwei, et al. Improvement of AODV routing protocol in unmanned aerial vehicle Ad hoc network[J]. Journal of Xi’an University of Posts and Telecommunications, 2018,23(6): 44-49.)
[23]梁青, 吳峰, 熊偉. 無人機自組網中基于節點差異的AOMDV協議[J]. 計算機工程, 2019,45(12): 98-102,126. (Liang Qing, Wu Feng, Xiong Wei. AOMDV protocol based on node difference in unmanned aerial vehicle Ad hoc network[J]. Computer Enginee-ring, 2019,45(12): 98-102,126.)
[24]張莉, 馬苗立. 動態均衡無線網絡節點負載的AODV協議設計[J]. 華北科技學院學報, 2020,17(3): 79-83. (Zhang Li, Ma Miaoli. Design and test of AODV protocol for dynamic load balancing of wireless network nodes[J]. Journal of North China Institute of Science and Technology, 2020,17(3):79-83.)
[25]姬興民, 李金龍, 盧光躍, 等. 基于AODV的平面多徑路由協議[J]. 西安郵電大學學報, 2015,20(2): 21-25. (Ji Xingmin, Li Jinlong, Lu Guangyue,et al. A flat multipath routing protocol based on AODV[J]. Journal of Xi’an University of Posts and Telecommunications, 2015,20(2): 21-25.)
[26]張德海, 韓帥帥, 王寶林. 基于AODV的無線多媒體傳感器網絡路由協議[J]. 電子科技, 2015,28(3): 87-90. (Zhang Dehai, Han Shuaishuai, Wang Baolin. Research on routing protocol for wireless sensor networks based on AODV[J]. Electronic Science and Technology, 2015,28(3): 87-90.)
[27]祝嘉東, 孫君, 許暉, 等. 基于DSR的改進型綜合源路由協議[J]. 通信技術, 2020,53(1): 80-86. (Zhu Jiadong, Sun Jun, Xu Hui. Improved comprehensive source routing protocol based on DSR[J]. Communications Technology, 2020,53(1): 80-86.)
[28]梁哲文, 張少杰, 龍飛. 一種基于蟻群優化的DSR路由協議[J]. 通信技術, 2020,53(12): 2966-2972. (Liang Zhewen, Zhang Shaojie, Long Fei. Ant colony optimization based DSR routing protocol[J]. Communications Technology, 2020,53(12): 2966-2972.)
[29]Samar P, Pearlman M R, Haas Z J. Independent zone routing: an adaptive hybrid routing framework for Ad hoc wireless networks[J]. IEEE ACM Trans on Networking, 2004,12(4): 595-608.
[30]沈亮光, 汪學明. 基于速度自適應的新型ZRP路由協議[J]. 計算機工程與設計, 2014,35(12): 4083-4087. (Shen Liangguang, Wang Xueming. New type of ZRP routing protocol based on adaptive speed[J]. Computer Engineering and Design, 2014,35(12): 4083-4087.)
[31]Karp B, Kung H T. GPSR: greedy perimeter stateless routing for wireless networks[C]//Proc of the 6th Annual International Confe-rence on Mobile Computing and Networking. New York: ACM Press, 2000: 243-254.
[32]郭科兵, 徐光輝, 丁寧. 基于周邊節點實時位置預測的無人機自組網路由協議[J]. 通信技術, 2020,53(10): 2467-2472. (Guo Kebing, Xu Guanghui, Ding Ning. UAV Ad hoc network routing protocol based on real-time location prediction of surrounding nodes[J]. Communications Technology, 2020,53(10): 2467-2472.)
[33]梁青, 上官藝偉, 張文飛, 等. 無人機自組網中基于鄰節點篩選的GPSR協議[J]. 計算機工程, 2019,45(10): 96-100,109. (Liang Qing, Shangguan Yiwei, Zhang Wenfei, et al. GPSR protocol based on neighbor node screening in unmanned aerial vehicle Ad hoc network[J]. Computer Engineering, 2019,45(10): 96-100,109.)
[34]Wang Fuxing, Chen Zhi, Zhang Jing, et al. Greedy forwarding and limited flooding based routing protocol for UAV flying Ad hoc networks[C]//Proc of IEEE International Conference on Electronics Information and Emergency Communication. Piscataway,NJ: IEEE Press, 2019: 380-383.
[35]Bellman R. A Markovian decision process[J]. Indiana University Mathematics Journal, 1957,6(5): 679-684.
[36]Volodymyr M,Koray K,David S, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540):529-533.
[37]姚玉坤, 張本俊, 周楊. 無人機自組網中基于Q-learning算法的及時穩定路由策略[J]. 計算機應用研究, 2022,39(02): 531-536. (Yao Yukun, Zhang Benjun, Zhou Yang. Timely and stable routing strategy based on Q-learning algorithm in UAV Ad hoc network[J]. Application Research of Computers, 2022,39(2): 531-536.)
[38]謝勇盛, 楊余旺, 邱修林, 等. 基于函數逼近的強化學習FANET路由優化算法[J]. 計算機工程, 2021,47(11): 207-213. (Xie Yongsheng, Yang Yuwang, Qiu Xiulin, et al. Optimized FANET routing algorithm with reinforcement learning based on function approximation[J]. Computer Engineering, 2021,47(11): 207-213.)
[39]Jung W, Yim J, Ko Y. QGeo:Q-learning based geographic Ad-hoc routing protocol for unmanned robotic networks[J]. IEEE Communications Letters, 2017,21(10): 2258-2261.
[40]Colonnese S, Cuomo F, Pagliari G, et al. Q-SQUARE: a Q-learning approach to provide a QoE aware UAV flight path in cellular networks[J]. Ad hoc Networks, 2019, 91:101872.
[41]Khan M F, Yau K A. Route selection in 5G-based flying Ad-hoc networks using reinforcement learning[C]//Proc of the 10th IEEE International Conference on Control System, Computing and Engineering. Piscataway,NJ: IEEE Press, 2020: 23-28.
[42]劉芬, 隋天宇, 王葉群. 基于Q學習的Ad hoc網絡路由協議的改進與研究[J]. 計算機與數字工程, 2019,47(2): 373-376. (Liu Fen, Sui Tianyu, Wang Yequn. Improvement and research of Ad hoc network routing protocol based on Q learning[J]. Computer amp; Digital Engineering, 2019,47(2): 373-376.)
[43]Liu Jianmin, Wang Qi, He Chentao, et al. QMR: Q-learning based multi-objective optimization routing protocol for flying Ad hoc networks[J]. Computer Communications, 2019,150: 304-316.
[44]Da Costa L A L F, Kunst R, Pignaton D F E. Q-FANET: improved Q-learning based routing protocol for FANETs[J]. Computer Networks, 2021,198:108379.
[45]Faganello L R, Kunst R, Both C B, et al. Improving reinforcement learning algorithms for dynamic spectrum allocation in cognitive sensor networks[C]//Proc of IEEE Wireless Communications and Networking Conference. Piscataway,NJ: IEEE Press, 2013: 35-40.
[46]Qiu Xiulin, Xie Yongsheng, Wang Yinyin, et al. QLGR: a Q-lear-ning-based geographic FANET routing algorithm based on multi-agent reinforcement learning[J]. KSII Trans on Internet and Information Systems , 2021,15(11): 4244-4274.
[47]Rovira-Sugranes A, Afghah F, Qu J, et al. Fully-echoed Q-routing with simulated annealing inference for flying Ad hoc networks[J]. IEEE Trans on Network Science and Engineering, 2021,8(3): 2223-2234.
[48]Shilova Y, Kavalerov M, Bezukladnikov I. Full echo Q-routing with adaptive learning rates: a reinforcement learning approach to network routing[C]//Proc of IEEE NW Russia Young Researchers in Electrical and Electronic Engineering Conference. Piscataway,NJ: IEEE Press, 2016: 341-344.
[49]Chen Yining,Lyu Niqi,Song Guanghua, et al. A traffic-aware Q-network enhanced routing protocol based on GPSR for unmanned aerial vehicle Ad hoc networks[J]. Frontiers of Information Technology amp; Electronic Engineering, 2020,21(9): 1308-1320.
[50]Lyu Niqi, Song Guanghua, Yang Bowei, et al. QNGPSR: a Q-network enhanced geographic Ad hoc routing protocol based on GPSR[C]//Proc of the 88th IEEE Vehicular Technology Conference. Piscataway,NJ: IEEE Press, 2018.
[51]Chang Yuanyuan, Wu Xiaofu, Zhang Suofei. Piecewise linear units for fast self-normalizing neural networks[C]//Proc of the 24th International Conference on Pattern Recognition. Piscataway,NJ: IEEE Press, 2018: 429-434.
[52]Xiong Zehui, Zhang Yang, Niyato D, et al. Deep Reinforcement learning for mobile 5G and beyond: fundamentals, applications, and challenges[J]. IEEE Vehicular Technology Magazine, 2019,14(2): 44-52.
[53]牟治宇, 張煜, 范典, 等. 基于深度強化學習的無人機數據采集和路徑規劃研究[J]. 物聯網學報, 2020,4(3): 42-51. (Mou Zhiyu, Zhang Yu, Fan Dian, et al. Research on the UAV-aided data collection and trajectory design based on the deep reinforcement lear-ning[J]. Chinese Journal on Internet of Things, 2020,4(3): 42-51.)
[54]孫鵬浩, 蘭巨龍, 申涓, 等. 一種基于深度增強學習的智能路由技術[J]. 電子學報, 2020,48(11): 2170-2177. (Sun Penghao, Lan Julong, Shen Juan, et al. An intelligent routing technology based on deep reinforcement learning[J]. Acta Electronica Sinica, 2020,48(11): 2170-2177.)
[55]Liu C H, Ma Xiaoxin, Gao Xudong, et al. Distributed energy-efficient multi-UAV navigation for long-term communication coverage by deep reinforcement learning[J]. IEEE Trans on Mobile Computing, 2020,19(6): 1274-1285.
[56]Koushik A M, Hu Fei, Kumar S. Deep Q-learning based node positioning for throughput-optimal communications in dynamic UAV swarm network[J]. IEEE Trans on Cognitive Communications and Networking, 2019,5(3): 554-566.
[57]Liu Jianmin, Wang Qi, He Chentao, et al. ARdeep: adaptive and reliable routing protocol for mobile robotic networks with deep reinforcement learning[C]//Proc of the 45th IEEE Conference on Local Computer Networks. Piscataway,NJ: IEEE Press, 2020: 465-468.
[58]Zadeh L Z. Fuzzy logic, neural networks and soft computing[J]. Microprocessing and Microprogramming, 1993,38(1): 77-84.
[59]Al-Kiyumi R M, Foh C H, Vural S, et al. Fuzzy logic-based routing algorithm for lifetime enhancement in heterogeneous wireless sensor networks[J]. IEEE Trans on Green Communications and Networking, 2018,2(2): 517-532.
[60]He Chenguang, Liu Suning, Han Shuai. A fuzzy logic reinforcement learning-based routing algorithm for flying Ad hoc networks[C]//Proc of International Conference on Computing, Networking and Communications. Piscataway,NJ: IEEE Press, 2020: 987-991.
[61]趙蓓英, 姬偉峰, 翁江, 等. 面向無人機自組網的可信路由協議[J]. 計算機科學與探索, 2021,15(12): 2304-2314. (Zhao Bei-ying, Ji Weifeng, Weng Jiang, et al. Trusted routing protocol for FANETs[J]. Journal of Frontiers of Computer Science and Technology, 2021,15(12): 2304-2314.)
[62]Jiang Shanshan, Huang Zhitong, Ji Yuefeng. Adaptive UAV-assisted geographic routing with Q-learning in VANET[J]. IEEE Communications Letters, 2021,25(4): 1358-1362.
[63]Yang Qin, Jang S, Yoo S. Q-learning-based fuzzy logic for multi-objective routing algorithm in flying Ad hoc networks[J]. Wireless Personal Communications, 2020,113(1): 115-138.
[64]洪寧, 郭振宗, 張鍇, 等. 基于智能天線的移動自組織網絡主動式路由技術[C]//2021年第五屆全國集群智能與協同控制大會論文集. 2022: 151-159. (Hong Ning, Guo Zhenzong, Zhang Kai, et al. Active routing technology for mobile Ad hoc network based on smart antenna[C]//Proc of the 5th Chinese Conference on Swarm Intelligence and Cooperative Control. 2022: 151-159.)
[65]呂帥, 龔曉宇, 張正昊, 等. 結合進化算法的深度強化學習方法研究綜述[J]. 計算機學報, 2022,45(7): 1478-1499. (Lyu Shuai, Gong Xiaoyu, Zhang Zhenghao, et al. Survey of deep reinforcement learning methods with evolutionary algorithms[J]. Chinese Journal of Computers, 2022,45(7): 1478-1499.)
[66]Sun Chen, Wu Shiyi, Zhang Bo. Reinforcement learning for interfe-rence coordination Stackelberg games in heterogeneous cellular networks[J]. Wireless Communications and Mobile Computing, 2021,2021: 6946115.