吳凡毅,王 凱,趙 頔,徐開明,4,吳建軍
(1.北京大學 信息科學技術學院,北京 100871;2.中國人民解放軍軍事科學院,北京 100091;3.中國人民武裝警察部隊特種警察學院,北京102211;4.中國空氣動力研究與發展中心,四川 綿陽 621000)
無人機是一種新興的感知設備,由于它機具有高靈活性和低部署成本等優勢,應用場景非常廣泛[1-2]。在現有的無人機系統中,其采集到的數據是通過未授權頻譜(如ISM頻段等)傳輸到移動設備端的。然而,由于未授權頻譜的隨機接入特性,移動設備端受到的來自周圍環境的干擾是不可控的,這導致無人機感知服務的服務質量(QoS)難以保證[3]。因此,現在亟需一種更可靠的網絡來支持無人機感知服務。
針對這一問題,目前的一種解決方案是利用地面的蜂窩網絡來支持無人機感知服務,該方案又被稱為蜂窩無人機網絡[4]。在此網絡中,無人機感知到的數據可以直接傳輸到移動設備,即直通的方式,這樣可以有效提升近距離感知服務的吞吐量。此外,當感知服務的距離較遠而直通通信無法滿足速率要求時,無人機可以通過傳統的蜂窩通信方式,通過基站將數據傳輸到移動設備端,這樣可以有效保證服務質量。
本文研究了一個蜂窩無人機網絡,其中包含了多個無人機執行感知任務。假設存在2種無人機的通信模式:直通模式和蜂窩模式,其中直通模式作為蜂窩模式的一種“Overlay”來工作。在這一網絡中,無人機采集到的感知數據可以通過這2種模式中的任何一種傳輸到移動設備端。此外,為了組織多個無人機完成感知和傳輸,將設計一個邊感知邊傳輸協議,該協議可以使用嵌套馬爾科夫鏈[5]來分析。由于無人機的傳輸模式會影響到它們的軌跡,因此在考慮了傳輸模式的情況下研究了無人機軌跡設計問題,以最大化系統的總效用。該問題是一個馬爾科夫決策問題,其狀態行動空間非常大,因此提出了一種基于深度強化學習[6]的多無人機軌跡設計算法解決這一問題。
在現有的文獻中,有關蜂窩無人機網絡的研究工作可以分為兩類:無人機與基站的通信[7]及無人機之間的通信。文獻[7]聯合優化了一個蜂窩無人機網絡中無人機的飛行軌跡、感知地點和調度方案,以最小化無人機完成任務的時間。文獻[8]則分析了一個多無人機協作的蜂窩無人機網絡中的協作控制、吞吐量、丟包率和中斷概率。然而,作為一個重要的實際場景,無人機與終端直接通信的場景并沒有在現有的文獻中考慮到。因此,本文考慮了一個存在直通通信的蜂窩無人機網絡,并研究了此場景中的無人機軌跡設計問題。
本文的蜂窩無人機網絡,如圖1所示,系統中的多址方式采用正交頻分多址(OFDMA)。在這個系統中,有N個無人機需要執行感知任務,記這些無人機為N= {1,2,…,N}。每個無人機都需要從感知任務處采集感知數據,然后將感知數據傳輸到對應的移動設備。為了支持無人機的數據傳輸,假設系統中存在2種模式:
① 直通模式:無人機直接將數據傳送給移動設備;
② 蜂窩模式:數據傳輸分為兩個階段,第一階段,無人機將數據傳送給基站;第二階段,基站把數據傳送給移動設備端。

圖1 系統模型Fig.1 System model
本文假設2種模式傳輸的時間單位為幀。具體來說,直通模式下的傳輸利用完整的一幀;蜂窩模式下的兩段傳輸分別利用半幀。
假設系統中存在K個正交的子信道來支持OFDMA通信,記這些子信道為K= {1,2,…,K}。子信道的分配由基站來完成。為了避免同信道干擾,假設直通模式采用Overlay的方式與蜂窩模式共同工作,即每個無人機都使用相互獨立信道。需要說明的是,蜂窩模式下的兩段傳輸將使用同一個信道。
為了評價無人機的感知和傳輸質量,使用三維笛卡爾坐標描述無人機、基站、移動設備和感知任務的位置。具體來說,基站的坐標為x0=(0,0,H0),其中H0為基站的高度。第i個無人機及其對應的移動設備和感知任務的坐標,分別為

由于無人機機載傳感器的物理限制,每一次感知不一定能保證是成功的。因此,本文將采用文獻[9]中的概率感知模型評估無人機的傳感器的感知質量。具體來說,第i個無人機的成功感知概率可以表示為無人機與任務距離的指數函數,即
Pss,i=e-λtf li,

無人機的飛行高度通常較高,因此無人機與地面設備(包括基站和移動設備)通信的信道與傳統的地面通信信道具有不一樣的特性。本文將采用文獻[10-11]中的空對地信道模型與地面信道模型對無人機的傳輸建模。對于直通模式下的無人機,其移動設備處的信噪比可以表示為:


為了協調無人機完成感知任務,本文將采用一個邊感知邊傳輸通信協議,如圖2所示。在此協議中,假設無人機的感知和傳輸是通過一系列循環周期的形式來完成。具體來說,每個循環周期包含了感知和傳輸兩部分。當一個周期結束后,下一個周期即開始。因此,無人機的感知過程是交替進行的,即無人機會“一邊感知,一邊傳輸”地完成感知任務。一個周期的總長度為Tc幀,感知部分和傳輸部分的長度分別為Ts幀和Tu幀。
在感知部分,為了保證傳輸的質量,規定只有Ts個幀全都感知成功時才可判定該無人機感知成功。在傳輸部分的開始,基站會首先執行子信道分配。本文規定分配規則是最大化系統中的總成功傳輸概率,相當于把系統中的K個子信道分配給成功傳輸概率最大的K個無人機。如果一個無人機被分配到子信道,它會從直通模式和蜂窩模式中選擇能成功傳輸的模式來完成數據傳輸。如果無人機在這2個傳輸模式下都可以成功傳輸數據,那么它會選擇傳輸速率更大的模式。如果無人機在任何一個模式下都不能成功傳輸數據,則視為它在這一幀傳輸失敗。因此,在每個循環周期的傳輸部分中,無人機在每一幀的狀態都有5種可能:未分配信道、傳輸失敗、直通模式傳輸成功、蜂窩模式傳輸成功以及空閑,如圖2所示。
在邊感知邊傳輸通信協議下,無人機的感知和傳輸具有馬爾科夫特性。由于感知和傳輸過程是耦合在一起的,因此可以使用一種特殊的馬爾科夫鏈,即嵌套馬爾科夫鏈,對該協議進行分析,嵌套馬爾科夫鏈的細節可參見文獻[11],在此模型下,本文定義無人機感知成功之后的成功傳輸為有效傳輸。進一步的,本文定義無人機的效用為該無人機在執行任務時有效傳輸的次數。當一次傳輸為有效傳輸時,無人機獲得效用1,反之為0。

圖2 邊感知邊傳輸通信協議Fig.2 Joint sense-and-transmission protocol
本文的研究目的是在考慮無人機傳輸模式的同時對無人機的軌跡進行設計。需要強調的是,基于 邊感知邊傳輸通信協議,無人機的模式選擇結果將取決于無人機的位置,因此對無人機軌跡進行設計的同時,無人機的傳輸模式已經被確定好了。
為了能夠更方便地設計無人機軌跡,本文將把連續的空間離散化。如圖3所示,離散化的空間將可以用網格模型來表征。在該模型中,無人機在一個周期內的移動可以有最多27種可能。相鄰2個空間位置點的距離表示為Δ,它取決于無人機的最大飛行速度。

圖3 網格模型Fig.3 Lattice model
本文定義第i個無人機在第t個周期的位置為xi(t),則該無人機從該時刻起的飛行軌跡可以表示為一系列位置的集合,即Ti(t)={xi(t),xi(t+1),...}。此外,為了表征無人機的位置選擇,定義第i個無人機在第t個周期可以選擇的位置為集合A(xi(t))。為了評估無人機在一個周期內的感知和傳輸情況,把無人機在第t個周期內的效用表示為ri(t)。如果本周期內的傳輸是有效的,ri(t) =1;反之,ri(t)=0??紤]到感知任務的時效性,引入折舊因子ρ。
本文假設無人機選擇使其總效用最大的軌跡飛行,則無人機的軌跡設計問題可以寫成如下形式:
由于邊感知邊傳輸通信協議可以使用嵌套馬爾可夫鏈來分析,所以本文研究的無人機軌跡設計問題是一個馬爾科夫決策問題。在這個問題中,無人機的狀態行動空間非常大。因此,本文將采用強化學習的方法來解決這個問題。在強化學習的框架下,每個無人機都可以視為一個智能體,而網絡設置(包括基站、移動設備和感知任務等)都視為環境。在每個循環周期開始時,每個智能體需要觀察當前時刻的所有智能體的狀態(記為s)。然后每個智能體將根據自己的策略(記為π)來決定自己的在這一時刻的行動(記為a)。每個智能體在采取行動之后,會獲得回報(記為r),并且觀察下一時刻的狀態(記為s′)。因此,在強化學習的框架下,設計無人機的軌跡相當于優化每個智能體的策略。
對于狀態行動空間不大的馬爾科夫決策問題,可以通過Q-learning的方法求解[12-13]。然而,本文研究問題的狀態空間非常大,使傳統的Q-learning不可行。因此,提出了一種基于深度Q網絡的多無人機軌跡設計算法。首先,定義第i個無人機的Q值為Qi(s,a),含義為該無人機在狀態s采取行動a,而且之后的狀態都按照自己現有的策略來行動時,該無人機獲得的累計收益回報。在本算法中,每個無人機的策略都可以使用一個深度神經網絡來表示。記第i個無人機的網絡為Qi,該網絡的輸入是所有無人機的狀態,而網絡的輸出為該無人機在當前這一時刻所有可能的行動對應的Q值。而無人機在一個狀態的策略為選擇對應Q值最大的行動[14-15]。


多無人機軌跡設計算法初始化第i個無人機的網絡Qi及其目標網絡Q⌒i;初始化無人機的狀態;循環開始:以-greedy策略選擇一個行動;執行該行動,觀測到回報和下一個狀態;將當前狀態、行動、回報和下一個狀態作為訓練數據,并儲存在一個經驗池中;從經驗池中選擇一組數據作為訓練集;利用訓練集訓練網絡Qi;每隔一定周期更新目標網絡Q⌒i循環結束
首先對比了提出的算法與單智能體Q-learning算法[14]的性能。在單智能體Q-learning算法中,每個無人機在更新策略時只觀察自己的狀態,而視其他無人機的狀態為環境。圖4給出了2種算法在不同信道數目K下的性能對比。

圖4 不同算法的積累總效用對比圖Fig.4 Performance comparison on the accumulated reward of different algorithms
從圖4中可以看到,本文提出的算法性能要好于單智能體Q-learning算法。這是由于無人機的行為彼此會相互影響,而本文的算法考慮到了無人機之間的協調。此外,2個算法的總效用都隨著信道數的增加而增加,這是因為有了更多的子信道可以被利用。
圖5給出了在不同的基站-設備距離LBD和基站-任務距離LBT下,無人機的傳輸狀態分布圖。在仿真中,假設基站、移動設備和任務是共線的。此外,假設無人機在任務點上空100 m處采集感知數據并傳輸。從圖5中看出,當感知任務靠近移動設備時(靠近白色虛線LBT=LBD的區域),無人機更可能通過直通模式成功傳輸感知數據;當感知任務靠近基站(LBT較小),而移動設備位于小區邊緣(LBD較大)時,無人機傾向于通過蜂窩模式成功傳輸感知數據;最后,當感知任務位于小區邊緣(LBT較大),而移動設備靠近基站(LBD較小)時,無人機容易傳輸失敗。

圖5 無人機傳輸狀態分布圖Fig.5 Distribution of the UAV’s transmission states
本文研究了一個蜂窩無人機網絡中的多無人機軌跡設計問題。其中無人機可以通過直通模式和蜂窩模式來傳輸數據。本文采用了一種邊感知邊傳輸通信協議來協調無人機完成感知任務。該協議可以使用嵌套馬爾科夫鏈來分析。在這一分析下,本文研究的無人機軌跡設計問題是一個馬爾科夫決策問題。由于這一問題的狀態空間很大,本文利用了深度強化學習分析這個問題,并提出一種基于DQN的多無人機軌跡設計算法解決了該問題。
仿真結果驗證了所提出的算法比單智能體算法的性能更好。此外,還可得到如下3條結論:① 當感知任務靠近移動設備時,無人機傾向于通過直通模式成功傳輸感知數據;② 當感知任務靠近基站,而移動設備位于小區邊緣時,無人機傾向于通過蜂窩模式成功傳輸感知數據;③ 當感知任務位于小區邊緣,而移動設備靠近基站時,無人機傾向于傳輸失敗。