楊靖宇,高亮,李迪,李辰
(1.沈陽航空航天大學 智能飛行器系統理論與技術實驗室,遼寧 沈陽 110136;2.沈陽戈達德智能裝備科技有限公司 研發部,遼寧 沈陽 110001)
隨著5G 的普及和6G 的開發,大帶寬無線通信讓大規模共位密集編隊衛星群的組建成為了可能。甚至是原本只能依賴晶片通信總線和接線式的通信,在不久的未來也可以通過大帶寬無線通信互聯。人工智能技術的快速發展也讓衛星群中的各個子衛星擁有的自主能力持續提高。共位密集編隊衛星群將原來的一顆重型衛星的各個子系統拆分,分裝進多個小型衛星中,利用大帶寬無線通信互聯,并且帶寬和信號延遲不亞于實體IO。在無線通信快速發展的大背景下,課題將通過當前相關關鍵技術的研究進展,探討共位編隊衛星的智能系統特性與優勢,并由此引出共位編隊衛星群的可行性和大致開發方向。
共位密集編隊技術的發展對未來的軍事和商用航天領域有著重要的意義。當一顆重型衛星的各個子系統被拆分成為共位編隊中分散布置并且可以隨時替換的多個子衛星時,能夠大大降低整個系統的發射成本和維護成本。小型的子衛星可以通過堆疊充分利用運載火箭的整流罩空間,戰時可以快速補充在軌戰斗力。故障的子衛星再入大氣后,編隊中的大部分功能任可以保留,并且隨后即可補充。同時,編隊內的子衛星也可以作為執行攻擊等命令的單位,整個共位衛星編隊有著很強的靈活性和可編輯性。模塊化的系統也能夠大幅度提高衛星的生產效率,短時間內就可以大量地發射。在商用領域這一技術也大大降低了企業的運營風險,不會因為一個子系統的故障而報廢整個系統。
就共位編隊本身來說,十米級間距的共位密集編隊可以極大程度上改善以往因為間距較遠所帶來的問題。比如,距離較遠各衛星軌道六根數不同、受到的攝動不同,因此隨著時間的推移編隊難以保持。小間距密集編隊各衛星間的軌道根數相近、攝動幾乎相同,所以保持編隊所消耗的推進劑更少,有利于長時間執行任務。
在硬件方面,星載計算機由于受制于惡劣的使用環境普遍存在算力不足的問題,難以實現在軌深度學習等在軌復雜運算。不過近些年來隨著半導體制程的不斷進步,各種計算芯片的計算性能也隨著增強。目前小型衛星的星載芯片系統大多基于FPGA+ARM 開發,FPGA 在航空航天領域有著極為廣泛的應用。在航天領域,基于FPGA的姿態控制、衛星內部總線(如1553B、CAN等)控制、CNN 網絡的卷積計算加速、高分辨率圖像處理、星間加解密通信及數據傳輸等方向有著大量的研究與應用。
相關行業的先進單位基于FPGA 在航天領域的應用做了大量的研究,在姿態精確控制、通信、硬件運算加速、圖像處理等領域都取得了令人矚目的成果[1-2]。FPGA 芯片可以根據不同任務的需要進行深度定制,芯片內有大規模的邏輯門陣列,并行運算能力突出,相比單片機有著極強的IPC性能。FPGA 芯片非常適合進行信號處理、元件橋接、人工智能運算等工作[3]。
隨著大規模集成電路制造技術的發展,精簡指令集架構(如ARM)處理器的性能也隨著增強。ARM 處理器普遍有著IO 資源豐富、邏輯運算能力強大的優點,并且能夠集成大規模的流處理單元以提高并行計算能力,可拓展性極強。圖1 所示為ARM 處理器與星載陀螺儀集成設計的PCB。其中Cortex-M 系列內核以其高能耗比、開發便捷的特點被廣泛應用于人工智能運算領域。尤其是2017 年發布的Cortex-M7 內核更是集成了L1緩存(指令及數據緩存)、分支預測單元等以往CPU 上才有的模塊,單片機的特性也越來越向高性能運算靠攏。德州儀器、意法半導體等都基于Cortex 內核開發出了一系列性能優良價格低廉的單片機,這些單片機被廣泛地應用于人工智能、航空航天、數控加工等大量高精尖領域。ARM 處理器在航天領域的應用和研究更是在千禧年初就已經開始了,隨著ARM 處理器的發展和完善,其在星載計算領域的地位在近幾年也越來越重要。

圖1 ARM 處理器與星載陀螺儀集成的PCBFig.1 PCB integrated with ARM processor and spaceborne gyroscope
2017 年,Nvidia 首次在Volta 架構的GV100核心中將硬件張量計算單元Tensor Core 整合到GPU 中,并在之后的Turing 架構和Ampere 架構中沿用。以深度學習模型訓練中常用的keras 庫為例,其核心的GEMM 運算在Tensor Core 的加速下相比上一代架構Pascal 有著8~9 倍的提升。在解決好功耗問題后,未來此類高性能GPU 可以與ARM 等架構整合并用于星上模型訓練,讓航天器獲得更加高效的實時學習能力,大幅度地擺脫對地面的依賴。這也將是航天器未來在無測控協同深空探測任務中所需要具備的條件之一。
人工智能在控制領域應用的重要性日漸凸顯,以美國為代表的一些國家甚至直接將“保證人工智能領域領先狀態”寫入到行政命令中,大力扶持。當今,隨著上述半導體行業的發展進步,星載計算機的算力隨之快速增強。圖2 所示為星載芯片系統智能化發展歷程。

圖2 星載芯片系統智能化發展歷程Fig.2 Developmental history of the onboard chip system
以深度學習、強化學習為代表的下一代航天器人工智能控制技術勢必能夠由“地面訓練,星上使用”逐步轉向“星上學習,星上使用”。新一代智能自適應容錯控制將具備更強的任務規劃和姿軌跟蹤及控制能力,勝任更加復雜的任務[4-5]。現今世界上主流的各類型航天器控制模型普遍具有時變、非線性、多變量的特點。并且復雜的任務,執行任務的航天器具有更復雜的結構設計,其在調姿及變軌的時候也會有更加復雜的執行擾動和難以識別的耦合,人工智能控制高魯棒性的優勢就凸顯出來了[6-7]。
學習、推理、決策是人工智能控制系統所具備的基本能力。衛星能夠主動適應任務環境的變化,僅依靠自身算力進行快速自適應控制策略調整是星載計算領域研究推進的大方向。人工智能飛控單元相比傳統的飛控系統具備的優勢如表1 所示。

表1 星載智能系統相比傳統星載系統所具備的優勢Table 1 Advantages of the onboard intelligent system over the traditional onboard system
智能體的自主控制是一個智能感知、智能決策、智能控制的閉環,實現航天器的高度智能化先進的信號處理方法、計算系統設計以及控制策略等方面都是必不可少的,不然就會因為木桶效應使得整個系統應用某一部分的缺陷導致無法得到預期的效果。諸如強化學習這種機器學習的方法,主要用于解決智能體與環境的交互問題,描述和優化智能體在“實踐”過程中的學習策略。航天器在執行任務時的環境是時變的,不合適的優化算法可能會導致系統陷入到局部最優解當中,致使后續的監測效果不佳甚至出錯。因此近些年對智能算法的改進也成為了許多學者的工作方向。未來數年的航天器智能化也會依賴深度學習進行地面數據訓練,利用先進通信技術實現地面-軌道的雙向遷移學習是一項較為關鍵的技術。將地面預訓練模型鎖定后,發射入軌后在執行任務的過程中利用星上算力進行遷移學習,對全連接層以及部分解鎖的卷積基等進行在軌訓練。比如谷歌開發的超深卷積神經網絡InceptionResNetV2 深度高達572 層,使用全球的互聯網樣本進行訓練,其Top-1 和Top-5 精度分別可達0.803 和0.953。這一類的預訓練網絡可以作為遷移學習模型對基礎特征進行準確的判斷,從而避免實際任務進行中可采集樣本較少使模型在訓練過程中出現過擬合。在軌訓練所能采集的數據集較少,難以提取基礎特征,因此需要拆分訓練模型,分別在地面對基礎任務特征以及在軌對具體任務特征進行訓練。如圖3 所示為星載智能系統的架構簡要示意圖。

圖3 星載智能系統架構示意Fig.3 Onboard intelligent system architecture
根據上述的諸多問題,國內外許多機構、院所的學者們進行了大量的研究,提出了的開創性結論和相關解決方法。自2016 年開始,美國商業航天公司SpaceX 和美國國防高級研究計劃局(DARPA)聯合研制的獵鷹9 號系列運載火箭實現了在線智能監測與軌跡規劃,并利用該技術成功實現了芯一級和助推級的動力載入回收[12-13]。智能控制系統讓獵鷹9 號系列運載火箭的發射成本和成功率實現了前所未有的突破。
編隊智能化這一課題主要有3 點顯著特征:1)抽象數據搜索引導;2)基于抽象數據做出判斷;3)分布式智能體衛星間能夠實現一定程度上任務并行處理。從計算機科學初的通用線性問題求解器到現如今的專家系統和智能決策支持系統,都利用了人類在任務領域的相關經驗[14-15]。然而所謂經驗是一個模糊抽象、非線性、數據量龐大的概念。智能化共位協同編隊的主要特征如表2 所示。

表2 智能化共位協同編隊的主要特征Table 2 Key features of intelligent co-located cooperative formations
未來共位衛星群任務的關鍵就是實現分布式多智能體協同控制技術的應用。而衛星智能協同控制的關鍵技術及技術難點主要包括任務協調調度、路徑規劃、多星協同狀態監測3 個主要方面[16-18]。其關鍵技術主要依賴于超深網絡的特征提取和任務規劃以及高效算法在包含深度網絡的系統中對協同控制策略的規劃。
球場上運動員之間默契的配合,手術臺上外科醫生們的密切配合都依賴于個體之間的經驗,能夠將所謂經驗數據化就是智能協同控制系統最顯著的特征。在共軌位衛星編隊中智能監測衛星的關鍵目標就是通過利用全局/局部信息共享和鄰近代理分布式的方式來達到任務所需的多智能體協同行為。
共位編隊中的衛星任務的協同調度是一大難點和關鍵技術。傳統的任務調度方式主要有兩種。其一是以BIE 為代表的優先級分配。在一次任務中,編隊監測衛星對每顆衛星預先的建模進行評估以確定其在任務協調中的權重,或者每顆衛星通過貪婪策略評估自身權重與其他衛星進行比對,以此來協調每顆衛星在任務中所需執行的最佳指令。這種策略的優勢就在于在算力不足的星載系統上也能使各衛星有效地協同完成任務,較小的數據量也能夠讓該策略具有很好的通信時效性和容錯能力,但是無論由監測星評估還是各星自身評估都會在不同程度陷入局部最優解,穩定性欠佳。其二是衛星網絡調度協議,由優先級協調策略發展而來。這種策略不以預先建模為評估原點,而是任務調度分為監測衛星接收任務指令、編隊各星對任務各項進行申請、指令下達3 個階段進行,在任務協調階段建立臨時能力集,以此為指標進行具體分配。作為優先級確定權重策略的一種改進,這種策略仍然在一定程度上存在容易陷入局部最優解的問題,但是其依賴先進網絡協議的特性使其能夠在中小規模的衛星編隊中實現全局最優任務協同。
近年來隨著積體電路技術和無線網絡技術的快速發展,基于群體智能概念的自組織任務協同策略成為航天器編隊協同控制中的一項重要課題。在自組織協同中,監測衛星所發揮的作用也與傳統任務調度大有不同。這種任務協同方式通過編隊衛星地面學習和長期的在軌學習,解決在軌編隊任務自組織問題,極大地提高了編隊任務執行過程中的魯棒性也避免了傳統算法策略中對既定任務局部最優解的約束[19]。在編隊完成任務分配后的指令執行階段,共軌位衛星編隊的協同控制路徑規劃計算中,編隊結構往往存在諸多約束條件,需要對算法進行訓練以讓動作序列滿足對應的約束條件。在耦合路徑規劃中存在空間維度大,難以在復雜環境中解析編隊狀態;而在解耦合狀態下又存在星間路徑沖突頻繁,容易陷入局部最優解等問題。圖4 所示為當前主要的協同路徑規劃模式。針對這些問題,近年來一些學者提出了基于三角不等式的RRT-connect 路徑規劃、改進麻雀搜索算法等解決辦法[20-21]。著重解決了規劃時間、路徑長度、任務動態性的問題。同時,在編隊狀態監測中,在軌的單個衛星由于搭載的載荷種類、通信感知能力、星載處理系統往往都各不相同,對自身狀態與其他星狀態的感知能力受限,對于軌道攝動與自身故障等問題普遍魯棒性欠佳。而協同監測體系則能夠有效地改善上述問題,整個編隊依托星間鏈路作為一個大的系統對編隊自身進行監測就能夠實現1+1>2 的效果[22-23]。

圖4 協同路徑規劃示意Fig.4 Cooperative path planning mode
隨著近二十多年的研究發展,航天器編隊飛行的理論基礎已經基本奠定。在100 km 間距量級上通過選定特定的一條軌道,讓在這條軌道上的衛星集群能夠利用其攝動始終保持讓整個衛星集群在一定的范圍內而不需要攜帶推進劑[24]。這樣能夠極大地簡化衛星的設計,但是完全依靠特殊軌道上的攝動力保持一定的集群密度。缺點也是顯而易見的,這種集群方式軌道太過特殊,并且也無法保持某種特定的隊形,衛星分布靠攝動力粗略地維持在一定范圍內,無法進行在軌協同任務。事實上,對多星共構衛星群的相關研究起步較早。NASA 早在2003 年就曾提出過類似的計劃,將一組子衛星轉移至地球火星軌道間的小行星帶之后從容器內釋放,組成一個編隊,不同的衛星各有分工,不過時至今日這個項目由于技術原因沒有上馬。因為多星協同嚴重依賴地面測控,如果能突破衛星自主協同的技術難關,多星共構系統的應用范圍將得到極大的擴展。由此,有人曾提出了一種改進的模擬退火算法,并將這種算法應用于衛星集群重構中,這種機動測策略能夠在控制效率與燃料消耗之間找出良好的平衡點[25]。不過衛星集群不等于共位編隊,這是兩個不同的概念。他提出的重構機動策略雖然具有高效快捷的優點,但是無法讓多個衛星以一種特定的隊形共位運行,應用于對系統響應能力要求較高的領域會有較大的局限性。
為此本文基于前文所述的協同控制策略加以改進搭建了一個較為簡易的地面仿真+實驗的平臺,用于驗證相關的智能共位編隊在實現中較為關鍵的技術,架構如圖5 所示。

圖5 協同控制關鍵技術地面驗證平臺架構Fig.5 Architecture of the ground verification platform for key technologies of cooperative control
該平臺以超深網絡+淺網絡機器學習的基本框架搭建了仿真的基本環境,通過超深網絡訓練和地面-軌道雙向遷移學習使系統具有較強的擬合能力。在這個框架下,可以通過增減算法模塊的方式調整仿真實驗,具有較好的拓展性。在初步的技術驗證中該平臺的實驗效果較為理想。圖6、7 分別是平臺在子衛星協同清除在軌非合作目標中的路徑規劃效果和規劃效率的示意圖。實驗證明該平臺能夠在較短時間內對非合作目標進行甄別和定點清除,在模型遷移后能夠有效地提取特征,可以用于進一步的實驗。在更換性能更強的后端技術驗證平臺后,將會有更高效的表現。

圖6 協同監測路徑規劃示意圖Fig.6 Diagram of collaborative monitoring path planning

圖7 路徑規劃實驗的學習曲線Fig.7 Learning curve of the path planning experiment
在之后的研究中,我們也能夠根據這一技術路線和系統框架,逐步地完善編隊在軌監測與協同控制系統,使其能夠應用于實際任務當中。
未來航天器智能協同編隊中至關重要的功能分化式子衛星相關技術,國內目前的研究主要集中在硬件支持和算法的研究、改進及應用上。雖然當前的研究處于起步階段,不過可重構計算機近幾年隨著半導體制程的進步得到了快速發展,星載可重構計算機領域取得了長足的發展[26]。西北工業大學將基于FPGA 的可重構星載計算機應用在了一枚12U 立方星上。不過這一可重構處理系統并不是以功能分化為目的設計的,僅是在系統部件出現故障的情況下,通過預設算法對系統進行重構以保證最低限度的性能來完成既定任務。當然這一成就仍然以后續以功能分化為目的的可重構系統具有相當的指導意義。算法相關的研究也自2017 年以來快速增加,衛星的功能分化重構依賴于執行效率高、解集收斂性優秀的算法。針對這一目標,國內很多院所、學者對諸如NSGA-II、MOPSO 為代表的多個多目標算法的應用進行了大量的研究[27-31]。衛星通過計算得出并進行特定方式篩選解集,利用算法對星載計算機進行編碼重構,有針對性地自主制定一系列策略。研究結果表明,現階段衛星在一定程度上能夠自主地對自身系統進行無地面指令優化,提高了系統的魯棒性。
自然界中的群居生物普遍具有一種被稱為自組織機制的社會行為,借鑒了這種機制的人工智能協同技術是實現大規模共位密集協同編隊的關鍵所在。人工智能協同在航天領域的發展大致可以分為3 個階段,如圖8 所示:第一階段,星上某個或某幾個分系統實現智能化任務協同[32];第二階段,單個整星可完全不依賴具體動作指令,以完成既定任務為目的進行自主決策。具體行為自主完成,并且整個系統有很強的魯棒性,能夠自主診斷糾錯[33-34];第三階段,在一個任務當中所有參與的單位全部實現智能化,各單位依賴先進通信技術協同配合,全程無人參與,自主決策[35-36]。

圖8 航天器智能協同技術的發展階段示意Fig.8 Development stages of spacecraft intelligent collaboration technology
當前的航天領域仍然處在第一階段,航天器尚不能實現完全地自主決策,而是以某一分系統的以深度學習的方式實現航天器的部分智能化自主決策。當前諸如著陸自主避障,在軌自主交會對接、地形圖像識別著陸等技術就是其中的典型,而這些先進的技術也將對航天器智能化邁向下一階段起到關鍵的支撐作用。自主協同控制將是未來我國航天器的關鍵技術之一,未來將對我國的航天探測、軌道軍事產生深遠影響。航天器自主能力的提高將會在極大程度上減小對地面測控的依賴,航天領域下放到民用的門檻也將會降低。我國初步將人工智能應用于航天領域的是嫦娥3 號、嫦娥4 號、嫦娥5 號、天問1 號著陸器。這幾個著陸器都通過人工智能算法在著陸最后階段的懸停避障時自主地完成著陸。嫦娥系列任務,尤其是嫦娥5 號任務環月軌道自主交會及對接的成功將對我國后續多星智能協同具有重要的指導意義。
航天器的協同控制算法近幾年相關的研究發展迅速,控制算法多種多樣各有優劣。實現方式大致都可以按照不同的協同方式分為一致性算法、蜂擁算法和基于優化算法的編隊三類協同控制算法,如表3。

表3 不同類型的算法及其編隊特性Table 3 Different types of algorithms and their formation characteristics
如圖9 所示的一致性算法與代碼效率和網絡分區容錯性之間存在取舍,包括能夠著重解決優化分布式緩存調度問題的一致性哈希算法、強一致性要求下監測衛星作為調度的二階段提交算法、著重解決多星資源互斥問題的Lamport 面包店算法、著重于解決星間交互容錯問題的raft、Paxos 算法等。

圖9 一致性算法下的編隊協同監測模式示意圖Fig.9 Formation cooperative monitoring mode under consensus algorithm
如圖10 所示的基于蜂擁算法的衛星協同集群中有兩種基本的運動原則:規避和速度匹配。算法經過長期的訓練能夠高效地建立目標運動矢量與RCS 等控制機構的映射[40],如式(1)可以簡要地說明蜂擁算法對編隊中任意一顆衛星的控制邏輯。

圖10 基于優化算法的協同監測模式示意圖Fig.10 Cooperative monitoring model based on the optimization algorithm

式中:瞬時質心受力Fco由RCS 等推力機構產生;Fdrg為協同編隊密度參數算法通過訓練對其進行調整;為瞬時航點角度;Ksat表示單顆衛星的一項系數,可以表示如質量、質心位置等參數;N為該衛星規定鄰域內的衛星數量,或者是除該衛星外的全部衛星數量 (Ncom-1);‖lI‖、l分別為捕獲到對應衛星的各項距離參數和角度參數;lmod為衛星碰撞模型參數。通過引入式(2)的參數捕獲周期內的質心合力變量 ΔFco也可以對編隊結構的剛性進行一定程度上的收斂控制。

式中:ΔθCoS為當前衛星星體坐標系X軸在參數捕獲周期內的指向變量;Δlcur為當前衛星星體坐標系原點在參數捕獲周期內的位移;Atrans為整個編隊上一個參數捕獲周期開始時的瞬時矢量在當前星體坐標系的轉換值;K1、K2、K3表示在通過模型深度學習訓練收斂得到的權重值。
三類協同控制算法又有眾多分支,相關研究者也深入地展開了一系列的挖掘。中國科學院軟件研究所的許軻等[41]致力于推進人工智能技術在航天信息處理領域的應用,他們的團隊在2018 年提出了一種以改進型PID 控制為初始策略的深度強化學習姿態控制算法。該算法可以在航天器有效載荷、自身結構等各種參數未知的情況下通過深度學習以收斂出姿態控制的策略,并且在一定程度上可以隨著任務的進行而對控制策略進行小幅度優化。這種算法實際上是一種為了簡化代碼而設計的貪心搜索算法,算法自身的局限性導致系統在航天器姿態控制、智能協同等復雜問題中傾向于得出局部最優解,隨著時間的積累星載系統后續任務可能會出現預期之外的錯誤決策。海軍大連艦艇學院長期承擔艦艇指揮智能化方向的研究,多年來的研究對我國的軍事指揮體系有著深遠的影響。該校首次將Agent 技術應用于反潛指揮系統當中。該系統目前在小型反潛無人艇上得到了初步的技術驗證,單個無人艇的系統有著良好的自主型,與其他無人艇的信息共享能力與協同作戰能力也表現良好[42]。但是需要其中一個無人艇作為主艇進行全局干預,由其他無人艇實現半自主協同。相信未來幾年隨著芯片計算能力、可靠性以及國產自主流片等關鍵技術的突破,更先進的協同控制系統將能應用于軍隊建設和航天探測之中去。針對目前飛行器自主程度不足,需要主飛行器干預的現狀,曾有專家在2016年提出了一種完全脫離個體間通信也能依靠外部綜合傳感器進行人工智能協同的控制策略,這樣更加接近人類之間的協同工作關系[43]。這種策略充分地考慮了視覺傳感器延遲、計算延遲等對編隊保持的影響,其仿真結果也證明這一策略擁有較高的控制效率與精度。北京控制工程研究所曾多次參與研發我國重大航天探測任務,如“嫦娥”系列探測器的綜合控制系統等。他們的團隊提出了一種基于神經網絡的智能協同控制系統,該系統的控制策略的開創性實現了雙組神經網絡一致性協議下的協同控制,通過一組循環神經網絡,根據其他衛星的狀態進行高頻次預測,預測結果收斂后再通過另一組循環神經網絡將預先輸入的二階理想控制律轉變為衛星姿控執行機構的輸出量以完成協同控制。在他們的仿真實驗中,這套協同控制策略能夠有效地應對類似多衛星近距離協同這樣的復雜指令環境,并且有著理論上良好的魯棒性,對模型誤差有著良好的適應性。
本文主要著眼于未來數年人工智能技術在航天任務中的應用前景,梳理了共軌位智能監測協同控制的發展現狀,總結了相關關鍵技術的開發和未來應用所面臨的挑戰。根據調研,各國的該領域學者已經針對航天器智能化進行了大量且深入的研究,研究取得了顯著的成果。
智能化協同監測是航天測控的一大主要發展方向,其根本目的是提高航天器的任務效率并盡可能減小對地面測控的依賴,是未來大規模集群協同任務的關鍵所在。航天智能化領域不可避免地成為了國際競爭的又一新焦點。航天器協同任務的高度智能化將會深刻地影響包括軌道軍事、航天基建、深空科研等諸多領域。