文鵬程 白林亭 高澤 程陶然
摘要:近年來,以深度學習為代表的人工智能技術在民用領域飛速發(fā)展。在航空應用方面,人工智能技術將發(fā)揮重要的作用。人工智能技術在航空領域的應用,必須要考慮機載環(huán)境的約束和限制,尤其對智能計算處理器更是有著嚴格的要求。綜合考慮人工智能技術的機載應用場景、計算特性和算力需求,通過分析研究通用處理器以及智能專用處理器的架構和適用性,基于異構融合的設計思想,提出了一條可行的技術實施路線,為機載智能應用提供計算支撐服務。
關鍵詞:航空人工智能;機載智能應用;OODA;智能計算;智能專用處理器;通用處理器
中圖分類號:V247.1文獻標識碼:ADOI:10.19452/j.issn1007-5453.2020.10.013
近年來,在算法、數(shù)據(jù)和算力的推動下,以深度學習為代表的人工智能技術迎來了第三次發(fā)展浪潮[1]。計算機視覺[2]、自然語言理解[3]、人機博弈[4]等領域,均取得了長足的進步,特定應用成果甚至已經(jīng)超越了人類的能力水平。
軍事方面,人工智能技術將催生新型作戰(zhàn)力量,顛覆傳統(tǒng)作戰(zhàn)模式,智能化成為未來戰(zhàn)爭的核心要素。映射至航空[5],人主機輔的輔助智能有助于解決有人飛機的一系列問題,如多任務并發(fā)、信息量飽和引發(fā)的飛行員工作負荷過載問題,高動態(tài)、強對抗、復雜環(huán)境下的方案最優(yōu)選擇問題、記憶性序列操作與稀少性操作引發(fā)的飛行員動作失誤問題等;人輔機主的自主智能有助于使無人飛機變得更加聰明,自動勝任“臟活”“累活”和“枯燥的活”;人機融合的協(xié)同智能有助于有人/無人飛機構建最優(yōu)作戰(zhàn)集合,降低“戰(zhàn)爭迷霧”,提高作戰(zhàn)效率,增加靈活性。
人工智能技術的落地,必須依賴于某一種計算平臺,而計算平臺的核心關鍵就是處理器。此類處理器基于人工智能技術特定的計算背景,亦可稱之為智能計算處理器。人工智能技術在航空領域的應用,必須要考慮機載環(huán)境的約束和限制,尤其對智能計算處理器更是有著嚴格的要求,它是所有智能算法高效執(zhí)行的硬件基礎。為此,本文綜合考慮人工智能技術的機載應用場景、計算特性、算力需求,通過分析研究通用處理器以及智能專用處理器的架構和適用性,以期提出一條可行的技術實施路線,為機載智能應用提供計算支撐服務。
1機載智能應用特性分析
OODA理論[6]是由John Boyd從一對一空戰(zhàn)經(jīng)驗中提出的,它由“觀察”(Observation)、“判斷”(Orientation)、“決策”(Decision)和“執(zhí)行”(Action)4個環(huán)節(jié)構成,具有循環(huán)性、時效性、嵌套性等特點。在作戰(zhàn)中,對抗各方會不斷觀察周圍環(huán)境、獲取相關信息、判斷威脅、即時調(diào)整、做出決策,并采取相應的行動。如能夠努力縮短己方的OODA周期,并盡可能地增加敵方的OODA周期,使己方的響應時間短于敵方的響應時間,就能夠掌握作戰(zhàn)的主動權,獲得巨大的優(yōu)勢。
人工智能技術與OODA相結合,它將實現(xiàn)對OODA4個環(huán)節(jié)的全覆蓋,有助于大幅縮短OODA周期,進而以快制勝。其應用模式如圖1所示。當外部戰(zhàn)場環(huán)境信息經(jīng)傳感器采入后,觀察環(huán)節(jié)利用模板匹配、卷積神經(jīng)網(wǎng)絡(CNN)、循環(huán)神經(jīng)網(wǎng)絡(RNN)等算法對信息進行處理,提取出有效特征,完成目標感知與環(huán)境理解。判斷環(huán)節(jié)將上述結果進行融合,并結合自身的狀態(tài)信息,利用知識圖譜、專家系統(tǒng)、長短時記憶網(wǎng)路(LSTM)等算法完成戰(zhàn)場態(tài)勢分析與威脅評估。然后轉(zhuǎn)入決策環(huán)節(jié),該環(huán)節(jié)利用決策樹、模糊推理[7]、遺傳、差分進化、粒子群等算法對己方下一步的行為動作進行引導,完成任務規(guī)劃與攻防決策。行動環(huán)節(jié)根據(jù)決策結果,利用行為樹、強化學習等算法執(zhí)行具體的任務,完成火力打擊與支援保障。
將上述算法進行分類,大體可以分為數(shù)據(jù)驅(qū)動類算法、知識驅(qū)動類算法和智能優(yōu)化類算法三類,如圖2所示。
(1)數(shù)據(jù)驅(qū)動類算法
以深度神經(jīng)網(wǎng)絡為代表,基于對數(shù)據(jù)的表征學習,通過組合低層特征,形成更加抽象的高層表示,進而發(fā)現(xiàn)數(shù)據(jù)的屬性類別。
(2)知識驅(qū)動類算法
以專家系統(tǒng)、決策樹為代表,能夠有效利用人類長期總結出的各類先驗知識,通過對已有知識的推理,尋求隱藏的關聯(lián)知識和結論,進而求解相應的問題。
(3)智能優(yōu)化類算法
智能優(yōu)化類算法又分為進化優(yōu)化和群體優(yōu)化兩類。進化優(yōu)化以遺傳、差分進化為代表,它起源于達爾文的進化論思想,通過模擬不同生物的進化過程和機制,以自組織、自適應、自學習的方式求解問題。群體優(yōu)化以粒子群為代表,它是一種仿生啟發(fā)式算法,通過模擬自然界中生物的各類生活習性,實現(xiàn)對復雜問題的優(yōu)化求解。對三類智能算法的計算特性及算力需求進行分析,結果見表1。
此外,智能算法的機載實現(xiàn)還需要考慮以下幾點非功能屬性要求:
(1)實時性、確定性、可信性要求
機載智能計算系統(tǒng)必須實時給出確定的、可信的計算結果。
(2)高性能密度、低功耗要求
機載智能計算系統(tǒng)必須在計算/通信/存儲資源、體積、重量、功耗受限條件下實現(xiàn)對多樣化智能應用的高性能計算支撐。
(3)抗惡劣環(huán)境、高可靠要求
機載智能計算系統(tǒng)必須適應物理環(huán)境、電磁環(huán)境、賽博空間環(huán)境的影響,具備高可靠的運行能力。
2通用處理器智能計算適用性分析
在機載領域,通用處理器主要包括中央處理器(CPU)、圖形處理器(GPU)、數(shù)字信號處理器(DSP)、現(xiàn)場可編程門陣列(FPGA)4大類,它們有著各自特定的應用場景,其計算架構和計算能力有著不一樣的設計。映射到智能計算領域,它們適用的智能應用場景以及針對不同類型智能算法的計算速度和功率消耗會有所不同。開發(fā)人員上手的難易程度、對關鍵函數(shù)、關鍵運算的優(yōu)化加速技巧也是機載實現(xiàn)需要考慮的因素。
2.1 CPU
CPU作為一款靈活性和通用性兼顧的處理器,最初的設計使用串行計算架構,其大量的硬件資源被用于指令調(diào)度。CPU在執(zhí)行邏輯判斷與分支跳轉(zhuǎn)指令時,具有極大的優(yōu)勢。專家系統(tǒng)、決策樹、遺傳進化、粒子群等知識驅(qū)動類與智能優(yōu)化類算法的實現(xiàn),CPU是很好的選擇。
不過,CPU并不適合于神經(jīng)網(wǎng)絡尤其是深度神經(jīng)網(wǎng)絡等數(shù)據(jù)驅(qū)動類算法的計算。盡管使用編程語言在CPU上模擬神經(jīng)網(wǎng)絡的工作原理是神經(jīng)網(wǎng)絡最早也是最基本的研究手段,它實現(xiàn)簡單、易于更改,但CPU的架構設計限制了神經(jīng)網(wǎng)絡計算速度的提升。即便是多核CPU能夠提供一定的并行計算能力,它仍然無法滿足隨神經(jīng)網(wǎng)絡飛速發(fā)展一起增長的模型規(guī)模、乘加計算量、數(shù)據(jù)交互量的需求。
2.2 GPU
GPU最早是為生成計算機多邊形網(wǎng)格圖形而設計的。它使用并行計算架構,通過壓縮緩存空間、減少邏輯控制單元、增加計算單元、擴大數(shù)據(jù)吞吐等方法,提供大規(guī)模并行計算能力。相比于CPU,GPU在矩陣乘法的計算上十分高效,可以很好地適應神經(jīng)網(wǎng)絡高度并行化的計算特點,大幅縮短計算時間,提升計算效能。
但是,從智能計算的角度看,GPU存在與CPU一樣的缺陷——處理器的底層架構并非專為智能計算而設計。GPU核可以看成是更為復雜的(用于分支預測和流程執(zhí)行的)CPU核的流線型版本。在實現(xiàn)大規(guī)模深度神經(jīng)網(wǎng)絡算法時,GPU同樣是通過集群的方式提高計算能力,進而也不可避免地會產(chǎn)生過高的功率消耗。只不過相比于CPU,GPU有著更高的性能功耗比。此外,由于GPU將更多的晶體管用于計算,其邏輯控制單元通常設計得比較簡單,調(diào)度管理能力也就相應地變?nèi)酰珿PU常常是以協(xié)處理器的形式配合CPU共同完成智能計算任務的。
2.3 DSP
DSP從字面意思上講,它是專用于數(shù)字信號處理的,設計的初衷是為了更好地實現(xiàn)矩陣乘加計算。由于主要針對電信應用,DSP核的數(shù)量往往不是很多(無須擁有16個或32個以上的核),但是這制約了DSP計算性能的大幅提升。當前,DSP的計算性能很難與GPU相匹敵,市場份額正在逐漸減少。
在智能計算方向,DSP的一種應用模式是將多個DSP核與CPU核集成,進而以SoC的形式為深度神經(jīng)網(wǎng)絡的執(zhí)行提供硬件基礎。
2.4 FPGA
FPGA最大的特點是可編程,通過燒入配置文件可以靈活應對多種應用場景,具備一定的通用性。此外,F(xiàn)PGA可以進行硬件功能的快速驗證與評估,加快設計迭代。更為重要的是,F(xiàn)PGA具有大量的邏輯單元和豐富的布線資源,可以讓神經(jīng)網(wǎng)絡實現(xiàn)充分的并行,進而達到計算加速的目的。
與CPU相比,F(xiàn)PGA呈現(xiàn)出兩個特點。一是FPGA每個邏輯單元的功能在編程(燒寫)時就已經(jīng)確定,不需要指令,也不需要指令存儲器、譯碼器、運算器等,因此功耗更低。二是FPGA中的寄存器和片上內(nèi)存均屬于各自的控制邏輯,不需要額外的仲裁和緩存,因此速度更快。
與GPU相比,F(xiàn)PGA同時擁有硬件流水線并行和數(shù)據(jù)并行兩種處理能力,且整數(shù)運算性能更高。對于流式計算任務,F(xiàn)PGA的計算延遲要低很多,因此常用于深度神經(jīng)網(wǎng)絡的推理[8]。不過,F(xiàn)PGA通過硬件邏輯實現(xiàn)軟件算法,由于工具層面相對缺失,因此在實現(xiàn)復雜算法時開發(fā)難度較大,需要開發(fā)人員擁有足夠的經(jīng)驗,這也是目前FPGA應用過程中最大的短板。
2.5對比分析
CPU、GPU、DSP、FPGA等通用處理器架構特性及其智能計算適用性對比分析見表2。
3智能專用處理器機載適用性分析
從廣義上講,只要能夠運行人工智能算法的處理器都可稱為智能處理器。但是,通常意義上,智能專用處理器指的是針對人工智能算法做了特殊加速設計的處理器。現(xiàn)階段,這些人工智能算法一般以深度學習算法為主,也可以包括其他機器學習算法。
國外智能專用處理器產(chǎn)品相對成熟,市場也較穩(wěn)定,主要有谷歌的張量處理器(TPU)、IBM的真北(TrueNorth)等。但考慮到自主可控的因素,本文更加關注國內(nèi)智能專用處理器的發(fā)展。目前,國內(nèi)已呈現(xiàn)出百花齊放的態(tài)勢,參與競爭的單位既有像寒武紀、比特大陸、地平線這樣的創(chuàng)業(yè)公司,也有像華為這樣的IT巨頭,還有像清華大學、浙江大學這樣的研究機構。它們都不是針對機載環(huán)境設計的,若要應用于機載環(huán)境,必須做特殊的處理。
自2013年起,寒武紀先后發(fā)布了一系列智能專用處理器,包括國際首個深度學習處理器DianNao[9]、國際首個多核深度學習處理器DaDianNao[10]、國際首個通用機器學習處理器PuDianNao[11],以及專用于攝像頭智能識別ShiDianNao[12]。寒武紀系列處理器的主要設計思想是:在提高計算處理能力的同時,優(yōu)化存儲資源的訪問效率,使得計算和存儲訪問更加平衡,進而獲得更高的能效比。其關鍵技術是:通過使用片內(nèi)存儲,取消片外的動態(tài)隨機存取存儲器(DRAM),降低訪存時延/功耗;優(yōu)化存儲架構及其物理布局,減小數(shù)據(jù)傳輸距離和通信時延。
目前,DianNao已經(jīng)形成了物理實體,并進行了試驗流片,但是未對外出售。DaDianNao也形成了物理實體,并進行了商用流片。不過,由于它面向的是服務器應用,其功耗無法滿足機載計算系統(tǒng)約束。此外,由于它目前采用的設計標準是商用標準,其工作溫度、振動性能等也與機載計算系統(tǒng)的要求相距甚遠。在實際使用時必須進行特殊的關核處理以限制功耗,同時進行嚴格的芯片篩選篩查工作以確保環(huán)境適用性。
比特大陸共推出了三款智能專用處理器。其中,BM1680是第一代產(chǎn)品。它集成有64個神經(jīng)網(wǎng)絡處理單元(NPU),由NPU調(diào)度引擎(NPU Schedule Engine)進行統(tǒng)一調(diào)度,以最大化提高NPU的使用效率。此外,它還加入了全局直接存儲器訪問(Global DMA)模塊,用于大塊數(shù)據(jù)的讀寫搬移。BM1682是第二代產(chǎn)品。它更加專注于CNN、RNN等深度神經(jīng)網(wǎng)絡模型的推理。在28nm工藝下算力達到3TFLOPS@FP32,平均功耗僅為30W,實際性能在BM1680的基礎上提升5倍以上。
BM1880是面向邊緣計算的產(chǎn)品。它的核心是一個張量計算單元,包含512個乘加計算器(MAC),支持Winograd卷積運算。此外,它還配置了2MB的靜態(tài)隨機存取存儲器(SRAM),用于系統(tǒng)性能優(yōu)化、數(shù)據(jù)重用,以提供最佳的編程靈活性。BM1880的調(diào)度引擎可以為張量計算單元提供極高的數(shù)據(jù)帶寬,對于8位數(shù)據(jù)寬度的數(shù)據(jù),其算力可達1TOPS,而在Wingorad卷積加速運算模式下,算力高達2TOPS。BM1880的典型功耗僅有2.5W。
與寒武紀的產(chǎn)品類似,比特大陸的產(chǎn)品目前也采用的是商用設計標準,機載計算系統(tǒng)若想應用,必須進行芯片篩選篩查工作。
地平線自主設計研發(fā)的智能專用處理器架構BPU(brain processing unit),是典型的異構多指令多數(shù)據(jù)架構。由于對存儲單元進行了特別優(yōu)化,數(shù)據(jù)能夠自由傳遞,并完成多種計算,提高計算效率。
按照感知、建模、決策三個階段,BPU對應規(guī)劃了名為高斯、伯努利和貝葉斯的三代產(chǎn)品。作為它們的具化形式,“旭日”和“征程”兩個系列的處理器產(chǎn)品分別面向智能攝像頭和智能駕駛領域,專用性較強。
機載應用時必須針對特定的場景,完成算法的遷移和適配,并盡可能地實現(xiàn)性能的進一步優(yōu)化。
華為研制的Ascend310是一款應用于端系統(tǒng)的低功耗智能計算片上系統(tǒng)(SoC)。它集成了兩個AI Core,主要負責執(zhí)行矩陣、向量計算密集的算子任務;集成了8個ARM Cortex A55,其中一部分A55可部署為AI CPU,負責執(zhí)行不適合跑在AI Core上的算子。此外,它采用層次化的片內(nèi)memory結構,除了AI Core內(nèi)部有兩級memory buffer外,SoC芯片上還有8MB L2 buffer,專用于為AI Core、AI CPU提供高帶寬、低延遲的memory訪問。
不過,華為的處理器產(chǎn)品主要供內(nèi)部使用,對外開放程度并不高,尤其在軟件框架和工具支持層面,如何與機載計算系統(tǒng)相結合,是一個不得不考慮的問題。
清華大學類腦研究中心發(fā)布的神經(jīng)形態(tài)處理器天機(Tianjic)[13],將人工神經(jīng)網(wǎng)絡(ANN)和脈沖神經(jīng)網(wǎng)絡(SNN)進行異構融合,兼顧目前技術成熟度相對較高的深度學習模型和未來有巨大發(fā)展?jié)摿Φ念惸X認知模型,可用于計算機視覺、自然語言理解、目標檢測、識別、跟蹤等多種應用開發(fā)。
盡管清華大學類腦研究中心已經(jīng)跑通了“建模—仿真—驗證—應用演示”的全套流程,擁有完整的硬件平臺和軟件工具鏈,但由于Tianjic是一款概念很新的處理器,其開發(fā)與測試環(huán)境與以往有很大的不同,因此上手并不容易。
浙江大學聯(lián)合杭州電子科技大學發(fā)布的神經(jīng)形態(tài)處理器達爾文(Darwin)[14],僅針對脈沖神經(jīng)網(wǎng)絡處理,其原理和功能特性與IBM的TrueNorth十分相似,但規(guī)模比TrueNorth小很多。Darwin支持8個物理神經(jīng)元,通過時分復用最大能夠模擬2048個邏輯神經(jīng)元、2048×2048個突觸,以及15個突觸延時。與清華大學的Tianjic一樣,Darwin的開發(fā)與測試環(huán)境上手也很困難。
上述智能專用處理器架構特性及其機載適用性對比分析見表3。
4結束語
綜合考慮人工智能技術的機載應用場景、計算特性、算力需求和機載實現(xiàn)的非功能屬性要求,通過對通用處理器以及智能專用處理器的架構研究與分析發(fā)現(xiàn),通用處理器在應對不同類型的智能算法時,體現(xiàn)出了截然不同的適用性。而智能專用處理器在應對特定的智能算法時,其計算效能相比于通用處理器有著極大的優(yōu)勢。但是,智能專用處理器往往存在通用計算能力弱和無法進行多任務管理調(diào)度的問題,在機載應用過程中也有著諸多限制。因此,一種可行的技術路線是實施通用處理器與智能專用處理器的異構融合設計,以便充分發(fā)揮它們各自的優(yōu)勢,進而為機載智能應用提供計算支撐服務,實現(xiàn)對OODA全過程任務鏈多樣化智能應用的全覆蓋。相比于之前僅能支撐某一個或某幾個特定智能應用以及諸多約束和限制,技術上有了明顯的進步。
參考文獻
[1]吳朝暉.人工智能的過去、現(xiàn)狀和未來[J].未來傳播, 2019, 26(3): 2-5. Wu Zhaohui. The past, present and future of artificial intelligence[J]. Future Communication, 2019, 26(3): 2-5.(in Chinese)
[2]He K,Zhang X,Ren S,et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2016:770-778.
[3]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need [C]// Proceedings of the 31st Conference on Neural Information Processing Systems(NIPS 2017),2017.
[4]Silver D,Huang A,Maddison C J,et al. Mastering the game of go with deep neural networks and tree search[J]. Nature,2016,529:484-489.
[5]閆曉婧,楊濤,藥紅紅.國外第六代戰(zhàn)斗機概念方案與關鍵技術[J].航空科學技術, 2018, 29(4):18-26. Yan Xiaojing, Yang Tao, Yao Honghong. Conceptual scheme and key technologies of sixth generation fighters[J]. Aeronautical Science & Technology, 2018,29(4):18-26.(in Chinese)
[6]張宇,黃建新.應用OODA環(huán)模型研究裝備對體系貢獻程度[J].現(xiàn)代防御技術, 2017, 45(2):177-182. Zhang Yu, Huang Jianxin. Study on contribution degree of equipment to system of systems using OODA loop model [J]. Modern Defence Technology, 2017, 45(2):177-182.(in Chinese)
[7]陳杰,程勝,徐夢.基于模糊控制理論的智能體運動控制方法[J].航空科學技術, 2019, 30(2):74-78. Chen Jie,Cheng Sheng,Xu Meng. Research on an agent control method based on fuzzy control[J]. Aeronautical Science& Technology,2019,30(2):74-78.(in Chinese)
[8]Shawahna A,Sait S M,El-Maleh A. FPGA-based accelerators of deep learning networks for learning and classification:a review[J]. IEEEAccess,2018(4):1-41.
[9]Chen Tianshi,Du Zidong,Sun Ninghui,et al. DianNao:a small-footprint high-throughput accelerator for ubiquitous machine-learning[C]// Proceedings of the 19th International ConferenceonArchitecturalSupportforProgramming Languages and Operating Systems(ASPLOS 2014),2014.
[10]Chen Yunji,Luo Tao,Liu Shaoli,et al. DaDianNao:a machine-learning supercomputer[C]// Proceedings of the 47th IEEE/ACM International Symposium on Microarchitecture(MICRO 2014),2014.
[11]Liu Daofu,Chen Tianshi,Liu Shaoli,et al. PuDianNao:a polyvalent machine learning accelerator[C]// Proceedings of the 20th International Conference on Architectural Support for Programming Languages and Operating Systems(ASPLOS 2015),2015.
[12]Du Zidong,F(xiàn)asthuber R,Chen Tianshi,et al. ShiDianNao:shifting vision processing closer to the sensor[C]// Proceedings of the 42nd ACM/IEEE International Symposium on Computer Architecture(ISCA2015),2015.
[13]Shen Juncheng,Ma De,Gu Zonghua,et al. Darwin:a neuromorphic hardware co-processor based on Spiking Neural Networks[J]. Science China(Information Sciences),2016,59(2):1-5.
[14]Pei Jing,Deng Lei,Song Sen,et al. Towards artificial general intelligence with hybrid Tianjic chip architecture[J]. Nature, 2019,572:106-111.(責任編輯王為)
作者簡介
文鵬程(1981-)男,博士,研究員。主要研究方向:嵌入式智能計算、智能信息處理、機載智能應用。
Tel:029-89186541
E-mail:wpcheng@avic.com
白林亭(1990-)男,碩士,工程師。主要研究方向:可解釋智能、智能計算測評。
高澤(1994-)男,碩士,助理工程師。主要研究方向:知識工程、智能計算測評。
程陶然(1991-)女,碩士,工程師。主要研究方向:智能信息處理、機載智能應用。
Analysis and Research of Intelligent Computing Processors for Airborne Environment
Wen Pengcheng*,Bai Linting,Gao Ze,Cheng Taoran
Aviation Key Laboratory of Science and Technology on Airborne and Missileborne Computer,AVIC Xian Aeronautics Computing Technique Research Institute,Xian 710065,China
Abstract: In recent years, artificial intelligence technology represented by deep learning has developed rapidly in the civil field. While for military application, such as aviation, AI technology will also play an important role. The AI application in the field of aviation must consider the constraints and limitations of the airborne environment, especially for the intelligent computing processors. Considering the airborne application scenario, computing characteristics and computing power requirements, the architecture and applicability of general purpose processors and AI processors were analyzed and studied. Then a feasible technical implementation route was proposed based on the idea of heterogeneous integration. It could provide basic computing services for airborne intelligent applications.
Key Words: aeronautical artificial intelligence; airborne intelligent application; OODA; intelligent computing; AI processor; general purpose processor