李子杏,蘭 珍,唐鄧清,閆 超,相曉嘉,周 晗
國防科技大學 智能科學學院,長沙 410073
近年來,隨著機器學習方法的迅速發展,計算機視覺技術在人臉識別、圖像檢索、人體動作捕捉等應用領域都取得了突破性進展。盡管目前計算機視覺目標檢測的效率和速率較過去已有明顯提高,但完全依賴計算機目標檢測算法依舊難以適應復雜場景的需求。例如,在自動駕駛、戰場作戰和視頻監控等領域,需要準確快速地識別當前接收到的圖像,并抵抗天氣以及復雜環境的影響。
相較于計算機,人腦具有處理復雜情況的特殊能力,能夠在幾百毫秒內對一幅圖片或者一個場景的重點敏感信息產生神經響應。其優勢可分為兩個方面:
(1)高級的認知能力。即人腦對包括情感處理、語義理解和時間相關等非結構化的復雜信息具有卓越的認知能力。
(2)快速的感知能力。人類總是可以自動、快速地從感知覺信息中提取統計結果或相應規律,且該過程通常是無意識的,不需要任務相關。
因此,結合計算機視覺強大的信息處理能力以及人腦的復雜場景和敏感信息認知和感知能力,開展多模態融合方法研究,逐漸成為現今目標檢測領域的研究熱點。
腦機接口(Brain Computer Interface,BCI)系統能夠對大腦活動進行在線解碼以響應特定的事件。目前該技術在醫療保健、娛樂文化、軍事作戰等領域得到了初步的應用。在各種監測大腦活動的方法中,腦電圖(Electroencephalogram,EEG)憑借無創、相對便攜、價格低和高時間分辨率等優點成為研究BCI的主要手段。基于EEG的事件相關電位(Event-Related Potentials,ERP)是一種特殊的腦誘發電位,能夠根據人所產生的認知行為反映大腦中的神經電生理變化,從而較好地反應人腦對敏感信息的處理過程。作為BCI系統的重要分支之一,基于事件相關電位的BCI系統與特定的事件相關,是獨立于自發腦電的高級認知活動。國內外諸多機構和團隊正在從事相關研究工作,并取得了豐碩的研究成果。
在ERP信號中,存在許多ERP成分與目標檢測相關,例如N200、P300等[1-4]。由于ERP信號具有特定的波形和電位分布,且潛伏期與刺激之間存在嚴格的鎖時關系,因此可以通過以RSVP為主的實驗范式高效率地提取大腦在觀看目標時產生的ERP信號,在計算機處理后即可完成目標檢測。
基于ERP信號的目標檢測系統流程如圖1所示,主要包括實驗范式設計、腦電信號數據采集、腦電信號分析等步驟。

圖1 基于ERP信號的目標檢測流程Fig.1 Target detection process based on ERP signal
本文將對基于ERP信號的目標檢測技術進行詳細的闡述和總結。首先將介紹以快速串行視覺呈現(Rapid Serial Visual Presentation task,RSVP)為主的實驗范式以及呈現模式、目標視場角、目標復雜度、目標刺激頻率與持續時間等實驗影響因素。隨后對目前腦電信號分析中的預處理、特征提取、特征分類算法進行分類總結。最后介紹人臉識別、軍事作戰、醫學分析等應用場景及研究現狀,指出目前存在的問題和挑戰并展望未來研究。
由Polich和Donchin于1988提出的Oddball范式[2]可以誘發P300等與刺激概率相關的ERP成分。基于Oddball范式衍生出了RSVP實驗范式,其通過一系列小概率出現的目標圖像和大概率出現的非目標圖像快速播放刺激被試,誘發ERP信號。通過檢測ERP信號中受刺激概率影響的P300等電位,可以鎖定目標圖像出現的時間,實現目標檢測。
如何設計實驗范式誘發更明顯的ERP信號,提高目標檢測效率,一直是相關領域的研究熱點。下文主要針對RSVP實驗范式中的呈現模式、目標視場角、目標復雜度、目標刺激頻率與持續時間等方面進行總結。
RSVP實驗范式的呈現模式可分為靜態模式和動態模式[5-7],分別指根據特定頻率顯示的靜態目標圖像和運動目標動圖或視頻。
1.1.1 靜態模式
靜態模式常用于醫學、分類器等應用領域。在靜態模式下圖像在屏幕的持續時間自行設定,通常設置在50~500 ms,其對P300電位的影響將在1.4節中具體描述。為達到實驗效果,研究人員會向被試提出各種實驗要求,例如:
(1)被試看到目標圖像后,需要在連續顯示的圖像序列中識別目標圖像。在該過程中被試正確識別目標和非目標圖像的效率最多可以達到10張/s[7]。
(2)要求被試識別一種目標類型,比如一組圖像中的動物、植物等。在該模式下,圖像呈現速度相較于第一種情況有所放慢,大約為4張/s[8]。
(3)在向被試展示一系列圖像之后,提供被試一幅目標圖像,詢問被試該圖像是否出現在被展示的序列中。
1.1.2 動態模式
動態模式常用于視頻監控領域。在動態模式下,被試需要觀看一系列較短的視頻片段或動圖并在該過程中識別一個或多個目標。為得到較高的P300電位的幅度,目標在視頻中出現的時刻通常較為分散,以保證目標出現的突然性。
在實驗過程中,被試需要識別出如具體類別的目標,例如書籍、人等,又或是具體的事件,例如一個人將可疑的包裹留在火車站[9]。
目標視場角表示目標外緣與人眼視線形成的角度,結合了視覺角、被試與屏幕距離、圖像大小等方面的物理因素。
人眼最敏銳的視力范圍在1°~15°[10],當目標視場角在8°以內時,目標將映射在視網膜的黃斑[11]上,人眼聚焦效果更佳。早在2011年Dias等[12]便對目標視場角進行了研究。其他因素不變,當目標圖像處于被試視場中心時所有被試的目標檢測準確率均高于90%,目標偏離視場中心約4°時檢測準確率下降到50%,偏離8°時準確率繼續降低。但如果目標特征較為顯著,即使偏離視場中心較遠,被試也能夠一定程度地檢測目標。
褚凱軒等人[13]對此進一步分析目標視場角對RSVP目標檢測系統的影響。研究結果表明,當目標視場角在8°左右時被試的平均目標檢測率最高,達到82%以上,當目標視場角小于0.5°或大于15°時平均目標檢測率均出現了一定程度的衰減。
此外,文獻[14-15]還分別在4 Hz和10 Hz的播放幀率下采用6°×4°和26°的圖片視場角刺激被試。但由于圖片視場角無法表征實際目標的大小,無法體現出目標視場角對目標檢測準確率的影響。
目標復雜度體現了目標與非目標之間的差異化程度,目標與非目標之間的區別越大目標復雜度越小。在實際應用中,目標復雜度較大,目標與非目標之間往往無法完全區分,兩者可能共享一些相同特征[16]。例如外形類似的摩托車與自行車,這種情形在視頻監控領域尤為廣泛。
Marathe等[16]針對不同的目標復雜度開展目標檢測實驗,發現非目標圖像序列較復雜時相對于簡單的非目標圖像序列P300電位幅度明顯減小,復雜的非目標圖像序列明顯增長了被試的反應時間。Huang等[17]的實驗范式中目標和非目標圖像共享局部紋理等低級特征,目標復雜度較大,一定程度降低了檢測效果。
在不同應用中的目標復雜度也有所不同,視頻監控領域的目標刺激較為復雜,而數據分類領域呈現給被試的目標刺激與非目標刺激之間的區別更大,被試者更易識別[18]。在目標復雜度較大的實驗中,被試之間的差異會更加明顯,進而影響目標檢測準確率。經過訓練的被試能夠更快地從圖像序列中分辨目標刺激,而未經訓練的被試往往反應較慢。
調查表明,目前61%的研究中目標刺激占所有刺激的1%~10%,超過20%的研究占11%~20%[19]。其中Cecotti等[20]在分類人臉和汽車圖像時比較目標刺激概率的不同對分類效果的影響。實驗中共有8名被試,目標刺激概率分別為5%、10%、25%和50%,實驗結果表明當目標概率為10%時平均受試者工作特征曲線(Receiver Operating Characteristic curve,ROC)下方面積(Area Under the Curve of ROC,AUC)最佳。相對于5%,頻率為10%的目標刺激之間的較大間隔減少了峰值潛伏期,P300電位幅度增大[21]。
目標刺激出現的持續時間也是實驗范式的重要組成部分。大部分實驗目標刺激的持續時間通常在50~500 ms之間,隨著任務的不同而改變。為了防止出現掃視盲點[22],即一個人在兩個位置之間掃視前后50 ms發生的目標丟失,目標刺激的持續時間需要大于50 ms。部分研究者針對目標刺激持續時間的不同開展實驗,發現大多數實驗的目標刺激持續時間為100~200 ms時能較好平衡目標檢測正確率和實驗效率。Lees等[19]對目標刺激持續時間的相關實驗進行歸納,結果如表1所示。

表1 不同目標持續時間的RSVP相關實驗歸納Table 1 Induction of RSVP related experiments with different target durations
本章對RSVP實驗范式中的設計因素進行了詳細闡述,主要包括呈現模式、目標視場角、目標復雜度和目標刺激頻率與持續時間這四個方面。
任務復雜性、刺激復雜性、刺激值以及刺激傳遞在RSVP實驗范式中與P300電位的幅度有較為直接的關系[23]。因此,本章所選取的設計因素均包含一項或多項上述影響。
靜態和動態模式實驗的任務復雜度以及在其他條件一致時傳遞給被試的刺激均有所不同。靜態目標圖像的刺激傳達通常更加直接,刺激明顯,動態模式下的任務則較為復雜,刺激幅度小;目標視場角主要與刺激值和信息傳遞相關,最舒適的視覺效果在相同情況下信息傳遞更完整,可以給予被試更大的刺激值;目標復雜度直接影響了實驗范式的任務復雜性和刺激復雜性,呈正相關;目標刺激頻率與持續時間的設置與刺激值和信息傳遞有關,例如5%~20%的刺激頻率在其他條件一致時通常可以達到更好的刺激效果。
此外,在RSVP實驗范式中,不同應用的設計因素和側重點均有所差別。例如,在人臉識別領域中通常目標刺激的持續時間為500 ms[20,24-25],在傳統分類領域中刺激持續時間往往在100~200 ms之間[26-28]。由于任務復雜性較大,人臉識別實驗中被試需要花費更多時間對目標進行識別,以保證較高準確率。
腦電信號分析主要包括預處理、特征提取和特征分類三個部分。其中預處理方法包括定位通道數據、濾波、分段、基線校正、重參考等;特征提取算法包括獨立成分分析算法[3](Independent Component Analysis,ICA),CSP算法逐步回歸分析[29]等;特征分類算法包括支持向量機算法[1](Support Vector Machine,SVM)、LDA算法[29]、逐步線性判別分析算法[30]、邏輯回歸分析[31]等。此外,深度學習等端對端方法可以基于原始數據直接獲得分類結果,是目前BCI領域的研究熱點。
由于腦電信號具有低信噪比、個體差異性大、非平穩性等特點,對腦電信號進行預處理去除外界干擾噪聲和偽跡成分,對提高腦電信號的信噪比,減少信號的均方誤差具有重要意義。預處理的過程主要包括電極定位、剔除無用電極、重參考、濾波、重采樣、數據分段、基線校正、偽跡去除八個部分,具體流程如圖2所示。

圖2 預處理流程Fig.2 Pretreatment process
在采集到原始的腦電信號后將得到單個或多個通道的數據,每個通道的數據都代表頭皮下方具體位置上的電位。因此在導入數據后需要定位電極通道,匹配記錄數據時的位置。根據先驗知識可以預先刪除無用電極通道的數據,例如眼電通道的數據或是大腦后側等不敏感通道的數據。
為了防止數據受到單個位置較大影響,重參考對所有通道的數據進行全面參考。重參考后,利用低通濾波、高通濾波、帶通濾波或凹陷濾波可以衰減過濾明顯不具備目標特征的頻率信號。隨后,根據需要對信號進行重采樣,通常使用降采樣減小數據量,提高計算速度,在濾波后進行該操作可以防止高頻信息丟失。
為減少冗余數據,常通過數據分段選取出被試受到刺激前后的時間段,具體時間根據應用而定。數據分段后,通過基線校正將事件中的腦電電位減去發生事件前平靜狀態下的平均電位,可以去除數據漂移所帶來的影響,分辨目標時間對被試的實際影響。
目前常用的偽跡處理方法包括ICA和主成分分析法(Principal Component Analysis,PCA)[32],前者將每個記錄點的數據分解為獨立的組成成分,得到更加純凈的數據,后者將多通道數據降維,便于后續分析處理。此外,偽跡處理方法還包括小波變換、偽跡減法等。
常規用于描述腦電信號的特征包括時域波形、頻帶能量、空間分布特異性等,需要在空間濾波后進行提取,本節主要基于空間濾波器展開介紹。
獲得空間濾波器的方法可分為非數據驅動、數據驅動下的監督學習和數據驅動下的非監督學習,具體分類情況如圖3所示。與提取單一特征相比,將各種類型特征組合通常可以獲得更高的分類精度,但也會增加維數,需要選取最相關的特征,避免維數災難。
2.2.1 基于非數據驅動方法
空間濾波方法可以是數據無關的,例如為了放大頭皮下腦電信號而提出的共平均參考空間濾波、拉普拉斯濾波器算法[33]和基于逆解的空間濾波[34]等空間濾波器方法。
McFarland等[33]在提出共平均參考空間濾波和拉普拉斯濾波方法的同時還證明了其性能明顯優于雙耳參考方法。Alhaddad將十二種參考技術應用于P300分類器中,證明了共平均參考空間濾波最適合作為參考技術[35]。Cohen等[36]從電極連通性的角度分析了共平均參考與拉普拉斯方法等空間濾波方法的性能。2021年,Tsuchimoto等[37]確定共平均參考空間濾波和大拉普拉斯濾波是提取感覺運動節律特征的有效方法。
2.2.2 基于數據驅動下的非監督學習方法
空間濾波器也可以通過ICA、PCA和xDAWN[38]等方法以數據驅動和無監督學習的方式獲得[39]。ICA方法是Comon[40]在1994年為解決盲源分離問題而提出的,其基本思想是從一組混合的觀測信號中分離出獨立的源信號。此后又逐漸衍生出最大熵獨立成分分析算法[41]、基于牛頓下降法的快速獨立成分分析算法[42]、自動小波獨立成分分析算法[43]等。

圖3 特征提取算法Fig.3 Feature extraction algorithm
PCA方法通過去除數據冗雜,對數據進行降維,得到低維向量用于分類。Subasi等[32]提出了一個通用的EEG信號處理框架,并采用PCA、ICA等方法進行數據降維與特征提取,最后通過SVM進行分類,取得了較好的分類結果。Costa等[44]探究了PCA在處理小樣本數據時的穩定性,提出了一種驗證方法,并把此方法應用于EEG數據處理。xDAWN算法是由Rivet等[38]提出的一種非監督算法,其通過構建空間濾波器特異性提高ERP的信噪比。
2.2.3 基于數據驅動下的監督學習方法
在監督學習下以數據驅動的方式獲得空間濾波器是當前最受歡迎的方法之一。基于該類方法的空間濾波器包括專用于頻帶功率特征和振蕩活動BCI的公共空間模式(CSP)[45]、基于時間點特征用于ERP分類的典型相關分析[46]和線性判別分析方法[32]。
典型相關分析方法是由Hotelling等[47]提出來的一種多元統計方法,在基于事件相關電位和穩態視覺誘發電位的BCI中均有應用,且相對于一些傳統方法具有顯著優勢。2020年,Díaz等[48]將典型相關分析方法與正則化邏輯回歸方法對P300信號進行分類,在小樣本數據情況下實現較高分類精度。線性判別分析方法將高維樣本數據投影至低維空間,保證樣本數據在該空間中有最大類間距離和最小類內距離,具有計算量低、分類效果良好等優點,但存在過擬合問題。此外研究者還提出了矩陣線性判別分析[49]、逐步線性判別分析[50]等方法。
2.2.4 特征提取算法小結
基于不同方式構建空間濾波器的特征提取算法各有側重點,每類方法的策略特點有所不同。本文舉例基于腦電信號的特征提取算法,具體方法和策略特點對比分析如表2所示。
在三類方法當中,基于非數據驅動的方法具有較強泛化能力,不受數據影響,但也因此對于腦電信號的分類精度較低,缺乏特異性。相對而言,數據驅動方法能夠更加貼近具體應用,分類精度與數據的類型數量和準確度息息相關。針對ERP分類提出的xDAWN算法[38]在精確度和計算復雜度上均有較好的表現。基于數據驅動的非監督學習方法可用于未知數據預測,計算速率往往較低。監督學習方法可針對特定輸出的輸入數據進行訓練,并在訓練過程中對系統進行微調以接近目標精度,計算成本可根據具體進行調整。
目前基于數據驅動下的監督學習方法受到較多相關研究的青睞[48,51-53],利用標定的樣本數據在較低計算成本情況下實現較高分類精度。三類方法側重不同,可根據具體應用進行選取。

表2 特征提取算法對比Table 2 Comparison of feature extraction algorithms
在完成腦電信號的特征提取后,亟需選擇合適的分類方法對腦電信號特征進行有效分類和識別。隨著機器學習和人工智能領域的不斷發展,目前的特征分類算法主要分為空間濾波、傳統機器學習、深度學習、遷移學習四類方法,具體如圖4所示。
2.3.1 空間濾波
基于空間濾波的信號分類方法將多通道信號組合成一個新的時間序列,對其提取特征并選取后再進行分類。現有方法包括公共空間模式及其衍生的公共空間-頻譜模式[54]、公共稀疏空間-頻譜模式[55]、公共空間-時間模式[56]、雙線性公共空間[57]等算法。
此外,Sajda等[58]采用結構化判決成分分析方法(Hierarchical Discriminant Component Analysis,HDCA),對記錄的64通道腦電信號進行先空間再時間的線性加權,實現圖像集的實時分類評分。Marathe等[59]基于HDCA提出改進的滑動HDCA算法克服神經反應的時間變異性。
2.3.2 傳統機器學習
傳統機器學習方法經過長時間的發展衍生出了K近鄰方法、支持向量機、決策樹、邏輯回歸等方法。相對于現今火熱的深度學習方法而言,傳統機器學習方法可以較好地解決小數據問題,對硬件的要求較低。
在腦電信號領域,傳統機器學習方法也有著大量運用。Mathan等[60]采用支持向量機(SVM)方法將某被試訓練得出的分類器應用于其他被試,證明RSVP系統具有在不同被試之間的泛化能力。Xiao等[61]提出了判別典型模式匹配的特征分類方法,證明了該方法識別ERP各個區域的泛化能力。

圖4 特征分類算法Fig.4 Feature classification algorithm
2.3.3 深度學習
深度學習作為近年來發展最為迅猛的一種機器學習方法,已經廣泛應用于自動語音識別、圖像識別、自然語言處理、醫療開發等諸多領域。卷積神經網絡(Convolutional Neural Networks,CNN)、受限玻爾茲曼機(Restricted Boltzmann Machines,RBM)和深層信念網絡(Deep Belief Network,DBN)等架構也越來越多地應用于腦電信號解碼。P300檢測方面的研究主要基于卷積神經網絡(CNN)[62]、長短期記憶網絡(LSTM)[63]等。此外,還衍生出了EEGNet[64]、BN3[65]、MACRO[66]等網絡模型,這些方法通過特定的網絡結構,利用大量的訓練參數和訓練數據集提取時空信息。
為解決對于大量訓練樣本的需求,Ma等[67]提出基于膠囊網絡的深度學習方法,在增加可解釋性的同時提高了檢測精度,但由于維度的增加計算較為復雜。
2.3.4 遷移學習
遷移學習通過利用在已有問題或者案例上獲得廣泛可行的先驗知識,遷移到其他領域幫助進行預訓練,使得實驗程序能夠更快地識別新的數據,排除大部分錯誤。遷移學習在源和目標域的作用過程如圖5所示。

圖5 遷移學習在源域和目標域的作用過程Fig.5 Process of transfer learning in source domain and target domain
Wang等[68]于2011年通過遷移學習將來自給定域的EEG數據或分類器進行轉換,從而將數據或分類器從源域轉移到目標域,但這增加了目標域的數據量。Sangineto等[69]采用直推式參數遷移方法通過對一組源對象學習特定的分類器來計算沒有標記目標數據的個性化模型。Waytowich等[70]利用基于信息幾何的頻譜遷移方法將訓練好的分類器與其他個體數據結合,實現了無監督的BCI遷移學習。
在BCI系統中,利用遷移學習方法可以使用其他實驗中的大規模數據,消除針對特定被試數據校準的需要[71],填補深度學習方法樣本量較小的短板。
2.3.5 特征分類算法小結
針對不同類型的特征分類算法,本文列舉了相關研究文獻并進行對比分析,具體如表3所示。

表3 特征分類算法對比Table 3 Comparison of feature classification algorithms
空間濾波方法需要在特征提取后人工選取重要特征再進行分類,其對特定因素的針對性強,但算法往往較為復雜,且精度受到特征選取的影響。傳統機器學習算法相對來說復雜度有所降低,可適用于各種特征數據的分類且所需數據集較小,算法的可解釋性強。
深度學習屬于端到端學習,其結構簡單并且可移植到各類任務,分類精度高,但對樣本數據量需求較高。遷移學習方法通過將大量先驗知識遷移到特定任務,可與深度學習相結合解決樣本數據量需求大的問題,但其在線應用能力較弱。
本節搜集了近兩年基于ERP信號的目標檢測相關研究文獻,歸納了這些研究的機制、局限性、優勢和適用場景,具體如表4所示。

表4 基于ERP信號的目標檢測技術相關研究Table 4 Research on target detection technology based on ERP signal
現今深度學習方法在腦電領域的目標檢測技術中取得了較大進展,其主要優勢體現在可同時自動提取特征和分類,跨主題泛化能力強,在大量樣本數據支撐下的分類精度高。但其樣本數據需求大、解釋能力差等缺陷也十分突出。因此,研究學者們也相應提出了膠囊網絡[67]、腦電數據合成[83]、遷移學習[78]等各類方法,實現在小樣本數據下的高精度分類。基于空間濾波和傳統機器學習等方法雖然往往計算復雜度較高,但其可解釋性強的特點可以幫助研究者更有針對性地提升實際應用中的效能[61,75,80]。
此外,從更深層次研究被試的注意力機制,設計更好的實驗范式依舊是該領域的研究熱點[74,79,82,84]。
綜上,設計更有效的實驗范式,開發泛化能力和魯棒性強的在線算法處理小訓練樣本、低信噪比信號、高維和非平穩數據實現高分類精度仍是目前需要研究的課題。
基于ERP信號的目標檢測系統可以應用在現實世界中的各個領域。該技術充分利用人腦在視覺等復雜信息處理方面具有的高效、魯棒、抗噪以及能夠及時抽象出主體特征的優點來檢測人眼聚焦范圍內的目標,具有廣泛的應用前景。下面將介紹該技術在人臉識別、軍事作戰和醫學領域的研究應用。
在計算機視覺領域中人臉識別算法發展迅速,但人臉識別的魯棒性還有待提高,當人臉受到照明、遮擋等方面的影響或者頭部姿勢不對時識別效果仍然不佳。因此研究學者們逐漸將目光放到了將人腦和計算機結合的領域,嘗試利用人腦識別目標的魯棒性和計算機的高速計算和存儲容量,實現更加精確的人臉檢索。
2008年,Kapoor等[86]采用核校準方法融合EEG和圖像特征,實現對人臉/動物/非動物三類圖像的分類。Touryan等[87]于2011年利用RSVP實驗范式研究人們觀察不同熟悉人臉產生的ERP波形時發現N400和FP600電位信號與人臉熟悉程度相關,人臉越熟悉幅值越大,并實現了較高效率的在線分類。2014年,Cecotti等[15]通過實驗將目標人臉和非目標汽車區分開來,其中人臉圖片來自馬克斯·普朗克生物控制論研究所的人臉數據庫。2019年,Zeng等[88]提出了一種基于人臉的RSVP實驗范式,通過結合人臉特征和EEG特征設計了一種穩定的身份驗證框架,該方法可實現6 s以內94.26%的平均認證精度,該人臉RSVP范式如圖6所示[88]。2020年,Rollins等[89]研究社會分類對面孔識別的影響,發現P1和N170的ERP成分不受面孔的社會分類影響,P2和N250受到年齡分類的影響。2021年,Guillaume等[90]在研究精神分裂癥患者的記憶缺陷時通過比對陌生人臉的識別中的事件相關電位成分,發現精神分裂癥患者將他們的記憶建立在一種異常的提取模式。

圖6 人臉RSVP實驗范式Fig.6 RSVP experimental paradigm for human face
在軍事領域當中,美國國防部于2008年啟動了“認知技術威脅告警系統”(Cognitive Technology Threat Warning System,CT2WS)[91]項目。該項目鏈接人類腦電波、改進的傳感器和認知算法,提升戰場上戰士們的目標探測能力,降低戰場防區外危險探測工作的傷亡。2015年美國陸軍實驗室披露了他們正在進行的兩項研究:一是利用有經驗士兵大腦中的EEG信號對美軍搜集的大量圖像進行自動標記,判斷是否包含危險情景;二是研制帶有EEG測量裝置的頭盔,檢測士兵對戰場環境的實時感知,利用經驗豐富士兵的危險感知能力為其他士兵提供預警,從而提升整個部隊的作戰能力。這種技術被稱為“Brain As A Sensor”。
Huang等[17]將基于單次ERP的腦機接口系統應用到軍事領域的衛星圖像檢測。2016年,Barngrover等[92]開發特定的BCI系統將圖像和EEG信號特征融合后解決了側掃聲吶圖像目標水雷的檢測問題。Lan等[66]提出基于多注意力機制的遞歸卷積模型,提取潛在主體不變腦電特征,實現高精度的遙感目標檢測。Matran-Fernandez等[93]利用N2pc事件相關電位出現在感興趣對象所在的視覺半球相對側的特點,成功檢測出圖像中的目標并對目標的空間位置進行了定位,該系統的實驗范式如圖7所示[93]。2020年,Levin等[94]具體描述了基于RSVP實驗范式的衛星圖像檢測系統,工程上說明了其具體應用流程。
基于事件相關電位的研究有助于增進對神經功能的了解,例如認知、情感、和精神分裂癥等臨床癥狀[95]。同時該研究還有助于識別睡眠障礙、行為變化、診斷和檢測癲癇發作障礙,甚至用于評估嚴重腦損傷后或心臟或肝臟移植手術前的大腦活動[96]。2018年,Wang等[97]對oddball實驗中所產生的事件相關電位評估綜合心理得分,跟蹤患者的心理健康。2021年,Zokaei等[98]測試帕金森患者在RSVP實驗范式中的時間定向缺陷,發現當患者在服用多巴胺能藥物時可以消除該缺陷,在不分散注意力的任務中可受益于暫時的定向線索。

圖7 遙感目標檢測RSVP實驗范式Fig.7 RSVP experimental paradigm for remote sensing target detection
醫學圖像的判斷單純依靠醫生通常效率較低,Hope等[99]基于RSVP范式將腦電信號分析與計算機視覺結合,大大提高圖像分類效率,并成功應用于乳腺癌篩查,達到了較好的效果。Shalbaf等[100]采用連續小波變換方法將腦電信號轉換為圖像,通過基于遷移學習的自動方法和深度神經網絡實現了對精神分裂癥患者的分類,幫助臨床醫生進行早期診斷和治療。
隨著社會智能化需求的不斷增長,腦機接口技術與計算機視覺的結合已成為新的研究熱點。由于人類個體之間存在認知的多樣性和復雜性,基于ERP的目標檢測技術仍存在許多問題和挑戰,主要表現如下:
(1)個體之間的差異性廣泛存在,相關算法的泛化能力和魯棒性仍然較弱,缺乏耗時短、精度高、泛化能力強的統一模型。
(2)以深度學習為主的大部分模型結構簡單,可實現端到端分類,但需要大量訓練樣本才能達到較好的檢測效果。而腦電領域進行實驗的成本較高,對于特定任務難以獲得大量數據支撐。
(3)目前大部分算法的應用通常是離線訓練后提取最優模型進行在線識別,缺乏實時交互。未來可考慮結合強化學習進行在線訓練,通過用戶與具體應用的交互獲得最大化在線分類效果。
盡管存在以上挑戰,研究者們也逐漸提出了相應的解決方法,例如遷移學習、膠囊網絡等。通過組合模型代替單一模型、多模態特征代替單一特征、基于實驗范式的創新等各類該領域的研究方法也在不斷深入。
現今的研究算法正有條不紊地向前發展,通過與VR、AR、眼動、計算機等技術和系統結合,該目標檢測技術具有廣泛的應用:
(1)通過與VR設備的結合,既可以提供用戶完美的視覺效果提高目標檢測性能,還可以在VR場景中仿真各種環境,實現目標偵測以及為后續的指令下達、動作執行等功能奠定基礎實現交互。
(2)利用腦控與眼動技術的結合,在目標檢測的基礎上可實現目標定位等功能,對計算機無法識別的圖像進行識別和標定。此外,在VR和AR的場景下還可進一步完成目標鎖定、跟蹤等任務。
(3)在5G信號通信技術發展的背景下,利用該技術有望實現無人機、無人車甚至衛星等遠程遙感檢測、實時目標鎖定等功能。
(4)在醫療健康方面,利用實時在線的目標檢測技術可以幫助帕金森患者、殘障人士等僅使用人腦向機械下達各項指令,實現正常生活。
基于腦電信號的目標檢測將在軍事探索、游戲視覺、輔助駕駛、智能家居等場景完成各種復雜識別任務,具有廣闊的發展和應用前景。