徐海洋
(江蘇省泰興中學,,225400)
隨著科技水平的不斷提高,腦機接口(Brain Computer Interface, BCI)已從四十年前的概念落地,發展成為在實際使用中大放異彩的實際產品,其可靠性與泛用性也在與日俱增。BCI實際上可以認為是一種特殊的人機交互通道,是指電子設備在脫離天然的神經–肌肉輸出通道的情況下,直接從人的腦部活動所伴隨的電信號中進行信息提取,以此來實現人與外界環境的交互或對外部設備的直接控制。腦機接口應用領域非常廣,包括游戲、影音、康復等,其在醫學領域上的表現尤其引人關注。總的來看,腦機接口發展前景樂觀,發展潛力巨大,并且具有非凡的社會意義:成熟的腦機接口技術為很多病癥患者(如腦中風、肌萎縮性(脊髓)側索硬化、腦癱等喪失活動能力的疾病患者)帶來了新的希望,這是因為BCI系統能夠為重度癱瘓者提供適當的支持性護理及基本交流能力,顯著地提高了他們的生存能力和生活質量。
腦電圖(EEG)是腦神經細胞電生理活動在大腦皮層或頭皮表面的總體反映,是大腦神經元突觸后電位的綜合結果,是大腦電活動產生的電場容積導體傳導后在頭皮上的電位分布[3]。腦機接口(BCI)是一種連接人腦和外部設備的實時通信系統。主要由三大部分組成,分別是信號提取單元、信號分析與處理單元、信號輸出單元。目前,研究的最多的是基于腦電(EEG)的BCI系統。EEG能夠較為直觀地反應大腦的電流活動,人們可以利用它從而實現對計算機等外部設備的直接控制。基于表面腦電的腦機接口,雖然目前仍然存在著空間分辨率低,信號頻率范圍有限,在持續的運動控制及不持續的選擇過程中表現出類似自由度低、抗噪能力差、信號易衰減等不足之處,但相比于其他方式而言,其簡單、方便、安全、便宜的優點得其在實際應用中具備其他系統所無法比擬的優勢。
事件相關電位是一種特殊的誘發電位,在二十世紀六十年代首次被提出。該電位反映了對大腦刺激的認知加工過程,因此也被稱為認知電位。ERP電位包含很多種,如P1、N1、P2、N2、P3等,主要依據信號出現的時間及幅值正負來命名。事件相關電位是對外部刺激的瞬態反應,具有較強的鎖時功能,能夠揭示認知活動產生的時間,因而被廣泛應用于腦機接口當中。P300電位是ERP的一種,其峰值大約出現在事件發生300ms后,也應此而得名。P300信號主要產生于海馬區,中央皮質區前頂葉為最佳記錄部位。在運動失常的病人甚至腦干損傷患者中,P300信號相對穩定。此外,基于P300的BCI系統擁有約20–30字節/分的較快速度以及較好的信度與效度。Farwell和Donchin在1988年利用P300實現了最早的英文字母選擇系統,他們通過將字母排列成一個6乘6的矩陣虛擬鍵盤并輪流閃爍,每次閃爍形成一個視覺刺激。受試者注視期望輸出的字符(稱為“靶字符”,對應的刺激稱為“靶刺激”),同時在心中默數其閃爍的次數。這樣,靶刺激將以一種較低的概率呈現,從而誘發P300電位[4]。
近些年來,神經網絡在機器學習、圖像識別等領域大放異彩,其強大的學習能力、自適應能力使其能夠擬合出一些非常復雜的函數。由神經網絡所構建的分類器也已經被證明具有很好的準確率和泛化能力[5]。
神經網絡的基本原理是在一個有著若干隱藏層(每個隱藏層有若干神經元)的神經網絡上給出輸入(InputPattern)和輸出(label),通過引入激活函數進行類似線性分割的多次分割,其分割的方向、位置由權重值決定,而分割效果好壞通過目標函數定義(往往是label與實際值之間的差的平方),并通過反向傳播算法不減小目標函數,不斷優化分割,最終實現準確的分類、識別。
在過去的腦機接口系統中,腦電信號在經過預處理后,往往還要經過特征提取,之后再進行分類識別。特征提取的方法包括獨立成分分析、小波分析等,這種方法雖然能夠大大簡化分類問題,但存在邏輯上的一個缺陷:我們已經先入為主地將“特征”提取了出來,并將該特征作為我們分類的依據。但是在實際情況中這種特征是否具有代表性呢?在此我們可以舉一個例子,在男女分類問題上,我們可以將是否存在喉結作為“特征”進行判別。但如果考慮跨性別者呢?在這種前提下,是否存在喉結就不再是一個準確的特征了。總之,在問題越來越復雜、計算量越來越大的今天,人為提取特征并不明智。
神經網絡在圖像處理方面表現優異的一大原因就是其出色的特征提取能力。不管是基礎的多層感知器還是相對復雜的卷積神經網絡,其基礎都是依靠激活函數引入非線性,從而進行分類。當網絡層數比較深時,神經網絡能夠提取出一些人本身很難意識到的特征,這些特征可能是抽象的、難以理解的,但對于分類卻是至關重要的。因此,用神經網絡直接對經過預處理的信號進行特征提取和分類的方向是正確的。
字符輸入輔助系統由以下幾部分組成:可佩戴視覺刺激與反饋系統,腦機接口,包含有信號預處理系統和神經網絡(已經訓練好的)模型的芯片。其工作邏輯如下:視覺系統給出刺激后,腦機接口將人的腦電響應輸入給芯片,芯片對響應信號加以識別并將識別結果反饋給視覺系統,由使用者確認輸入是否正確。

圖1 系統工作邏輯
為了實現上述的功能,需要解決以下幾個問題:
(1)如何在實際應用中產生靶刺激;
(2)如何訓練神經網絡(如何構造InputPattern、Label,如何確定各個超參數);
(3)如何準確判斷輔助系統是否處于工作狀態;
(4)如何使分類結果反饋給使用者并在二者之間產生互動。
下文將詳細闡述在實際應用中如何解決這些問題。
當前針對不同字符組合、不同應用場景而提出的刺激形式各不相同,在此主要介紹兩種:行列刺激發法和棋盤式刺激法。
為了更好地講解這部分內容,我們臨時定義三個概念,批、輪和次。一次代表將一次輸入(即單個字符)的波形與label輸入到網絡中進行訓練;一輪代表將所有字符訓練一次;一批代表將所有字符訓練若干輪(一輪訓練很難達到較好的效果)。實際上我們很少以“次”為單位進行訓練,這是因為神經網絡的優化是針對所有輸入進行的優化,即對于每個輸入其輸出都要盡可能地接近“label”,在此引入次這一概念只是為了更好地幫助讀者進行理解。
2.1.1 行列刺激法
為了更好地介紹這種方法,我們在此引入Farewell在1988年所實現的實驗范式,在該實驗范式中,Farewell設置了36個可輸入字符,排列成6×6的矩陣形式。假如在某一個場合中某被試者想要輸入字符“A”,而該字符所在的行列為(3,4),則在輸入過程中該患者將被要求注視該字符,而矩陣的閃爍過程如下:在每一輪中,矩陣的6行按照隨機順序依次閃爍,當在某一行閃爍后發現腦電中出現波峰,則可認為字符A在該行,之后進行列數的選擇即可。這樣,在每一輪中,我們通過依次進行行和列的閃爍,可以判斷字符所在的行數和列數,并最終確定使用者想要選擇的字符。這樣進行若干輪(即一批)后,系統就對該名使用者完成了訓練,得到了針對此人的判斷網絡。
2.1.2 棋盤式刺激法
行列式刺激法的弊端在于,行和列的選擇不能同時進行,為了改善這種問題,我們可以設置一個布局類似棋盤的刺激矩陣。在實際應用中,面板上所有的字符隨機、依次閃爍,當某字符閃爍并在閃爍300ms后檢測到波峰,則可認為使用者想要輸入該字符。
上述的兩種方法是實際應用中比較合理的刺激方式,具體實現方式也是多種多樣的,比如可以在使用者面前設置一個顯示屏,以完成人機之間的互動。當然,也可以使用加強現實等更加先進的設備來實現該功能。
為了幫助讀者更好地理解,下面給出刺激矩陣的示意圖,見圖2。
此部分解決了第一個問題,即如何產生靶刺激。
正如前文所說,神經網絡的特點是具有很強的學習能力與自適應性,也正因此,參數的設置、輸入的構成等都會對神經網絡的表現產生重大影響,在這一部分,筆者將會介紹在語言輸入系統中神經網絡模型的輸入、訓練與驗證。

圖2 刺激陣列示意
InputPattern的構造:
從頭皮直接提取的腦電信號夾雜著大量無用信息,正如前文所說,在實際應用中,被試者需要全神貫注,以實現概率更小的“靶刺激”,因此在一段較長的時序波形中,只有有限的幾個時間窗口的信息是“有用”的。因此,我們首先要將有用信息提取出來,根據前文介紹,所謂的P300信號指的是腦電信號會在靶刺激出現后的300ms出現一個峰值。顯然,我們可以在在時序波形中設置一個窗口,當窗口檢測到波峰,便將該段波形作為這次刺激的響應波形。由于在實際應用中腦電信號的提取是多通道的,因此每次刺激的響應也是多通道的。例如,假如在時序波形中的窗口長度設置為L,被試者頭部安裝了N個電極,那么每組響應數據在輸入神經網絡中時其輸入通道的大小為L*N。
Label的設置:
在本項目中,神經網絡所識別的并不是某一個字符,而是P300的正波峰,這是因為我們對字符的識別實際上是要將波峰與閃爍字符的時間編碼相結合。因此,我們可以將Label設置為1和0,1代表出現波峰,0代表未出現波峰。
此部分解決了第二個問題,即如何訓練神經網絡。
訓練集與測試集:
字符的輸入本質上是一個多分類問題,既然我們要采用神經網絡來解決這類問題,那么勢必要確定神經網絡的“標簽”,即label。Label的設置要依據實際應用場景,亦須考慮到刺激矩陣的構建,我們不妨假設在某一場景中我們需要6*6個分類(其中包括一個“確認”和一個“返回”),可以采取經典的“棋盤式”的刺激布局。
對于每一種字符,我們進行R次信號記錄,那么實際上我們最終有R組數據,每組數據含有36個字符類型(每個類型的數據數量為L*N)。
容錯率的設置:
神經網絡的準確率雖然不斷提高,但在實際應用場景中為了保證其泛用性,不宜使用過于復雜的算法與結構。同時,無論準確率如何提高,誤判是不可避免的。因此,應該設立一種容錯機制,使得輔助系統在不算很高的識別率下能夠實現更加準確的輸入。
在此,我們設置一種判斷邏輯:

圖3 防止誤入工作狀態的程序邏輯
該部分解決了第三個問題,即如何保證輔助系統不會不合時宜地進入工作狀態。
我們也可以設置一套類似的系統來完成人機交互。

圖4 一種交互邏輯
如圖4所示,通過這種交互系統,用戶不會錯誤輸入信息,如果想要更加保險,增加幾層邏輯即可。這部分解決了第四個問題。
在本文中,我們介紹了一種幫助漸凍癥患者進行人際交流的字符輸入設備,該設備的核心技術在于BCI腦機接口與神經網絡。值得注意的是與傳統的腦機接口技術的“信號提取–信號預處理–特征提取–模式識別”相比,我們使用神經網絡直接進行了特征提取并加以識別,即“信號提取–信號預處理–神經網絡分類”。這種方法與傳統方法相比能夠提取更加抽象的特征并完成更加復雜和抽象的邏輯。盡管神經網絡在增加邏輯復雜度、計算復雜度的同時也可能會引入其他問題(比如維度爆炸與過擬合等),但這些問題只是神經網絡暫時的缺點,當前的人工智能熱潮也在不斷地解決這些問題,因此神經網絡的確是解決類似問題的理想之選。
隨著技術的進步以及其他更加復雜的網絡的開發(例如循環神經網絡),相信類似本文所介紹的文字輸入系統的輔助系統也會不斷迭代,推陳出新,其性能會越來越強,價格會越來越低,在可以預見的未來,類似的系統必然會幫助人類獲得更加美好的未來。