敖顯奎

霍金在坐上輪椅后,一開始還能通過手指敲打鍵盤來輸出文字,后來手指無法運動了,曾想過利用眼球耕作和腦電波識別技術來幫助輸出信息。但最后由于病情和技術的問題,沒能完成,轉而使用紅外探測眼鏡,這已是當下最先進的語言合成技術了?;艚鹬钡阶詈蠖紱]能直接將自己的腦電波直接轉換為語言,不過這一技術在不久的將來即將到來。我們從另一個角度,繼續探索“腦機接口”。
要讓腦電波開口說話,需要讓腦電波與字母之間建立聯系。因此“打字”是一個繞不開的話題。2018年世界機器人大會上,清華大學研發的“動態窗穩態視覺誘發電位腦機接口系統”向參賽者們提供了這樣一個競賽平臺:將注意力集中到電腦屏幕上的虛擬鍵盤中的字母上,腦電波就會被捕捉,對應的字母就會顯示在屏幕上。
這種視覺打字系統是一種視覺誘發電位的打字系統,虛擬鍵盤中每一個目標字符在運行過程中都會有特定的頻率去閃爍,目標頻率都不相同,當我們注視目標的時候,大腦的枕區視覺皮層附近,會產生對應閃爍頻率的腦電波信號。刺激不同,響應不同。所以可以通過采集人的腦電信號,找到相對應的目標,從而實現打字。該項目的主導人表示,這一系統平均正確率能達到91%。這種輸入效率,大概等于正常人每分鐘手寫28個英文字母的水平,最快的人每分鐘能打出60個字符。
事實上,這一系統的原理跟霍金的紅外眼鏡有相似之處,紅外眼鏡是根據霍金的一小塊肌肉來捕捉信號的,二者都是通過人堆字母的強烈反應而實現語言的輸出。當然,霍金的紅外眼鏡設備成熟得更多,打字效率也就更快。

“動態窗穩態視覺誘發電位腦機接口系統”想要步入下一階段,需要解決的還是“敏感度”的問題——腦電波是非常敏感而且活躍的。一方面人如果注意力無法高度集中,系統就將很難對字母進行定位;另一方面人的大腦在看到字母的時候往往會不由自主地產生聯想,比如看到“c”會想到“copy”或者“car”等詞,這也會對系統識別產生干擾。另外,相比于英語,漢語還要經歷更多的轉換,需要耗費更多的時間。
目前業內的腦電波語言轉化主要分為四大步驟:樣本收集、信號轉化、虛擬聲道、輸出。
第一個步驟樣本收集易于理解,它需要幾率不同語言文字在大腦區域內的活動信號,建立一個數據庫,以供后續的映射使用。這一數據庫的建立的“健全度”直接影響了腦電波轉換語言的準確度。這其中還得考慮同一單詞的不同讀音、語調等。想要建立一個“通用”的數據庫,難度十分巨大。
第二步驟通過循環神經網絡(RNN)的不斷學習,研究者將大腦神經信號轉換成了發音器官動作的信號,這些信號與發音器官的動作直接相關,比如嘴唇、下巴、舌頭、喉嚨等。
不過,神經網絡的學習問題一直都是讓業界頭痛的問題,它所涉及的內容十分復雜。目前普遍的現場是雖然語音輸出的速度很快,但也只有一半的句子會被識別出來。
第三步,虛擬聲道。虛擬不同聲音所產生的聲道運動,就像漢語中雙唇音、唇齒音、舌尖中音等所需要調動的不同發音部位一樣,正常來說,如果模擬的發音運動模式和人正常說話時一樣,那么所發的音也一定是一樣的。這一步弄好了,接下來就可以輸出了。(編輯/侯幫虎)