王 婷,何松澤,楊 川
(成都信息工程大學(xué) 計算機學(xué)院,四川 成都 610225)
腦科學(xué)是繼基因工程之后的最前沿的學(xué)科之一,也是最難以攻克的領(lǐng)域之一。其主要研究內(nèi)容是加深人類對大腦的理解,達到“認識腦、保護腦和創(chuàng)造腦”的目標。隨著科學(xué)技術(shù)的進展,目前腦科學(xué)研究呈現(xiàn)出多學(xué)科交叉,多技術(shù)應(yīng)用的局面[1]。而將知識圖譜的相關(guān)方法應(yīng)用到對腦科學(xué)領(lǐng)域文獻知識的集成、分析與挖掘任務(wù)上,會對目前的研究成果有著更加清晰的認識,也會為潛在的研究方向提供一定的指引,甚至是為病理診斷提供依據(jù)[2]。因此,將知識圖譜相關(guān)方法應(yīng)用到腦科學(xué)領(lǐng)域有著深刻的學(xué)術(shù)研究價值,也存在著廣泛的應(yīng)用空間。
知識圖譜從本質(zhì)上講是一種描述實體關(guān)系的語義網(wǎng)絡(luò),其能夠組織、管理和挖掘文本信息。知識圖譜的出現(xiàn)也為腦科學(xué)領(lǐng)域匯聚出當前主要領(lǐng)域研究方向與方法。郭文斌等人[3]繪制腦認知知識圖譜,指出中國腦認知研究領(lǐng)域和研究主線。韋潔瑤等人[4]構(gòu)建出與腦連接機制論文相關(guān)的知識圖譜,指出美國是腦認知科學(xué)的主導(dǎo)研究力量,研究重點落在白質(zhì)、額葉皮層與神經(jīng)性疾病的關(guān)系。王堯等人[5]利用Citespace構(gòu)建知識圖譜了解了近10年全球腦科學(xué)研究現(xiàn)狀,指出目前研究熱點和趨勢呈現(xiàn)多學(xué)科交叉的特點。由此,知識圖譜幫助研究人員從文獻中提取腦科學(xué)領(lǐng)域的信息,幫助他們分析與融合已有知識。以自然語言處理方法來研究腦科學(xué)文獻多數(shù)落在知識抽取上,對知識融合和知識推理的相關(guān)方法研究內(nèi)容則較少。這可能是由于兩方面的原因:第一,目前多需要為科研人員提供搜索服務(wù)。第二,目前國外主要是從圖像、模型入手去抽取相關(guān)信息,而并非僅從文本數(shù)據(jù)中抽取相關(guān)信息,大規(guī)模地構(gòu)建知識圖譜。目前已經(jīng)有腦科學(xué)相關(guān)的知識圖譜應(yīng)用出現(xiàn)。國內(nèi)的有中國科學(xué)院自動化研究所類腦智能研究中心所實現(xiàn)的腦科學(xué)知識圖譜,國外的有歐盟人腦計劃(Human Brain Project)的EBRAINS Knowledge Graph[6](https://kg.ebrains.eu/)。它們的主要作用都是利用知識圖譜提供數(shù)據(jù)整合、分享和搜索服務(wù)。現(xiàn)階段腦科學(xué)的知識圖譜為研究人員提供了數(shù)據(jù)集與相關(guān)分析工具,并且也完整地向研究人員展示如何從文獻中抽取實體關(guān)系進行圖譜的構(gòu)建,也為他們提供了縱觀全局的能力。然而,現(xiàn)階段腦科學(xué)領(lǐng)域的知識圖譜也存在著一些不足,主要表現(xiàn)在以下幾個方面:一、未能更好地利用知識圖譜對數(shù)據(jù)進行推理挖掘,重點都是落腳于提供搜索與管理服務(wù);二、在平臺的構(gòu)建上,存在著平臺缺乏良好維護的問題;三、在認知功能腦知識圖譜上,大多都是與腦灰質(zhì)相關(guān),未能聯(lián)系到腦白質(zhì),忽略了腦白質(zhì)所處的作用。
該文對腦科學(xué)領(lǐng)域的構(gòu)建知識圖譜的主要方法進行了總結(jié),并指出可以優(yōu)化的方向,其次對于已有的相關(guān)應(yīng)用或者工具進行了簡要的介紹,并對未來方向進行了展望。
腦知識圖譜構(gòu)建與常規(guī)的文本知識圖譜構(gòu)建過程類似,本節(jié)主要圍繞著知識抽取、知識融合以及知識推理這三個部分進行,主要內(nèi)容概要視圖如圖1所示。
知識抽取是指通過一些自動化或者半自動化的技術(shù)抽取出可用的知識單元。具體針對腦科學(xué)領(lǐng)域,主要是對文獻中腦區(qū)相關(guān)實體、認知功能相關(guān)實體、實驗數(shù)據(jù)以及與某疾病相關(guān)的臨床報告中的特征進行實體抽取,對與腦區(qū)有關(guān)的關(guān)系進行關(guān)系抽取,如腦區(qū)與腦區(qū)之間的關(guān)系、腦區(qū)與基因之間的關(guān)系等。
1.1.1 實體抽取
實體抽取又稱作命名實體識別,是指從數(shù)據(jù)語料里抽取出命名實體。目前腦神經(jīng)科學(xué)領(lǐng)域用到的實體抽取方法主要包括基于規(guī)則的實體抽取、基于機器學(xué)習(xí)的實體抽取和基于深度學(xué)習(xí)的實體抽取。一般來說,在腦科學(xué)領(lǐng)域,主要抽取的實體類別分為四類:腦區(qū)相關(guān)實體、認知功能相關(guān)實體、實驗數(shù)據(jù)以及臨床報告中與疾病相關(guān)的特征。基于規(guī)則的實體抽取,是指預(yù)先將非結(jié)構(gòu)化文本數(shù)據(jù)進行分詞,然后再按照實體類型等特征預(yù)先進行標記,構(gòu)建出一個特征詞典等新的語料輸入后使用構(gòu)建好的詞典進行標記,再利用正則表達式進行匹配抽取出所需要的實體。Matthew等人[7]將文獻中的實體進行注釋,然后再用正則表達式匹配抽取出相應(yīng)實體。Nariman等人[8]通過檢索給定的術(shù)語,抽取出與腦出血有關(guān)的實體特征,再進行進一步的研究。研究人員[9]利用RENER方法匹配出與癲癇和腦電極位置的特征,該方法主要利用正則表達并結(jié)合一些其他規(guī)則來提高召回率。
由于基于規(guī)則的實體抽取遷移泛化能力較弱,學(xué)者們開始考慮運用機器學(xué)習(xí)的方式對實體進行抽取,即基于機器學(xué)習(xí)的實體抽取。Abacha等人[10]利用條件隨機場構(gòu)建分類器,定義了多種命名實體類別,該研究隨機抽取文獻摘要進行標注,選取單詞的構(gòu)詞、詞性等語義特征作為特征進行訓(xùn)練。Riedel等人[11]基于多個語料庫特征和分類器識別出與認知實驗相關(guān)的各種實體。Senders等人[12]使用自己所開發(fā)的回歸模型從MRI報告中提取與膠質(zhì)母細胞瘤相關(guān)的顯著特征。
基于深度學(xué)習(xí)的命名實體識別,相比于機器學(xué)習(xí)的一大特點是它能自動提取特征。Matthew等人[7]利用條件隨機場和雙向長短時記憶循環(huán)神經(jīng)網(wǎng)絡(luò)進行詞向量的構(gòu)建和模型的訓(xùn)練。Sheng等人[13]設(shè)計了一種基于BiLSTM-CNN的多類別實體識別方法,能夠有效地識別與大腦相關(guān)的實體。對于腦科學(xué)的實體抽取,主要是從神經(jīng)影像學(xué)的相關(guān)文獻和病歷報告里進行相關(guān)實體的抽取,文獻[14]表明近幾年對于從神經(jīng)影像學(xué)文獻中提取相關(guān)知識得到了廣泛的關(guān)注。目前對于腦科學(xué)領(lǐng)域的實體抽取,相關(guān)的已有的先進方法還未引用到這上面來,諸如在其他生物領(lǐng)域已經(jīng)在使用了的方法:BioBERT[15]、Bio-ELECTRA[16]等以及在命名實體識別領(lǐng)域里能夠取得較好結(jié)果的方法[17-19]。
1.1.2 關(guān)系抽取
關(guān)系抽取的目的是抽取出兩個實體之間的語義關(guān)系。一般分為兩種,一種是以管道方式進行抽取,另一種是以實體關(guān)系進行聯(lián)合抽取。在腦科學(xué)領(lǐng)域,以管道式的抽取方法為主,主要抽取的是與腦區(qū)相關(guān)的關(guān)系,即腦區(qū)與腦區(qū)之間的關(guān)系、腦區(qū)與基因之間的關(guān)系等。以管道的方式進行抽取是指按順序先抽取實體再抽取關(guān)系。Richardet等人[20]從大量的腦科學(xué)文獻中提取實體及實體關(guān)系,其先使用三種不同的命名實體方法進行識別,接著再以三種不同的方式進行關(guān)系提取。Erinc等人[21]為了識別大腦其他區(qū)域與丘腦室旁核相關(guān)的關(guān)系,提出了一種基于詞典與依存關(guān)系的方法來進行關(guān)系抽取。Sharama等人[22]提出一種ConnExt-BioBERT方法,依據(jù)管道方式將自然語言處理中預(yù)訓(xùn)練模型應(yīng)用到腦區(qū)關(guān)系抽取上取得了較好效果。Liu等人[23]提出了一種新穎的遠程監(jiān)督模型來提取腦區(qū)與基因之間的基因表達關(guān)系,他們先對所需要的句子進行腦區(qū)和基因的標記,再提取出實體對進行分組,然后構(gòu)建特征再進行模型的訓(xùn)練,最后提取實體關(guān)系。
1.1.3 知識抽取總結(jié)
對比腦科學(xué)領(lǐng)域中實體抽取方法和關(guān)系抽取方法,相關(guān)先進方法在關(guān)系抽取上使用的較多,而在實體抽取上使用的較少。其原因主要在于,進行關(guān)系抽取的時候往往會先進行實體抽取,這變相地將相關(guān)先進方法應(yīng)用到實體抽取上。其次在于,關(guān)系抽取相比于單個的實體抽取難度更大,而實體抽取往往是很多任務(wù)的第一步,研究人員很容易將相關(guān)先進方法運用到更復(fù)雜的問題上去得到更好的結(jié)果。單獨針對關(guān)系抽取而言,主要運用管道式的方法,即先抽取實體,再抽取關(guān)系,這樣容易造成誤差累積和實體重疊問題,應(yīng)當著重關(guān)注實體關(guān)系聯(lián)合抽取的方法,這樣可能會在腦區(qū)關(guān)系抽取上有進一步的提高。
知識融合建立在前續(xù)步驟知識抽取的基礎(chǔ)上,其目的是將抽取于不同的知識庫(或文獻)的同一實體或概念的描述信息進行融合。該文所述腦科學(xué)知識融合方法將圍繞著指代消解和實體消歧兩個主要問題進行闡述。
1.2.1 指代消解
指代分為兩類[24],一種是共指,指的是當多個名稱對應(yīng)同一實體的時候,將這些名稱對應(yīng)到正確的規(guī)范的實體上,也就是解決異名同物問題,不依賴于上下文信息。另一種為回指,指的是文中代詞或名詞依賴于上下文信息。具體針對于腦科學(xué)領(lǐng)域,Halil等人[25]提出了一種基于語義規(guī)則的方法來進行回指消解以提升關(guān)系抽取的效果,其主要算法分兩步,第一步是識別與標記回指指代,第二步檢查這些回指,并嘗試將它們鏈接到先行詞上,算法所用到的核心語義信息都是由SemRep[26]自然語言處理工具提供。Choi等人[27]利用生物共指語料庫開發(fā)了一種基于規(guī)則的共指消解系統(tǒng),算法主要思想是先識別出所有實體和代詞,再根據(jù)一系列的語義規(guī)則對每個代詞所指向的實體進行排序,排序高的即為代詞所對應(yīng)的對象,它能夠?qū)ι镝t(yī)學(xué)實體進行識別和共指消解。文獻[20]則在命名實體識別之后進行標準化,主要利用了英文構(gòu)詞法特點來進行指代消解。
1.2.2 實體消歧
實體消歧是指一個句子里實體很有可能有多個意思,在不同的上下文環(huán)境中其意思不一樣,也就是同名異物問題。實體消歧技術(shù)主要可分為兩種,一種是實體聚類消歧,一種是實體鏈接消歧。而具體針對腦科學(xué)領(lǐng)域,實體鏈接消歧是較為常用的方法,它是指將文獻里的指稱項鏈接到外部的知識庫中給定的正確的詞條,能夠清楚內(nèi)在的意思,從而達到消歧的效果。Zeng等人[28]創(chuàng)建了大規(guī)模的腦科學(xué)相關(guān)的語義知識庫,在實體消歧的過程中,用到了一種基于語義知識消歧方法[29],通過檢索各種語義關(guān)系對文檔進行相似度分析,從而實現(xiàn)實體消歧。Wang等人[30]提出一種概率的方法進行大腦相關(guān)實體消歧。其方法主要是用到了實體的流行度以及實體上下文知識特征,將這兩種主要特征用概率的方法計算出來,再進行加權(quán)相加得到一個總體概率。
1.2.3 知識融合總結(jié)
根據(jù)已找到有關(guān)實體消歧以及指代消解的相關(guān)方法在腦科學(xué)領(lǐng)域應(yīng)用情況來看,大多數(shù)方法都是基于規(guī)則或者基于統(tǒng)計機器學(xué)習(xí)的方法。且根據(jù)文獻[2,20]來看,當大規(guī)模地抽取實體關(guān)系時,研究人員對于實體消歧所采取的方法要么是按照一定規(guī)則對實體進行消歧,要么就是對數(shù)據(jù)預(yù)先進行處理使得一個句子里只包含兩個固定腦區(qū)或是做出某種限定使得只考慮句子內(nèi)的關(guān)系,這些方法的應(yīng)用可能對結(jié)果不會產(chǎn)生太大影響,但過程較為繁瑣。如果能重點對知識融合的方法進行研究并能夠應(yīng)用到腦科學(xué)領(lǐng)域上面來,應(yīng)該在一定程度上會提高腦科學(xué)知識圖譜的構(gòu)建周期。
知識推理是指從已知的事實出發(fā),通過已掌握的知識,找出其中蘊含的新知識,或者說歸納出的新的事實。在對腦科學(xué)領(lǐng)域文獻進行挖掘推理時,主要關(guān)注的是基于規(guī)則的傳統(tǒng)推理與基于深度學(xué)習(xí)的知識推理。
1.3.1 基于規(guī)則的傳統(tǒng)推理
基于規(guī)則的傳統(tǒng)知識推理,是指在知識圖譜上使用一些規(guī)則或者利用統(tǒng)計特征進行推理。Zhu等人[31]提出一種無模型的方法,僅根據(jù)知識圖譜本身來驗證關(guān)系進行關(guān)系推斷,并用聚類系數(shù)在腦知識圖譜中找到相關(guān)主題。Liang等人[32]提出了一種推理重用的方法構(gòu)建了大腦區(qū)域-孤獨癥的本體,以此本體出發(fā),利用相關(guān)規(guī)則對此本體進行擴展從而發(fā)現(xiàn)隱藏關(guān)系。文獻[2]則先利用屬性推理對實體層次進行了劃分、再用語義上的邏輯進推理,挖掘潛在的實體關(guān)系。文獻[33]中使用關(guān)聯(lián)分析的方法,對精神疾病與大腦的結(jié)構(gòu)的相關(guān)文獻進行分析,研究哪些腦結(jié)構(gòu)在精神疾病中占主導(dǎo)地位。
1.3.2 基于神經(jīng)網(wǎng)絡(luò)的知識推理
基于神經(jīng)網(wǎng)絡(luò)的知識推理,主要是使用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力與泛化能力,對三元組里的元素進行推理或?qū)χR圖譜路徑里的元素進行預(yù)測。Zhu[34]利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練了一個針對三元閉包的神經(jīng)網(wǎng)絡(luò)模型,其中關(guān)系頻率代表關(guān)系可信度,利用這種模型能夠捕獲到大腦區(qū)域關(guān)系強度所暗含的關(guān)系鏈接。Nian等人[35]利用Node2vec方法從與神經(jīng)退行性疾病相關(guān)文獻中挖掘食物與該疾病的潛在關(guān)系。
1.3.3 知識推理總結(jié)
目前腦科學(xué)領(lǐng)域所采用的方法主要為基于規(guī)則和基于神經(jīng)網(wǎng)絡(luò)的方法。對比兩種方法,基于規(guī)則的方法雖然對研究人員專業(yè)要求較高,但在后期對知識圖譜擴充的時候不需要進行模型訓(xùn)練,按照現(xiàn)有的規(guī)則進行推理挖掘。而基于神經(jīng)網(wǎng)絡(luò)的知識推理,則在后期知識圖譜擴充的時候可能需要對推理模型進行重新訓(xùn)練,加大了后期的工作量。并且觀察文獻[2,32-33]發(fā)表年份,近年基于規(guī)則的方法依然被研究人員所采用,說明基于規(guī)則的方法仍然具有實用價值亦或者是對該問題關(guān)注度不高。
從整體知識圖譜的相關(guān)方法在腦科學(xué)應(yīng)用上不難發(fā)現(xiàn),研究人員目前著重關(guān)注的問題在于實體關(guān)系抽取,并且相對其他兩個任務(wù),文獻[22]表明研究人員已經(jīng)將相關(guān)較為先進的方法應(yīng)用到處理該問題上。主要原因在于,實體關(guān)系抽取是構(gòu)建整個腦科學(xué)知識圖譜中最為基礎(chǔ)也最為重要的任務(wù),該任務(wù)也會對下游任務(wù)的效果產(chǎn)生重要影響。不過隨著研究深入,知識抽取的方法日趨完善,研究人員著重關(guān)注問題會慢慢向知識融合與知識推理上轉(zhuǎn)移。目前主要存在問題如下:
(1)獲取數(shù)據(jù)集的難度大,很少有公開處理好的數(shù)據(jù)集。研究人員在研究某個問題的時候,都需要自己去下載文獻摘要,自己去預(yù)處理數(shù)據(jù),這樣使得在對某一方法進行評估時,難以獲得較為公正的評價結(jié)果。
(2)方法需要更新。部分方法還有待更新,即使在實體關(guān)系抽取任務(wù)上,雖然采用了較為先進的方法,但該方法仍然存在著誤差累積的問題。
(3)文獻[7,10]表明腦科學(xué)文本實體類別多。需要對標記方法進行深入設(shè)計,良好的標記方式會對模型帶來效果提升。
Linked Brain Data是中國科學(xué)院自動化研究所類腦智能研究中心實現(xiàn)的腦科學(xué)知識圖譜。它提供了大腦與神經(jīng)科學(xué)的相關(guān)服務(wù)。LinkedBrain Data的知識是從結(jié)構(gòu)化和非結(jié)構(gòu)化的不同數(shù)據(jù)源里抽取,需要對其不同源數(shù)據(jù)進行合并。為此相關(guān)研究人員使用了文獻[29]中所提出的一種基于語義的實體鏈接消歧算法并借鑒CASIA-KB[36]中從多數(shù)據(jù)源構(gòu)建知識庫的相關(guān)方法。在構(gòu)建過程中,首先對于不同資源都有同一術(shù)語的情況考慮直接映射到一起,其次對于具有相同意思但形式不同的詞匯將其重定向到相關(guān)知識庫中。最后對于有歧義的詞匯,使用上述提到的實體消歧算法進行實體鏈接消歧。作為國內(nèi)腦科學(xué)相關(guān)的知識庫,Linked Brain Data實時性好,具有知識推理功能。缺點是平臺構(gòu)建完整性不好,有些模塊無法使用,對平臺的維護不夠,部分跳轉(zhuǎn)網(wǎng)頁鏈接失效,在腦認知功能關(guān)聯(lián)圖部分,主要目標還是與腦灰質(zhì)相關(guān),忽略了腦白質(zhì)與腦灰質(zhì)之間的聯(lián)系。
InterLex是以NeuroLex為基礎(chǔ)所構(gòu)建的一個項目,包含所有現(xiàn)有的神經(jīng)詞匯,并且得到了神經(jīng)科學(xué)信息框架(Nuroscience Information Frame)[37]等項目的支持,是一種動態(tài)的詞典。NeuroLex[38]是利用Semantic MediaWiki所創(chuàng)建的。在Semantic MediaWiki中的頁面可以被標記出來并且以結(jié)構(gòu)化的方式去揭示知識,即通俗上來講Semantic MediaWiki可以將維基百科的頁面變成“數(shù)據(jù)庫”。NeuroLex最初的一些條目主要來自于神經(jīng)科學(xué)信息框架標準本體庫[39]。
目前NeuroLex已經(jīng)過渡到InterLex上,并且已經(jīng)處于公開測試階段。InterLex正在構(gòu)建一種方式能幫助生物學(xué)家交流他們的數(shù)據(jù),使得相關(guān)信息系統(tǒng)能夠更容易找到信息并且提供更加強大的集成數(shù)據(jù)的手段,其缺點是沒有有效結(jié)合文獻中的相關(guān)語句,用戶無法及時深入了解。
KonwledgeSpace是歐盟腦計劃的一個成果,它是基于社區(qū)化的一種百科全書,能將大腦相關(guān)術(shù)語概念鏈接到數(shù)據(jù)、模型和文獻,并且它為用戶提供了來自15個不同神經(jīng)科學(xué)數(shù)據(jù)源(如艾倫腦科學(xué)研究所和人類大腦項目)的數(shù)據(jù)訪問權(quán)限。KnowledgeSpace是由神經(jīng)科學(xué)信息框架本體進行驅(qū)動的,它擁有神經(jīng)科學(xué)領(lǐng)域的術(shù)語與概念,可以為命名實體識別提供輔助作用。它能夠根據(jù)術(shù)語查詢到該術(shù)語相關(guān)的文獻以及概念,方便研究人員的相關(guān)查詢與檢索,該工具交互性良好,平臺維護較好。在所查概念旁引用許多相關(guān)開放的相關(guān)數(shù)據(jù),為研究人員進一步查詢數(shù)據(jù)提供了幫助。缺點在于對所搜索出來的文獻只進行了單純的羅列。
EBRAINS Knowledge Graph的前身是歐盟的HBP Knowledge Graph (人類腦計劃知識圖譜)[40-41],其目標在于幫助研究人員搜索和共享數(shù)據(jù)。它也存儲了來自很多不同源的數(shù)據(jù),能夠支持更廣泛的數(shù)據(jù)再利用和復(fù)雜的計算研究。EBRAINS Knowledge Graph由Blue Brain Nexus和EBRAINS所設(shè)計的擴展組成。Blue Brain Nexus是洛桑聯(lián)邦理工學(xué)院所開發(fā)的一款開源知識圖譜工具,用來組織和管理相關(guān)實驗數(shù)據(jù)。EBRAINS Knowledge Graph繼承了HBP Knowledge的相關(guān)屬性,其不單是從文本中提取數(shù)據(jù),還從實驗圖片中提取所需要的數(shù)據(jù),豐富了相關(guān)知識儲備。但對于知識推理方面的功能還有待進一步提升。
Textpresso For Neuroscience[42]是一個關(guān)于神經(jīng)科學(xué)文獻挖掘工具,允許通過使用關(guān)鍵字和語義相關(guān)類別進行復(fù)雜的查詢。它提供對文獻中所有詞語搜索的功能,并且引入了語義類別,能夠更精準地在相關(guān)范圍內(nèi)搜索到文獻數(shù)據(jù),它還能查詢出包含所包含相關(guān)詞匯的句子,對于研究人員進行相關(guān)文獻的參考提供了更高的準確性。Textpresso的主要數(shù)據(jù)來源于PubMed的摘要、全文以及期刊等信息。Textpresso的優(yōu)點在于其搜索是以句子為單位的,即要求在一個句子中滿足所有的查詢項,并且結(jié)合了多種選項進行搜索能夠提高搜索的精準度。不過其缺點在于精準度的提高,會降低其發(fā)散能力,即不能以一個關(guān)鍵字為中心發(fā)散到與其相關(guān)的知識上。本節(jié)簡要總結(jié)如表1所示。

表1 相關(guān)應(yīng)用與工具總結(jié)
現(xiàn)階段國內(nèi)外呈現(xiàn)出兩種不同的研究方向趨勢,國內(nèi)以中國科學(xué)院自動化研究所類腦智能研究中心所實現(xiàn)的腦科學(xué)知識圖譜Linked Brain Data為代表,主要通過文獻文本來構(gòu)建知識圖譜,從而分析神經(jīng)科學(xué)數(shù)據(jù)。國外以歐盟的“人腦計劃”[43-44]的EBRAINS Knowledge Graph為代表,主要以實驗數(shù)據(jù)以及模型等來構(gòu)建,目的是為研究人員提供相關(guān)實驗數(shù)據(jù)及可用的工具。對比國內(nèi)外,國內(nèi)神經(jīng)科學(xué)知識圖譜具有實時性好、可擴展性好等優(yōu)點。但也有缺陷,國內(nèi)的知識圖譜沒有將文獻中的相關(guān)知識挖掘完全,比較注重實體與實體之間的關(guān)系,不太注重文獻中相關(guān)實驗數(shù)據(jù)以及相關(guān)方法。如果能將方法數(shù)據(jù)作為屬性融入到知識圖譜中,能夠更好地服務(wù)于研究人員,通過查詢這個知識圖譜,研究人員就能知曉所使用的實驗數(shù)據(jù)以及方法。
其次,國內(nèi)的認知功能圖譜并不是很完整,沒有將腦白質(zhì)相關(guān)知識包含進去,主要還是集中在腦灰質(zhì)相關(guān)部分。將腦白質(zhì)相關(guān)知識融入到腦灰質(zhì)的知識圖譜中,能夠構(gòu)建出更加完整的腦知識圖譜,這會讓研究人員更充分地挖掘其中的知識,提高對認知功能的理解。
而對于國外的知識圖譜而言,他們?yōu)檠芯咳藛T主要提供了相關(guān)數(shù)據(jù)集、模型項目等。優(yōu)點是為研究人員提供了豐富的數(shù)據(jù)集與模型,缺點是排序選項較少,遇到較多的資源時,研究人員翻閱會比較耗時。
綜合而言,現(xiàn)階段在腦科學(xué)領(lǐng)域知識圖譜的應(yīng)用主要是以搜索挖掘知識與管理知識兩大方向前進,其次便是神經(jīng)科學(xué)領(lǐng)域的術(shù)語搜索系統(tǒng)用于輔助構(gòu)建腦科學(xué)知識圖譜。
近年來,大量的機器學(xué)習(xí)方式、深度學(xué)習(xí)方式運用到上面研究神經(jīng)科學(xué)文獻來,挖掘出了一些潛在研究方向與知識之間的潛在關(guān)系。在未來還可以通過以下幾個方面對腦科學(xué)知識圖譜展開深入研究:
(1)以多模態(tài)的角度構(gòu)建知識圖譜。從非文本數(shù)據(jù)和文本數(shù)據(jù)中提取所要的數(shù)據(jù),構(gòu)建出多模態(tài)的腦科學(xué)知識圖譜,豐富知識圖譜內(nèi)容,使其更加全面將是一個主要的研究方向。
(2)利用遷移學(xué)習(xí)。在腦科學(xué)知識圖譜構(gòu)建上,因其針對于一個特定的領(lǐng)域,可以針對于該領(lǐng)域訓(xùn)練出更加有效的大規(guī)模預(yù)訓(xùn)練模型,將訓(xùn)練好的模型遷移到后續(xù)不同文本挖掘任務(wù)中,使其達到更優(yōu)的效果。
(3)將神經(jīng)成像數(shù)據(jù)對齊到文本數(shù)據(jù)上。將神經(jīng)成像數(shù)據(jù)對齊到文本數(shù)據(jù)上,將有助于研究人員發(fā)現(xiàn)相關(guān)問題,也有利于多模態(tài)的知識圖譜構(gòu)建。
(4)利用圖神經(jīng)網(wǎng)絡(luò)進行推理。圖神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),剛好可以對應(yīng)于知識圖譜的結(jié)構(gòu),以圖神經(jīng)網(wǎng)絡(luò)去研究該問題,會是一個主要研究方向。
(5)腦科學(xué)知識圖譜的應(yīng)用拓展。目前的腦科學(xué)知識圖譜,主要在于為科研人員提供知識管理,搜索挖掘?qū)嶓w關(guān)系上。將腦科學(xué)知識圖譜應(yīng)用拓展到相關(guān)服務(wù)行業(yè),將會是腦科學(xué)知識圖譜應(yīng)用的一個方向。