林欽永 蔡肯 王克強
內(nèi)容摘要 隨著人工智能、5G技術(shù)、深度學習、移動互聯(lián)網(wǎng)、智能手機、物聯(lián)網(wǎng)等技術(shù)的蓬勃發(fā)展,全球圖像數(shù)據(jù)正呈幾何倍數(shù)的速度增長。同時,海量的數(shù)據(jù)也帶來了存儲和處理上的困難。存儲容量往往同存儲性能成反比,基于單節(jié)點的傳統(tǒng)處理方法難以有效應(yīng)對,而大數(shù)據(jù)中的分布式存儲和計算技術(shù)等為解決這些問題提供了方案。文章從大數(shù)據(jù)和神經(jīng)影像學的概念出發(fā),介紹了具有代表性的分布式存儲的處理系統(tǒng)及神經(jīng)影像學領(lǐng)域中數(shù)據(jù)共享的現(xiàn)狀,隨后以腦網(wǎng)絡(luò)為例介紹了神經(jīng)影像學中的數(shù)據(jù)分析方法,最后對文章進行了總結(jié)和展望。
關(guān)鍵詞 大數(shù)據(jù) 高校教學 分布式存儲
1 引言
隨著人工智能、5G技術(shù)、深度學習、移動互聯(lián)網(wǎng)、智能手機、物聯(lián)網(wǎng)等技術(shù)的蓬勃發(fā)展,全球圖像數(shù)據(jù)正呈幾何倍數(shù)的速度增長。這些信息數(shù)據(jù)主要由使用智能設(shè)備的用戶產(chǎn)生,具有極大的科研和商業(yè)價值。對于大數(shù)據(jù)的定義目前尚未有統(tǒng)一的說法,一些文獻中指出,大數(shù)據(jù)是指具有復雜結(jié)構(gòu)的海量數(shù)據(jù),它們難以使用傳統(tǒng)的方法和工具進行處理,它的過程包括數(shù)據(jù)的獲取、存儲、格式化、提取、管理、集成、分析和可視化。大數(shù)據(jù)的“大”對數(shù)據(jù)的存儲和計算提出了更高的要求。另外,神經(jīng)系統(tǒng)的新型檢測和成像技術(shù)的發(fā)展帶來了令人興奮成果,同時也在數(shù)據(jù)存儲、分析、計算等方面提出了挑戰(zhàn),而大數(shù)據(jù)技術(shù)的發(fā)展為這些問題的解決提供了新的途徑。
2 背景介紹
2.1 大數(shù)據(jù)特征
大數(shù)據(jù)相較傳統(tǒng)數(shù)據(jù)具有體量大、速度快、模態(tài)多、難辨識和價值大密度低的特征[1]。大數(shù)據(jù)的類型多種多樣,而處理大數(shù)據(jù)的方式主要有流處理和批處理[2]。流處理的處理機制是直接對大數(shù)據(jù)進行處理,而批處理所采用的處理機制則是先將大數(shù)據(jù)存儲到介質(zhì)中,后續(xù)使用時再對它進行處理,也稱為先存儲后處理。
2.2 大規(guī)模神經(jīng)影像
腦科學研究是近年來的研究熱點領(lǐng)域,隨著人工智能等工具在腦科學領(lǐng)域的廣泛應(yīng)用,人類已可解碼一小部分腦電波信號,腦機交互工程的突破也邁出重要的一小步,實現(xiàn)控制機械臂協(xié)助截肢者完成捉取食物等動作。2016年,歐盟啟動“人腦計劃”項目,耗資10億歐元,計劃研究時長達10年之久;緊隨歐盟,美國也推出了美國版的人腦計劃項目——“尖端創(chuàng)新神經(jīng)技術(shù)腦研究計劃”,該項目計劃在10年內(nèi)投入45億美元的研究經(jīng)費[3]。上述項目的投入掀起了腦科學的研究熱潮,旨在通過融合神經(jīng)科學、醫(yī)學和計算機學等學科的多學科交叉研究,使用超級計算機對現(xiàn)有人腦大數(shù)據(jù)進行建模計算,探索人類腦部的結(jié)構(gòu)、信息傳遞、功能及其相互間作用的關(guān)系,進而認識人腦活動和人類行為、腦部相關(guān)疾病之間的相關(guān)性,為開發(fā)新的腦部疾病治療手段和藥物研發(fā)方法提供理論依據(jù)和參考[4]。
人腦大約由1011個神經(jīng)元組成,而連接神經(jīng)元的神經(jīng)突觸則高達1015對,構(gòu)建成龐大而復雜的神經(jīng)網(wǎng)絡(luò),它們通過相互作用共同完成人腦活動的各種功能。當前關(guān)于腦科學的影像學研究結(jié)果表明許多神經(jīng)精神類疾病與人腦結(jié)構(gòu)和腦功能網(wǎng)絡(luò)的異常相關(guān),這些研究結(jié)果能夠給予治療這些神經(jīng)精神類提供指導,同時還可提供剖析神經(jīng)精神疾病病理機制的新思路,而影像學特征則是臨床醫(yī)生對神經(jīng)精神疾病進行診斷的依據(jù),它們主要用于早期診斷和治療。
隨著成像設(shè)備和成像技術(shù)的快速發(fā)展,大腦成像的數(shù)據(jù)量也在迅速增加。一旦這些方法被證實具有較高的可靠性和魯棒性,那么使用相應(yīng)的分析方法,研究者們能很快處理它們,而數(shù)據(jù)處理又會使得數(shù)據(jù)量成倍增加。事實上,許多關(guān)于fMRI(Functional Magnetic Resonance Imaging,即磁共振腦功能成像)的文章,比如行業(yè)里權(quán)威雜志NeuroImage上的一些文章中,提出自從1995年以來,收集的數(shù)據(jù)量每過將近26個月就翻一番。按照這種速率,在2015年,僅僅神經(jīng)影像的圖像數(shù)據(jù)量,每一篇發(fā)表的文章中,除去頭信息數(shù)據(jù)處理過程中的信息和統(tǒng)計數(shù)據(jù),平均數(shù)據(jù)容量就已經(jīng)超過20 GB[5]。
3 分布式存儲與計算
3.1 數(shù)據(jù)存儲
fMRI是神經(jīng)影像成像的一個典型代表,其由于非侵入性、沒有輻射暴露等優(yōu)勢廣泛地應(yīng)用于人及動物的腦或脊髓的研究中。在事件相關(guān)fMRI中,在常規(guī)的空間圖像中加入時間維度,即圖像是隨時間變化的一系列圖像。目前,在對老鼠的視覺皮質(zhì)區(qū)域進行監(jiān)視中,在8 s內(nèi)的雙光子成像可以產(chǎn)生512×512×4的像素。因此,每小時可以產(chǎn)生60 GB的數(shù)據(jù)。而在整個大腦激光片層掃描過程中,一條斑馬魚每2 s可以產(chǎn)生1000×2000×40個像素。因此,在1 h內(nèi)會產(chǎn)生1.2 TBs的數(shù)據(jù)。而隨著技術(shù)進步帶來的空間和時間分辨率的提升,這些數(shù)據(jù)大小只會進一步增加。
圖像數(shù)據(jù)的爆炸式增長首先帶來了存儲的困難,為解決高效存儲和快速處理圖像數(shù)據(jù),研究者設(shè)計了高性能分布式計算框架,也就是所謂的云計算平臺[6]。云計算系統(tǒng)具有媲美超級計算機的計算能力,它采用分布式數(shù)據(jù)存儲和處理技術(shù),將多臺計算機的計算能力進行匯總,達到存儲和處理海量數(shù)據(jù)的能力。
云計算系統(tǒng)主要采用GFS(Google File System)和HDFS (Hadoop Distributed File System)進行海量數(shù)據(jù)的存儲和處理操作。其中,GFS是一個具有拓展功能的分布式文件系統(tǒng),其對計算機硬件性能要求較低,并且具有較強的容錯功能,在文件讀寫模式方面需要在應(yīng)用程序的協(xié)助下完成某些具體操作,主要通過API接口實現(xiàn)與應(yīng)用程序協(xié)同交互,這種設(shè)計方式有助于提高該文件系統(tǒng)的操作靈活性[7]。HDFS主要用于存儲靜態(tài)數(shù)據(jù),它通過MapReduce將計算邏輯分配給云計算系統(tǒng)的各個數(shù)據(jù)節(jié)點,采用花整為零的方式進行數(shù)據(jù)計算[8]。客戶端能夠通過名稱結(jié)點對元數(shù)據(jù)進行讀和寫操作,也可直接對數(shù)據(jù)結(jié)點進行操作[9]。HDFS由于具有可擴展性、效率高、能夠在通用平臺上部署、可靠性強、成本低等優(yōu)勢大受開發(fā)者歡迎,當前已逐步成為工業(yè)與學術(shù)界公認的海量數(shù)據(jù)并行處理標準[10,11]。
3.2 數(shù)據(jù)共享
為了滿足臨床的需要和病人信息數(shù)據(jù)的查詢共享,我國絕大多數(shù)醫(yī)院都搭建了內(nèi)部的醫(yī)療信息管理系統(tǒng),如用于影像數(shù)據(jù)存儲和傳輸?shù)腜ACS系統(tǒng),以及用于管理門診、病歷、藥庫等醫(yī)療信息的HIS系統(tǒng)。醫(yī)院內(nèi)部的醫(yī)療信息管理系統(tǒng)是醫(yī)院數(shù)字化發(fā)展的重要產(chǎn)物,其能夠服務(wù)于醫(yī)院內(nèi)各個醫(yī)療部門間的信息處理、交互、共享等需求,同時也可實現(xiàn)對公眾發(fā)布本院臨床專家的簡介和坐診時間等信息。醫(yī)學影像數(shù)據(jù)是醫(yī)院所產(chǎn)生數(shù)據(jù)的重要組成部分,占醫(yī)院產(chǎn)生數(shù)據(jù)總量的90%以上,它既是臨床診斷的主要依據(jù),也是研究疾病的重要材料。如何存儲和管理海量醫(yī)學影像數(shù)據(jù)已成為我國醫(yī)療信息管理系統(tǒng)的首要問題。醫(yī)學影像數(shù)據(jù)庫作為存儲、傳輸、管理、處理醫(yī)學影像大數(shù)據(jù)的主要工具,是在普通圖像數(shù)據(jù)庫技術(shù)的基礎(chǔ)上融合相關(guān)臨床醫(yī)學及生物醫(yī)學等相關(guān)領(lǐng)域的關(guān)鍵信息發(fā)展起來的。
當前,醫(yī)學影像數(shù)據(jù)庫的研究和構(gòu)建已取得較好的成果,如由病理學家Dr. John Monarch創(chuàng)建的腫瘤及乳房影像的數(shù)據(jù)庫、由ADNI(Alzheimers Disease Neuroimaging Initiative)創(chuàng)建的阿爾茨海默癥數(shù)據(jù)庫。而在國內(nèi),關(guān)于阿爾茨海默癥臨床數(shù)據(jù)的存儲和管理仍無一個完善、成體系的管理系統(tǒng),使臨床影像數(shù)據(jù)采集不夠規(guī)范完整,科學研究者無法充分利用這些影像數(shù)據(jù)進行深入研究。此外,帕金森綜合征、腦連接組成像等領(lǐng)域也建立了相關(guān)的數(shù)據(jù)庫,但國內(nèi)對這些數(shù)據(jù)庫管理同樣存在阿爾茨海默癥數(shù)據(jù)庫同樣的問題。這些數(shù)據(jù)共享和開放不僅是數(shù)據(jù)采集者的責任,同時也是數(shù)據(jù)庫管理者的責任。后者需要妥善地對數(shù)據(jù)進行管理,以安全有效地提供給需求者相應(yīng)的數(shù)據(jù)。但是,由于存在各種互不相關(guān)的項目,而且這些項目有的涉及倫理方面,在能夠有效利用之前必須先妥善地處理好這方面的問題。神經(jīng)影像數(shù)據(jù)的共享能夠起到以下作用:能夠廣泛利用世界各地的數(shù)據(jù);能夠用于最新的方法當中;推廣數(shù)據(jù)的重復分析和重復使用。
4 神經(jīng)影像學中數(shù)據(jù)處理方法:以腦網(wǎng)絡(luò)為例
目前,經(jīng)過多年的積累,全球多家醫(yī)院和多個知名實驗室在對神經(jīng)精神類疾病的研究中已積累不同研究領(lǐng)域的大量數(shù)據(jù),這些大數(shù)據(jù)主要有基因組學的實驗和臨床研究數(shù)據(jù)、神經(jīng)組學的實驗和臨床研究數(shù)據(jù)、多模態(tài)腦影像的實驗和臨床研究數(shù)據(jù)。由于實驗數(shù)據(jù)量呈現(xiàn)幾何倍數(shù)增長,以及數(shù)據(jù)間相關(guān)性的錯綜復雜,僅僅通過孤立的實驗觀測和傳統(tǒng)的數(shù)據(jù)統(tǒng)計方法已難以剖析數(shù)據(jù)內(nèi)部隱藏的規(guī)律。因此,如何利用大數(shù)據(jù)模型結(jié)合深度學習方法計算多尺度多模態(tài)的相關(guān)性,從基因?qū)哟蔚缴窠?jīng)元層次再到腦結(jié)構(gòu)網(wǎng)絡(luò)層次形成多層次的學科交叉研究成為未來發(fā)展神經(jīng)影像學的重要方向之一[12]。
當前,神經(jīng)影像學的一個研究熱點是腦網(wǎng)絡(luò)研究,其研究方法大致可分為兩大類。第一類是基于組塊—事件關(guān)聯(lián)性的研究方法,如局部一致性分析法[13]、小世界模型分析法[14]、默認模式網(wǎng)絡(luò)分析法[15]等[16];第二類是基于機器學習方法使用這些神經(jīng)影像數(shù)據(jù)對患者進行個體分類及預測,其中深度學習已成為分析神經(jīng)影像數(shù)據(jù)的重要方法[17,18]。
應(yīng)用機器學習方法對腦網(wǎng)絡(luò)分析的前提是先構(gòu)建腦網(wǎng)絡(luò),而腦網(wǎng)絡(luò)的構(gòu)建可分為功能性網(wǎng)絡(luò)和結(jié)構(gòu)性網(wǎng)絡(luò)。通常,結(jié)構(gòu)性的腦網(wǎng)絡(luò)通過神經(jīng)影像序列進行構(gòu)建,如通過采集彌散張量成像或擴散頻譜成像序列,再結(jié)合醫(yī)學上的連接模式來創(chuàng)建大腦網(wǎng)絡(luò)的相關(guān)性,并使用矩陣表示腦網(wǎng)絡(luò)的相關(guān)性,從而構(gòu)建出結(jié)構(gòu)性腦網(wǎng)絡(luò)。而功能性腦網(wǎng)絡(luò)的構(gòu)建則需要采集相關(guān)大腦區(qū)域活動的神經(jīng)影像學時間序列,再結(jié)合聚合測量方法對這些神經(jīng)影像學時間序列進行計算分析,從而得到神經(jīng)影像學時間序列的相關(guān)性,這種相關(guān)性同樣能夠使用矩陣的形式進行表示,該矩陣代表了腦網(wǎng)絡(luò)時間序列的相關(guān)性。
應(yīng)用機器學習方法對腦網(wǎng)絡(luò)分析的關(guān)鍵步驟是使用神經(jīng)影像數(shù)據(jù)進行特征學習,它為后續(xù)的網(wǎng)絡(luò)分類提供重要依據(jù)。特征學習的一般步驟是先從腦網(wǎng)絡(luò)數(shù)據(jù)提取用于學習的特征,通常選擇一些有意義的網(wǎng)絡(luò)局部測量作為學習的特征,然后采用機器學習中的一種或多種特征選擇算法篩選出一些有助于分類和理解疾病的重要特征。機器學習方法應(yīng)用于腦網(wǎng)絡(luò)分析的目標在于對腦網(wǎng)絡(luò)進行分類和預測。腦網(wǎng)絡(luò)分析方法中廣泛地使用機器學習和模式識別中的各種分類方法,其中,該方法因能夠提供一個通用的框架而得到了廣泛的研究和應(yīng)用。
5 結(jié)語
隨著成像設(shè)備和成像技術(shù)的快速發(fā)展,如磁共振波譜成像、擴散加權(quán)成像、灌注加權(quán)成像、擴散張量成像等成像技術(shù)的出現(xiàn),極大地推動了神經(jīng)影像學的發(fā)展,為神經(jīng)影像科學家對大腦神經(jīng)的結(jié)構(gòu)和功能的認識和進一步研究提供了基礎(chǔ)。但是,海量的數(shù)據(jù)也帶來了數(shù)據(jù)存儲、處理的困難。普通圖像數(shù)據(jù)庫技術(shù)由于其文件管理系統(tǒng)無法實現(xiàn)分布式存儲和處理大數(shù)據(jù),加上硬件設(shè)備無法提供大數(shù)據(jù)處理所需的強大算力,因而出現(xiàn)效率低、并發(fā)性低、可拓展性差等問題。現(xiàn)代化的大數(shù)據(jù)存儲和處理技術(shù),如云計算系統(tǒng),在神經(jīng)影像學上的應(yīng)用可有效地解決上述問題。云計算系統(tǒng)所采用的分布式數(shù)據(jù)存儲技術(shù)能夠滿足海量的數(shù)據(jù)存儲和處理能力,它具有將存儲資源進行抽象表示和統(tǒng)一管理的功能,同時還具有良好的數(shù)據(jù)安全功能,能夠保障數(shù)據(jù)在安讀寫操作過程中的安全性。文章介紹了兩種典型的分布式存儲處理系統(tǒng),即谷歌公司研發(fā)的GFS和Hadoop研發(fā)的HDFS系統(tǒng),還對神經(jīng)影像在數(shù)據(jù)共享方面的現(xiàn)狀進行了綜述,最后通過一個腦網(wǎng)絡(luò)計算實例展現(xiàn)了神經(jīng)網(wǎng)絡(luò)中數(shù)據(jù)分析的一般流程。然而,目前在神經(jīng)網(wǎng)絡(luò)中,這些海量數(shù)據(jù)的存儲和處理技術(shù)還遠遠未成熟。隨著這些應(yīng)用的進一步深入,必能推動神經(jīng)網(wǎng)絡(luò)學的進一步發(fā)展,為人類解開大腦的謎題奠定基礎(chǔ)。
【參考文獻】
[1]Cheng X,Jin X,Wang Y,et al. Survey on big data system and analytic technology[J].Journal of Software,2014,25(9):1889-1908.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013(1):146-169.
[3]顧凡及.歐盟和美國兩大腦研究計劃之近況[J].科學(上海),2014,66(5):16-21.
[4]邵亞超,劉光明,吳思,等.面向高性能計算平臺的腦科學仿真技術(shù)研究[J].北京師范大學學報(自然科學版),2015(6):576-581.
[5]Van Horn J D,Toga A W.Human neuroimaging as a “Big Data” science[J].Brain Imaging and Behavior,2014,8(2):323-331.
[6]張功榮.基于云計算的海量圖像處理研究[D].福州:福建師范大學,2015.
[7]蔡鍵,王樹梅.基于Google的云計算實例分析[J].電腦知識與技術(shù),2009(25):7093-7095+7107.
[8]程學旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學報,2014(9):1889-1908.
[9]黃曉云.基于HDFS的云存儲服務(wù)系統(tǒng)研究[D].大連:大連海事大學,2010.
[10]廖彬,于炯,張?zhí)眨?基于分布式文件系統(tǒng)HDFS的節(jié)能算法[J].計算機學報,2013,36(5):1047-1064.
[11]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計算機工程與科學,2013,35(10):25-35.
[12]汲小溪.大數(shù)據(jù)驅(qū)動的計算生物標識研究[D].上海:復旦大學,2014.
[13]侯小燕,陳維翠,陳俊,等.組穴針刺治療頸痛患者默認網(wǎng)絡(luò)的ReHo研究[J].磁共振成像,2014,5(6):436-440.
[14]Sanz-Arigita E J,Schoonheim M M,Damoiseaux J S,et al.Loss of “small-world”networks in Alzheimer's disease: Graph analysis of FMRI resting-state functional connectivity[J].PloS One,2010,5(11):13788.
[15]Greicius M D,Srivastava G,Reiss A L,et al.Default-mode network activity distinguishes Alzheimer's disease from healthy aging: Evidence from functional MRI[J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(13):4637-4642.
[16]Bai F,Zhang Z,Watson D.R,et al.Abnormal functional connectivity of hippocampus during episodic memory retrieval processing network in amnestic mild cognitive impairment[J]. Biological Psychiatry,2009,65(11): 951-958.
[17]田苗,林嵐,張柏雯,等.深度學習在神經(jīng)影像中的應(yīng)用研究[J].中國醫(yī)療設(shè)備,2016(12):4-9.
[18]張道強,接標.基于機器學習的腦網(wǎng)絡(luò)分析方法及應(yīng)用[J].數(shù)據(jù)采集與處理,2015,30(1):68-76.