胡瀟+羅冬蘭
摘要:當前對生命科學領域的研究已經成為國內、國際學者的熱點研究問題,在此基礎上對生理信息數據庫的需求日漸增加。越來越多的人開始應用這些開放的數據作為科研和臨床教學的基礎。PhysioBank是一大型的、不斷擴充的、由生物醫學研究機構共享的記錄復雜生理信號和相關數據的數據文檔集合,已經成為研究人員獲得臨床數據開發數據分析算法,分享研究成果的重要平臺。
本文重點介紹了運用MATLAB的高性能數值計算和可視化的特點,將數據庫PhysioBank中的數據進行識讀并且用圖表直觀地顯示出來。以MIT—BIH心律失常數據庫的測試波形為例介紹起特定數據格式的識讀方法,最后簡單介紹了該數據庫的相關應用。
關鍵詞:數據庫;生理信號;心電圖;數據格式
1 PhysioNet的簡介
自1999年起,由美國國家衛生研究院(NIH)資助,美國麻省理工學院(MIT)聯合波士頓BethIsrael Deaconess醫學中心、波士頓大學等單位建立了基于Web 的復雜生理信號和生物醫學信號研究資源網站PhysioNet(www.physionet.org),用于促進研究數據和分析軟件的交流,激勵相關研究人員之間的廣泛協作,同時促進新的分析方法和參考數據庫的發展。PhysioNet資源網站包括PhysioNet網頁,數據庫PhysioBank和PhysioToolkit軟件庫三個相互關聯部分(如圖1.1)。
PhysioNet同時提供了一個開放式的網絡資源平臺,可以自由地通過網絡訪問,免費獲取PhysioBank和PhysioToolkit的原始數據和分析工具,發布和交換生物醫學信號以及處理信號的開放源碼軟件,為協作進行數據分析和新算法評估提供便利;同時還通過在線指南對用戶如何利用該網絡資源提供服務和訓練,并設置著作論文、最新進展、討論、挑戰、常見問題等專題。PhysioNet為研究人員提供了一個方便獲得臨床數據、開發數據分析算法、分享研究成果的平臺,為臨床教育提供重要的病例資料,內容經過嚴格的審查,其科學性和嚴謹性已得到廣泛的驗證,享有很高的權威性。
2 數據庫PhysioBank的介紹
目前,國際上有三個主流的心電數據庫,即歐共體定量心電圖共同標準(CSE),美國心臟學會(AHA)和美國麻省理工學院(MIT/BIH)的電生理信號數據庫。美國國家衛生研究院(NIH)的PhysioBank數據庫包含了MIT/BIH及位于世界各國不同研究機構的40多個子庫。PhysioBank是一個以心電(ECG)信號為主,核磁共振成像(MRI)等其他資料為輔的科研資源大型數據庫,總的數據量超過了110GB。它包含了健康人和病人身上提取的心肺活動、神經系統等多參數生物信號。這些信號涉及一些較為普遍的病癥,例如心臟猝死、充血性心力衰竭、癲癇癥、睡眠呼吸暫停癥等[2]。
由于數據壓縮及標準化的考慮,數據庫中的數據不能直接使用。其數據格式和工具都是在Unix環境開發的,沒有提供通用的Windows程序接口,對習慣Windows編成的研究人員來說很不方便。通常的解決方法有兩種:一是使用專門的工具軟件PhysioToolkit及函數庫,在Unix環境中通過專用分析軟件對數據進行操作,這對于沒有跨平臺操作經驗的用戶來說,這種方法的可擴展性受到限制;二是用戶根據數據存儲格式來編寫自己的識讀程序,由于PhysioBank中的數據格式并不統一,用戶首先需要確認所需要的數據的存儲格式,之后根據數據格式進行相應的程序編寫從而達到對PhysioBank中數據識讀的目的。本文主要介紹通過第二種方法對PhysioBank中的數據進行讀取。
PhysioBank中的數據資料按其發展的成熟完善程度分為三類:
Classl:具有完備的注釋信息,并且經過權威機構的測試。比如MIT一BIH中的心率不齊數據庫,已經成為一般ECG識讀程序的驗證參照。
Class2:是特定研究的數據源副本。這些庫由其研究者提供,并經過了相關人員有保留的測試。這類數據庫可以驗證原作者的相關研究,也可以使用不同的方法與原作者的方法進行比較。這類數據庫經過多方面的驗證和研究之后,將最終轉化為第一類數據庫。
Class3:來源于某些研究團體,并且正在用于研究,因此,其數據的成熟性和完備性還不夠。但是,這類數據庫往往反映了當今的研究方向和技術難題。該數據庫的開放可以吸引相關領域的研究者共同開展工作。
3 文件的識讀
數據庫PhysioBank中每一數據庫記錄通常包含三個文件(如圖3.1)分別是頭文件(擴展名為.hea),數據文件(擴展名為.dat),注釋文件(擴展名為.atr)。
以美國MIT-BIH心律失常數據庫為例,該數據庫由48個經過注解的記錄組成,其中25個記錄的全部數據都可以從互聯網上下載,每一個記錄時間約為30分鐘。
比如MIT—BIH心律失常數據庫中的記錄100包含三個文件,分別是頭文件100.hea,數據文件100.dat,注釋文件100.atr。
3.1 MIT—BIH心律失常數據庫中的信號識讀
MIT-BIH心律失常數據庫是由麻省理工學院和Beth Israel醫院合作共同建立的數據庫,MIT-BIH數據庫中數據來自47個個體,包括25個男性和22個女性,共有48個記錄,每個記錄含30分鐘左右的數據片段。數據庫中ECG的采樣頻率為360Hz,采樣的精度為11位(數據范圍在0-2047之間)。數據庫中每條記錄都包含兩個通道的數據(如圖3.2),每個通道采用的導聯方法也是不一樣的。第一通道是采用校正的肢體II導聯,第二通道通常采用校正的V1導聯(偶爾有V2、V5導聯),正常拍的QRS復合波群形態通常在第一通道上比較明顯,在第二通道上則一般很難辨別。目前MIT-BIH數據庫中的48條記錄都可以從網站中免費獲取。
識讀過程中首先于數據庫中下載所需的信號文件,以MIT—BIH中的100文件為例,在網頁http://www.physionet.org/physiobank/database/mitdb/ 中可下載100記錄的頭文件,數據文件與注釋文件。
MIT一BIH心律失常數據庫的數據文件應用Format212格式存儲,針對這一信號類型設計MATLAB程序可識讀其中心電信號。
-------------------- SPECIFY DATA
------------------------------------------------------
PATH='C:\MATLAB7\work\Rwave';%讀取的路徑
HEADERFILE='100.hea';%頭文件設定為100.hea
ATRFILE='100.atr'; %注釋文件設定為100.atr
DATAFILE='100.dat'; %數據文件設定為100.dat
SAMPLES2READ=4096; % 數據長度
通過MATLAB對數據文件進行讀取,得到圖像(圖3.3)如下:
3.2 MIT—BIH數據庫對心血管疾病進行研究
心血管疾病已經成為當今危害人類健康的主要疾病之一,心電圖檢查是臨床上診斷心血管疾病的重要方法。心電圖準確的自動分析與診斷對于心血管診斷起著關鍵的作用,也是國內外學者所熱衷的課題。
心電信號是伴隨心臟搏動時產生的微弱電信號,是心臟病人病情的一種外在表現。至今,對此微弱信號的提取技術己經相當完善。近幾十年來,人們更關心的是如何通過各種方法研究各類心電信號,并找出與之對應的病癥關系,以期達到機器自動診斷的目的。
Physiobank數據庫是一個以心電數據為主的大型數據庫,不僅包含有各種不同類型的心電數據庫,如MIT—BIH心律失常數據庫還有經過處理的RR間期數據庫,為心血管疾病的研究及心率變異性分析方法提供了豐富的數據。
4 總結
PhysioBank數據庫是一個公開準確的生物醫學信息數據庫,其心電數據尤為全面,為各國學者的科研教學及儀器開發提供了重要數據源。該數據庫通過在Intemet上的公開數據庫的信息資源,實現數據收集和自動更新,達到了數據庫的不斷完善和進步。
本課題重在基于MATLAB對PhysioBank中數據的識讀,同時對PhysioBank的結構和內容及其數據文件進行了詳細的介紹。本文以MIT—BIH心律失常數據庫為例對其所存心電信號進行識讀。
通過本課題的研究對MIT—BIH數據庫的結構和內容都有了一定的了解,并且熟悉了MATLAB應用軟件的相關操作和數據驗證方法,對今后的學習工作提供了很大的幫助。
參考文獻:
[1]龐興梅.PhysioNet信息資源解析及利用.醫學信息學雜志.21010年第31卷第7期.
[2]翁劍楓,楊贏.基于MAT LAB語言設計的電生理信號分析系統.中國計量學院學報.2000年6月20卷第一期.
[3]http://www.phsionet.org(EB/OL).