崔蒙+楊寅
摘要:從中醫藥文獻數據庫、《中醫藥學主題詞表》的研制到中醫藥信息數字化虛擬研究院、基于結構型數據庫的數據挖掘,中醫藥數據建設取得了顯著的成績。但中醫藥科學數據在建設和利用中也存在一些問題,需要思考。中醫藥科學數據建設需要采用虛擬研究院模式,必須有穩定的隊伍。中醫藥科學數據建設與利用必須符合中醫藥學自身規律,建立適合自身數據處理的方法。中醫藥科學數據建設的理論和方法學問題,不可單純引進其他學科的理論和方法,而應該在中醫藥理論指導下借鑒這些理論和方法解決中醫藥數據建設的難點。
關鍵詞:中醫藥;科學數據;虛擬研究院
中圖分類號:R2-05 文獻標識碼:A 文章編號:2095-5707(2016)04-0001-03
Reflections on the Construction of TCM Scientific Data
CUI Meng, YANG Yin
(Institute of Information on Traditional Chinese Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China)
Abstract: The construction of TCM scientific data has made great achievements, including TCM literature database, the development of TCM keywords table, virtual institute of digital TCM information, and data mining based on structural database. At the same time, we found some problems in the construction and utilization of TCM scientific data, which demand our reflection. TCM virtual institute should be used to construct TCM scientific data and build a steady team. The construction and utilization of TCM scientific data should fit the law of TCM and establish a proper way of data processing. The problems in the theory and methodology of construction of TCM scientific data cannot be solved by solely introducing theories and methods of other subjects, but can be solved by referencing these theories and methods under the guidance of TCM theories.
Key words: TCM; scientific data; virtual institute
中醫藥科學數據是指在中醫長期醫療實踐活動及科學研究過程中所產生的原始性、基礎性數據,以及按照不同需求、系統加工的數據。它既包括了
基金項目:國家科技部重大專項(2012ZX09304003-001);國家中醫藥管理局行業專項(201207001-21);科技部科技基礎性工作專項(2009FY120300);中國中醫科學院創新團隊項目(PY1306)
第一作者:崔蒙,研究員,研究方向為中醫藥信息學。E-mail: cm@mail.cintcm.ac.cn
中醫在幾千年醫療實踐活動中長期積累與整理編纂的海量數據,也包括實施科技計劃項目與科技工作者科學實踐所產生的大量數據,它是中醫理論繼承與創新發展、中醫臨床決策支持與中藥新藥研發的重要源泉與依據。
1 中醫藥科學數據建設現狀
中醫藥科學數據建設起源于20世紀80年代初,中國中醫研究院圖書情報中心(即現在的中國中醫科學院中醫藥信息研究所)仿照美國國立醫學圖書館Medline數據庫開始研制中醫藥文獻數據庫。盡管只是文摘數據庫,但采用美國國立醫學圖書館的標引技術,研制出《中醫藥學主題詞表》,對數據庫進行主題詞標引,起點比較高。該數據庫至今仍在持續維護中,收錄范圍已經擴大到1949年至今,文獻量超過140萬篇,對中醫藥科學數據的利用發揮了重要作用,是中醫藥科技查新的重要工具。
20世紀90年代末至21世紀初,隨著國家對科學數據建設重視程度的不斷提高,特別是國家科學數據共享工程的啟動,中醫藥科學數據建設獲得了快速的發展。由中國中醫科學院中醫藥信息研究所組織,建立了由全國37家中醫藥院校和研究院所的圖書館、信息中心、文獻中心共同參與的中醫藥信息數字化虛擬研究院(簡稱“虛擬研究院”)。虛擬研究院沒有行政關系,主要是以項目為紐帶,以共同目標為己任,以各個院校、研究院所的相關機構為依托,以各個數據庫為研究小組,形成了集全國力量為一體的中醫藥科學數據研制團隊。在浙江大學計算機科學與技術學院的全力支持下,引進最先進的計算機及網絡技術,開展了空前規模的中醫藥科學數據建設工作,開發了中醫藥科學數據共建與共享平臺,研制了中醫藥學語言系統、中醫臨床術語系統和20余個中醫藥專題詞表,制作了60余個中醫藥結構型專題數據庫,形成了全球最大規模的中醫藥科學數據平臺,對推動中醫藥行業的科學數據利用,以及對中醫藥行業重視科學數據起到了不可替代的作用。
與此同時,中醫藥科學數據的深度利用研究也蓬蓬勃勃地開展起來。基于結構型數據庫的數據挖掘工作取得了很大的進展,在方劑配伍規律、證候組合規律、名老中醫用藥規律等方面開展了大量的研究工作。在浙江大學計算機科學與技術學院的支持下,搭建了高性能計算平臺,支持50個節點的并行運算,運算峰值達每秒萬億次;研制了支持虛擬研究院工作的DartGrid平臺,實現了全國37家單位的遠程協同建庫工作;研制了支持知識服務的DartCloud云平臺,構建了知識服務平臺的智慧應用中心,極大地促進了中醫藥科學數據的深度利用。
當大數據理念提出后,我們提出了中醫藥數據所具有的2個鮮明特色,即中醫藥數據是全數據、是知識密集型數據,并開始研制基于大數據的應用平臺,更加關注非結構化數據的處理、混雜數據的處理,以及數據間的相關關系,對基于中醫藥科學數據的知識服務展開了更加深入的研究。
在取得成績的同時,我們也發現了在中醫藥科學數據建設和利用中存在的問題,這些問題有可能延緩中醫藥科學數據建設與利用達到更高水平和更快發展的速度。因此,必須認真思考和解決這些問題。
2 中醫藥科學數據建設的問題及解決方案
2.1 建立穩定的虛擬研究院隊伍
中醫藥科學數據建設單位的規模一般不很大,依靠一個單位開展大型數據庫的建設和利用非常困難。另外,一個重大研究項目常常橫跨多個學科,應綜合應用多種研究方法探討其獨特規律[1]。因此,以項目為依托,緊密聯合多所大學及研究院編制內的實體研究機構或科研小組的、全國性的協同工作在中醫藥科學數據建設中至關重要。而已經建立起來的虛擬研究院是成功的范例,其多學科、多中心、多項目的合作模式,基于工程、多項目支撐、多層次結合、鼓勵自我優勢探討的發展模式,中心負責、專業化分工、共建共享、松散聯合的運行模式,共同構成了虛擬研究院在中醫藥科學數據建設上的獨特優勢[2]。通過近年的建設實踐,虛擬研究院保持了穩步的發展,實現了研究方向的不斷豐富,研究領域的不斷拓展,參與單位科研人員整體水平的不斷提高,合作單位的不斷增多,國際交流的不斷擴展,數字化成果、數據利用成果、傳統知識保護成果、國際合作成果產出的不斷增多。然而,在實踐中我們發現虛擬研究院仍存在一些問題,最主要的是人員管理體制問題。
現行的人員管理體制中存在一把手負責制、干部輪換制。一把手負責制即組成虛擬研究院的機構負責人不僅負責確定數據建設的戰略和方針,還干預具體的管理過程以及方案的確定和實施。干部輪換制是指組成虛擬研究院的機構負責人經過一定年限后,由所隸屬的科研院所進行更換,而新負責人可能來自院所的其他部門,不具備中醫藥信息研究背景和專業基礎。在這種管理體制下,“一把手”并不是這個專業的行家里手,甚至對這項工作沒有興趣,使得虛擬研究院的運行出現了很大的問題。換言之,一批干部輪換后,若由不擅長此項工作的人來主持,會影響工作開展。然而,科學數據的管理和完善不是單純的技術問題,而是技術與管理相結合的持續完善的管理過程[3]。對于虛擬研究院來說,其機構、組織、人員等的穩定具有極其重要的作用和意義,特別是組成虛擬研究院機構的負責人的穩定性對中醫藥科學數據建設工作的開展具有至關重要的作用。中醫藥科學數據的建設與利用是一項專業性很強的、需要持續進行的工作,并不是一項簡單的行政工作;凝聚一批有興趣、有能力、有事業心的負責人,對中醫藥科學數據建設事業具有極其重要的作用,而用簡單的行政管理辦法,隨意調動、更換負責人,會導致工作失去連貫性,特別是當新的負責人沒有足夠的興趣或能力時,甚至會導致工作終止,由此給中醫藥科學數據建設與利用帶來巨大損失。因此,虛擬研究院需要以負責人穩定和研究人員關系平等為基礎的人員隊伍。
2.2 建立適合中醫藥科學數據處理的方法
通過長時間的實踐,我們發現中醫藥科學數據建設與利用既要遵循一般科學數據建設的規律,也要遵循中醫藥學的規律,否則其數據建設和利用就會脫離中醫藥臨床與科研的實際,失去其應有的價值和意義。首先,中醫藥的臨床實踐是基于個體化診療的,這種個體化不僅指觀察對象的個體化,還包括觀察者的個體化,亦即參與診療過程的醫生和患者都具有個體化特征,形成一個相對獨立的個體化系統。當然,這是一個開放的獨立系統,患者是處于自己個體的天地人三者合一的開放系統中,醫生也同樣處于其個體的天地人三者合一的系統中,兩者又組成了一個共同的開放系統。對于這樣一個系統所產生的數據必須要遵循中醫藥學的理論進行處理,才能發現其內在規律。在這個系統中,有能夠使用混合大數據處理的數據,如發現組成證候的癥狀群規律;也有只能根據單一系統處理的數據,如醫生個體、或單個醫生與患者組成的系統診治時處方用藥的規律;因而不能簡單地使用大數據的處理方法處理中醫藥數據。其次,中醫藥數據是屬于知識密集型數據,其數據量很難達到類似天文、海洋、氣候、地理等學科級別的數據量,因此,僅靠數據密集度發現新知識具有一定難度。更為適合的方法可能是建立基于本體的語義網絡,將數據中隱含的知識關聯起來,以期發現新的知識和規律。所以,中醫藥科學數據的處理必須符合中醫藥學本身的規律,服務于中醫藥知識和規律的發現與應用。隨著人工智能技術的發展,特別是近期韓國著名圍棋手李世石與谷歌AlphaGo所進行的圍棋比賽,顯示了人工智能研究發展的態勢,使中醫藥科學數據的深度利用受到很大啟發,甚或有了新的研究思路。
2.3 建立中醫藥科學數據建設的理論和方法學
建立中醫藥科學數據建設的理論和方法學,不可單純引進其他學科的理論和方法,而應該在中醫藥理論指導下借鑒這些理論和方法,來解決中醫藥數據建設的難點。
基于中醫藥知識服務的科學數據建設有4個難點,即⑴如何表達復雜、定性、模糊的中醫藥概念、知識與思維模式?⑵如何無縫集成融合不同學科的異構知識,保證知識的一致性并能快速查詢搜索?⑶如何重組、擴展、挖掘數據以發現隱形知識,實現知識創新價值?⑷如何實現智能的過程信息知識管理,提升行業經濟效益?很明顯,單純引入其他學科的理論和方法不能直接解決這4個難點,只有將前者融入中醫藥理論中,將之轉化成符合中醫藥發展變化規律的理論和方法,才能解決中醫藥科學數據建設的問題。
針對上述4個難點,較為合適的解決方法依次是,⑴構建基于語義圖的中醫藥知識圖譜與知識庫,關鍵點為基于多圖語義的知識圖譜建模方法和唯象中醫藥知識建模方法;⑵研發基于語義互聯網的中醫藥知識搜索技術,關鍵點為多模型語義映射方法和分布式語義索引方法;⑶建立基于語義圖挖掘的中醫藥知識發現,關鍵點是復雜網絡化知識的搜索挖掘方法和基于語義圖的泛化關聯規則挖掘方法;⑷獲取面向過程服務的知識集成方法及服務技術,關鍵點是基于語義發布訂閱的知識集成方法和面向移動環境的知識服務集成方法。
3 小結
中醫藥科學數據建設是整個人口與健康科學數據共享平臺建設的不可或缺的部分,我們努力將中醫藥科學數據融入整個健康科學數據的共建共享,在促進整個健康事業發展中發揮作用。以虛擬研究院為組織模式的中醫藥科學數據建設在取得一定進展的同時,亦發現一些問題,產生了與之對應的思考。希望能夠經由這些發現和思考進一步完善中醫藥科學數據建設工作,使中醫藥科學數據發揮更大的作用。
參考文獻
[1] 周增桓,李海燕,史先東,等.對科研協作中若干問題的探討[J].中華醫學科研管理雜志,2000,13(3):188-189.
[2] 崔蒙,謝琪,尹愛寧,等.中醫藥信息數字化虛擬研究院建設模式研究[J].上海中醫藥大學學報,2008,22(3):5-8.
[3] 吳金紅,陳勇躍.面向科研第四范式的科學數據監管體系研究[J].圖書情報工作,2015,59(16):11-17.