丁長(zhǎng)松,瞿昊宇,吳世雯
湖南中醫(yī)藥大學(xué)管理與信息工程學(xué)院,湖南 長(zhǎng)沙 410208
大數(shù)據(jù)背景下基于對(duì)象特性的中醫(yī)藥數(shù)據(jù)管理研究
丁長(zhǎng)松,瞿昊宇,吳世雯
湖南中醫(yī)藥大學(xué)管理與信息工程學(xué)院,湖南 長(zhǎng)沙 410208
針對(duì)傳統(tǒng)數(shù)據(jù)管理模式難以有效管理中醫(yī)藥信息的問(wèn)題,本文從中醫(yī)藥信息資源本質(zhì)特性角度分析并歸納其原因在于中醫(yī)藥信息資源具有大數(shù)據(jù)的4V特征,提出了基于大數(shù)據(jù)技術(shù)管理中醫(yī)藥信息資源的策略,并對(duì)其可行性進(jìn)行了闡述。
中醫(yī)藥信息;大數(shù)據(jù);數(shù)據(jù)管理
中醫(yī)藥信息作為中醫(yī)藥技術(shù)的主要載體,對(duì)其進(jìn)行高效管理與利用,對(duì)促進(jìn)中醫(yī)藥事業(yè)的發(fā)展起著關(guān)鍵作用。然而,中醫(yī)藥技術(shù)和信息技術(shù)發(fā)展不同步、傳統(tǒng)中醫(yī)學(xué)長(zhǎng)期缺乏規(guī)范、缺少統(tǒng)一的術(shù)語(yǔ)定義標(biāo)準(zhǔn),以及海量中醫(yī)藥數(shù)據(jù)且與日俱增,使傳統(tǒng)的數(shù)據(jù)管理模式難以對(duì)其進(jìn)行有效管理與利用。因此,分析中醫(yī)藥信息本質(zhì)特征并提出相應(yīng)的管理策略,已成為有效利用中醫(yī)藥信息資源亟需解決的核心問(wèn)題。為此,筆者結(jié)合中醫(yī)藥信息特征,對(duì)傳統(tǒng)的中醫(yī)藥信息技術(shù)手段、成果及局限性進(jìn)行分析和總結(jié),提出大數(shù)據(jù)背景下的中醫(yī)藥數(shù)據(jù)管理解決方案,并從中醫(yī)藥信息的個(gè)性特征角度分析論證借助大數(shù)據(jù)技術(shù)對(duì)其進(jìn)行有效管理的可行性。
中醫(yī)藥是中華民族發(fā)展歷程中對(duì)人自身和自然認(rèn)識(shí)了解過(guò)程的成果,具有明顯的自然屬性和社會(huì)屬性。其中,自然屬性體現(xiàn)在中藥與中醫(yī)知識(shí)的客觀存在特性,社會(huì)屬性源于人類活動(dòng)對(duì)中醫(yī)藥自然屬性的影響,如藥物加工、藥種的人工干預(yù)、信息的再生產(chǎn)等方面。中醫(yī)藥信息是認(rèn)識(shí)論層次的信息,具有明顯的主客觀融合特征,相對(duì)重視系統(tǒng)時(shí)間上的延續(xù)變化狀態(tài),是開(kāi)放環(huán)境下獲取的包含本質(zhì)的現(xiàn)象信息[1]。從數(shù)據(jù)管理角度而言,中醫(yī)藥信息具有以下特性。
1.1描述對(duì)象屬性模糊、抽象
中醫(yī)學(xué)理論體系受陰陽(yáng)五行學(xué)說(shuō)的影響以整體觀念為主導(dǎo),基于系統(tǒng)和經(jīng)驗(yàn)而缺少客觀量化依據(jù),判別標(biāo)準(zhǔn)模糊,導(dǎo)致屬性描述模糊和抽象。一般對(duì)藥物的描述多采用諸如“溫”“辛”等詞,對(duì)其用法多采用“常”“宜于”等抽象詞,如對(duì)細(xì)辛的描述為“本品辛溫發(fā)散……長(zhǎng)于解表散寒……宜于外感風(fēng)寒,頭身疼痛較甚者,常與羌活、防風(fēng)、白芷等祛風(fēng)止痛藥同用……”。又如脈象信息作為中醫(yī)獲取四診信息的手段之一,其收集僅靠醫(yī)生指腹的感覺(jué),對(duì)其描述采用形象化的詞語(yǔ),如滑脈“替替然如珠之應(yīng)指”、浮脈“舉之有余,按之不足”。
1.2采集對(duì)象屬性不完備,古籍校本不一
中醫(yī)古籍文獻(xiàn)著作者在對(duì)中醫(yī)藥的屬性描述過(guò)程中多帶有主觀因素,且受限于其時(shí)代的認(rèn)知水平,導(dǎo)致采集的對(duì)象屬性存在片面性和局限性。同時(shí),由于古醫(yī)籍文獻(xiàn)數(shù)字化工作量巨大,導(dǎo)致現(xiàn)有的中藥數(shù)據(jù)庫(kù)大多僅提供題錄式或文摘式數(shù)據(jù)而全文數(shù)據(jù)庫(kù)少,使用戶難以獲取全面詳細(xì)的信息。
中醫(yī)藥古籍中一些比較重要的醫(yī)籍,由于多次再版,導(dǎo)致同一古籍存在多種校本,而且在古籍傳承過(guò)程中采用的金石、簡(jiǎn)牘、帛書(shū)、抄本和印本等載體易導(dǎo)致出錯(cuò),使現(xiàn)存的中醫(yī)藥文獻(xiàn)中對(duì)象屬性不完備甚至存在錯(cuò)誤。
1.3名詞術(shù)語(yǔ)不規(guī)范,對(duì)象屬性描述多樣
中醫(yī)藥名詞術(shù)語(yǔ)不規(guī)范,一詞多義、同義多詞的現(xiàn)象十分普遍。如針灸學(xué)中任脈“關(guān)元”穴有多種別名,氣功學(xué)中稱“丹田”,《素文?氣穴論篇》稱“下紀(jì)”,《靈樞?寒熱病》稱“三結(jié)交”,《針灸甲乙經(jīng)》稱“次門(mén)”,《針灸資生經(jīng)》稱“大中極”。又如中藥“金銀花”,《植物名實(shí)圖考》稱“鷺鷥花”或“忍冬花”,在處方中有二寶花、二花、金花、銀花等別名,按產(chǎn)地區(qū)別又有蘇花(江蘇)、濟(jì)銀花(山東費(fèi)縣)、密銀花(河南密縣)、杜銀花(甘肅)等名稱。另外,中醫(yī)方劑學(xué)也存在著不規(guī)范的中藥炮制名,以及劑量單位不統(tǒng)一、同方異名等問(wèn)題,如粗略統(tǒng)計(jì)發(fā)現(xiàn)《中華名醫(yī)方劑大全》9031首方劑異名達(dá)1004個(gè)[2]。
對(duì)象屬性描述多樣主要是由于中醫(yī)藥自身復(fù)雜多樣特征所決定。如對(duì)藥材的描述中,產(chǎn)地多采用文字描述,用量采用數(shù)字描述,而形狀特征則采用圖文結(jié)合進(jìn)行描述。
1.4中醫(yī)藥文獻(xiàn)或數(shù)據(jù)庫(kù)之間關(guān)系復(fù)雜
以中醫(yī)藥數(shù)據(jù)為內(nèi)容構(gòu)建的數(shù)據(jù)庫(kù)之間關(guān)系復(fù)雜。同一藥物常出現(xiàn)在不同數(shù)據(jù)庫(kù)中,方劑中的藥與藥典中的藥之間關(guān)系、不同醫(yī)師對(duì)相同病癥用藥之間的內(nèi)在關(guān)系、同一醫(yī)師對(duì)不同病癥開(kāi)具的處方之間的用藥關(guān)系等,由于傳統(tǒng)的中醫(yī)藥數(shù)據(jù)信息未共享,各自為“信息孤島”,導(dǎo)致在分析對(duì)象間關(guān)系,尤其是當(dāng)分析的數(shù)據(jù)海量時(shí),采用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)難以實(shí)現(xiàn)。
1.5數(shù)據(jù)海量且增長(zhǎng)快速
中醫(yī)藥在其發(fā)展過(guò)程中產(chǎn)生了海量數(shù)據(jù),如中國(guó)中醫(yī)科學(xué)院中醫(yī)藥數(shù)據(jù)中心數(shù)據(jù)存儲(chǔ)容量目前已達(dá)PB級(jí)[3]。隨著現(xiàn)代信息技術(shù)在中醫(yī)藥領(lǐng)域中的廣泛應(yīng)用,使中醫(yī)藥信息快速增長(zhǎng),尤其在臨床診斷、治療、檢測(cè)方面產(chǎn)生的臨床數(shù)據(jù),以及在現(xiàn)代實(shí)驗(yàn)研究方面產(chǎn)生的相關(guān)數(shù)據(jù)方面更為突出,如中藥現(xiàn)代研究文獻(xiàn)數(shù)據(jù)庫(kù),其數(shù)量約占現(xiàn)有中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫(kù)總量的3/4[4]。
目前,中醫(yī)藥信息管理主要集中在基礎(chǔ)數(shù)據(jù)庫(kù)、數(shù)字化圖書(shū)館建設(shè)、相關(guān)標(biāo)準(zhǔn)(規(guī)范)整理、文獻(xiàn)信息檢索和電子政務(wù)系統(tǒng)建設(shè)等方面,尤其在數(shù)字化方面取得了顯著成果。如“國(guó)家中醫(yī)古籍整理與數(shù)字化研究中心”累計(jì)已完成1690種中醫(yī)古籍的圖像掃描,實(shí)現(xiàn)了部分古籍資源圖文對(duì)照和全文檢索功能,建設(shè)了800種中醫(yī)古籍的影像數(shù)據(jù)庫(kù)和全文數(shù)據(jù),并形成了解決中醫(yī)古籍?dāng)?shù)據(jù)化問(wèn)題的“基于知識(shí)元的中醫(yī)古籍計(jì)算機(jī)知識(shí)表示方法”,制定了《中醫(yī)古籍?dāng)?shù)字化文本校勘整理規(guī)范》等系列指導(dǎo)古籍?dāng)?shù)字化建設(shè)的技術(shù)標(biāo)準(zhǔn)及系列古籍知識(shí)標(biāo)引手冊(cè)等[5],為中醫(yī)古籍大規(guī)模數(shù)字化、數(shù)據(jù)化建設(shè),以及面向臨床的知識(shí)服務(wù)提供了技術(shù)保障,解決了中醫(yī)古籍?dāng)?shù)字化及數(shù)據(jù)化的技術(shù)難題。
在數(shù)據(jù)庫(kù)建設(shè)方面,中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所自1984年開(kāi)始進(jìn)行中醫(yī)藥學(xué)大型數(shù)據(jù)庫(kù)的建設(shè),目前數(shù)據(jù)庫(kù)總數(shù)40余個(gè)、數(shù)據(jù)總量約110萬(wàn)條,包括中醫(yī)藥期刊文獻(xiàn)數(shù)據(jù)庫(kù)、各類中藥數(shù)據(jù)庫(kù)、民族醫(yī)藥數(shù)據(jù)庫(kù)等相關(guān)數(shù)據(jù)庫(kù),并在建設(shè)數(shù)據(jù)庫(kù)的過(guò)程中制定了中醫(yī)藥元數(shù)據(jù)標(biāo)準(zhǔn)、中醫(yī)藥一體化語(yǔ)言系統(tǒng)等相關(guān)標(biāo)準(zhǔn)。以中國(guó)中醫(yī)科學(xué)院為中心建立的中醫(yī)科技文獻(xiàn)共建平臺(tái),創(chuàng)建了中醫(yī)、中藥、針灸、古籍文獻(xiàn)類數(shù)據(jù)庫(kù)100余個(gè),同時(shí)為了充分利用這些科學(xué)數(shù)據(jù)資源還建立了數(shù)據(jù)挖掘方法的整合平臺(tái)與高性能運(yùn)算的技術(shù)平臺(tái)[5]。
在綜合系統(tǒng)和平臺(tái)建設(shè)方面,國(guó)家啟動(dòng)了旨在集成現(xiàn)有中醫(yī)藥科技數(shù)據(jù)庫(kù)群的“中國(guó)中醫(yī)藥科學(xué)數(shù)據(jù)網(wǎng)格服務(wù)應(yīng)用”項(xiàng)目,該項(xiàng)目已經(jīng)構(gòu)建了面向中醫(yī)領(lǐng)域的應(yīng)用網(wǎng)格框架,并在開(kāi)發(fā)面向中醫(yī)藥領(lǐng)域的特定網(wǎng)格應(yīng)用軟件[6]。科技部啟動(dòng)了“醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)共享網(wǎng)”項(xiàng)目,該項(xiàng)目旨在建立一個(gè)物理上分布、邏輯上高度統(tǒng)一的醫(yī)藥衛(wèi)生科學(xué)數(shù)據(jù)管理與共享服務(wù)系統(tǒng),以提供數(shù)據(jù)共享和信息服務(wù)[7]。中國(guó)中醫(yī)科學(xué)院中醫(yī)藥信息研究所針對(duì)單一實(shí)體機(jī)構(gòu)受到自身發(fā)展規(guī)模、人員及設(shè)施等方面的限制,牽頭提出了“中醫(yī)藥信息數(shù)字化虛擬研究院”[8]的理念。
借助現(xiàn)代信息技術(shù)對(duì)中醫(yī)信息資源的綜合利用、挖掘也進(jìn)行了一些嘗試。如湖南中醫(yī)藥大學(xué)從20世紀(jì)70年代的“中醫(yī)辨證論治電腦系統(tǒng)”到21世紀(jì)初的“WF-Ⅲ中醫(yī)(輔助)診療系統(tǒng)”,系統(tǒng)內(nèi)編制有病癥1000種,標(biāo)準(zhǔn)證候模式1800個(gè),演繹證候模式5000余個(gè),疾病病種 460種,辨證要素54項(xiàng),常見(jiàn)證200個(gè),常用方劑670首(驗(yàn)方在外),常用中藥720種(含中成藥),能為中醫(yī)內(nèi)、婦、兒科全病域診療[9]。中國(guó)中醫(yī)科學(xué)院從2001年開(kāi)始著手建立中醫(yī)臨床科研信息共享的技術(shù)體系,用以解決將臨床實(shí)際診療信息實(shí)時(shí)數(shù)據(jù)化及對(duì)復(fù)雜海量臨床數(shù)據(jù)的分析利用的問(wèn)題,目前已建立了多個(gè)應(yīng)用系統(tǒng),其中中醫(yī)臨床數(shù)據(jù)倉(cāng)庫(kù)中已經(jīng)存儲(chǔ)超過(guò) 10余萬(wàn)份的數(shù)據(jù)化病歷[5]。
當(dāng)然,中醫(yī)藥信息化建設(shè)相對(duì)于現(xiàn)代醫(yī)學(xué)或其他科學(xué)起步較晚,信息化水平遠(yuǎn)落后于用戶對(duì)其實(shí)際使用的需求。如現(xiàn)存的中藥數(shù)據(jù)庫(kù)中大部分?jǐn)?shù)據(jù)庫(kù)僅提供題錄式或文摘式數(shù)據(jù),難以滿足用戶希望獲得全面且詳細(xì)內(nèi)容的實(shí)際需求。另一方面,已有的中醫(yī)藥信息化建設(shè)主要集中在中醫(yī)藥信息數(shù)據(jù)資源的收集、整理,綜合利用或從數(shù)據(jù)服務(wù)的性能及質(zhì)量方面考慮較少。因此,隨著所采集數(shù)據(jù)量的增加和用戶對(duì)其服務(wù)質(zhì)量要求的提高,現(xiàn)有的中醫(yī)藥信息化水平將更加難以滿足用戶對(duì)其使用的客觀需求。
支持海量中醫(yī)藥數(shù)據(jù)的管理系統(tǒng)應(yīng)具有高可擴(kuò)展性以滿足數(shù)據(jù)量的快速增長(zhǎng)、高性能以滿足對(duì)數(shù)據(jù)的高性能查詢、良好的容錯(cuò)性以及有效解決對(duì)象多樣性問(wèn)題的措施,但目前中醫(yī)藥數(shù)據(jù)管理主要采用的關(guān)系型數(shù)據(jù)模型無(wú)法解決這些問(wèn)題,主要體現(xiàn)在以下幾方面。
第一,關(guān)系型數(shù)據(jù)庫(kù)內(nèi)存中的數(shù)據(jù)結(jié)構(gòu)與關(guān)系模型之間存在“阻抗失諧”,需將不同數(shù)據(jù)之間的關(guān)系進(jìn)行轉(zhuǎn)換,雖然采用“模式匹配”能解決“阻抗失諧”,但降低了系統(tǒng)查詢性能,因而無(wú)法解決中醫(yī)藥信息中對(duì)象屬性項(xiàng)的不確定性問(wèn)題。
第二,關(guān)系型數(shù)據(jù)庫(kù)雖然采用分割、非規(guī)范化、分布式緩存等技術(shù)能增強(qiáng)其存儲(chǔ)和管理能力,但無(wú)法解決諸如中醫(yī)藥數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)類型多樣的問(wèn)題,而且一些半結(jié)構(gòu)化數(shù)據(jù)強(qiáng)行使用關(guān)系模型建模后在系統(tǒng)性能和擴(kuò)展能力上沒(méi)有好的表現(xiàn)。
第三,在提高對(duì)數(shù)據(jù)的存儲(chǔ)與并行處理能力、保障強(qiáng)一致性及容錯(cuò)性方面,關(guān)系型數(shù)據(jù)庫(kù)雖然發(fā)展了并行處理系統(tǒng)、采用NRW策略、兩階段提交協(xié)議、分布式鎖等諸多技術(shù),但根據(jù) CAP理論[10-11],一致性、可用性、分區(qū)耐受性在分布式系統(tǒng)中三者不可兼得,因而并行數(shù)據(jù)庫(kù)無(wú)法獲得良好的擴(kuò)展性,這導(dǎo)致了擴(kuò)展性受限的關(guān)系型數(shù)據(jù)庫(kù)無(wú)法對(duì)中醫(yī)藥大數(shù)據(jù)進(jìn)行深度分析[12]。
第四,中醫(yī)藥數(shù)據(jù)海量且增加快速,需要與之相匹配的具有良好橫向擴(kuò)展能力的數(shù)據(jù)庫(kù),但傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)對(duì)性能的擴(kuò)展傾向于縱向擴(kuò)展,該方式對(duì)性能的增加速度遠(yuǎn)低于需處理數(shù)據(jù)的增長(zhǎng)速度,且性能提升有限;傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)處理多個(gè)數(shù)據(jù)源協(xié)同查詢操作時(shí)其效率低,而中醫(yī)藥信息中各數(shù)據(jù)對(duì)象間存在的關(guān)系尤為復(fù)雜,使關(guān)系模型數(shù)據(jù)庫(kù)在面向海量、多數(shù)據(jù)源進(jìn)行讀寫(xiě)或查詢操作時(shí)難以滿足用戶對(duì)性能的要求。
總之,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)難以有效管理中醫(yī)藥數(shù)據(jù),是由于中醫(yī)藥數(shù)據(jù)自身的固有特性和傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)本身局限所致。因而要從本質(zhì)上解決中醫(yī)藥數(shù)據(jù)的管理問(wèn)題,需打破傳統(tǒng)的數(shù)據(jù)管理模式,借助現(xiàn)代信息的發(fā)展成果尤其是數(shù)據(jù)管理方面的新技術(shù),從中醫(yī)藥信息本身的特征出發(fā),對(duì)其進(jìn)行高效管理和利用。
3.1大數(shù)據(jù)技術(shù)
大數(shù)據(jù)最典型的特征為“數(shù)據(jù)量大(volume)”、“數(shù)據(jù)增長(zhǎng)高速(velocity)”“數(shù)據(jù)類型多樣(variety)”和“數(shù)據(jù)價(jià)值密度低(value)”,即4V特征,該特征使用常規(guī)軟件工具難以對(duì)其進(jìn)行獲取、管理和分析。
作為一種新的計(jì)算模式,云計(jì)算源于并行計(jì)算、分布式計(jì)算和網(wǎng)格計(jì)算,主要依靠分布式處理、云存儲(chǔ)、分布式數(shù)據(jù)庫(kù)及虛擬化技術(shù),實(shí)現(xiàn)“基礎(chǔ)設(shè)施及服務(wù)”“平臺(tái)及服務(wù)”和“軟件及服務(wù)”功能。大數(shù)據(jù)存儲(chǔ)、管理及數(shù)據(jù)分析往往借助云計(jì)算技術(shù),最為典型的應(yīng)用為云計(jì)算體系結(jié)構(gòu)底層文件系統(tǒng)用于管理大數(shù)據(jù)文件及運(yùn)用分布計(jì)算框架如 MapReduce、Spark進(jìn)行數(shù)據(jù)處理和分析。MapReduce作為Google提出的分布式計(jì)算框架,提供了一種簡(jiǎn)單的編程模型,讓用戶通過(guò)設(shè)定Map功能,將一組Key/value對(duì)轉(zhuǎn)換為一組中間Key/value對(duì)。Reduce功能將具有相同中間Key值的中間Value值進(jìn)行整合,從而得到計(jì)算結(jié)果。MapReduce中的一個(gè)作業(yè)就是一組Map和Reduce函數(shù),它們被提交給調(diào)度系統(tǒng),然后被調(diào)度到可用的機(jī)器上去。為克服 MapReduce的機(jī)器學(xué)習(xí)算法性能低下、不能很好地利用內(nèi)存資源、編程復(fù)雜度較高等不足,Matei Zaharia主導(dǎo)開(kāi)發(fā)了新型計(jì)算框架Spark。不同于MapReduce,Spark的Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫(xiě)HDFS,因此,Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce算法。
目前諸多大型 IT企業(yè)為解決自身所從事領(lǐng)域的數(shù)據(jù)管理,開(kāi)展了相關(guān)研究并提出一些可行的解決方案或服務(wù),其中典型的成功實(shí)例有:為解決海量數(shù)據(jù)環(huán)境中面向全球用戶提供實(shí)時(shí)的搜索引擎服務(wù),Google提出了文件系統(tǒng) GFS、分布式計(jì)算編程模型MapReduce框架、分布式鎖 Chubby、分布式存儲(chǔ)系統(tǒng) Megastore、分布式結(jié)構(gòu)化數(shù)據(jù)表Bigtable及分布式監(jiān)控系統(tǒng)Dapper等技術(shù)。Apache開(kāi)源組織提出了一個(gè)開(kāi)源的分布式計(jì)算框架 Hadoop,其核心技術(shù)HDFS、MapReduce和HBase分別對(duì)應(yīng)Google的GFS、MapReduce、Bigtable的開(kāi)源實(shí)現(xiàn)。Amazon提出了Dynamo平臺(tái)基礎(chǔ)存儲(chǔ)架構(gòu)以及彈性計(jì)算云EC2、簡(jiǎn)單存儲(chǔ)服務(wù)S3、簡(jiǎn)單數(shù)據(jù)庫(kù)服務(wù)Simple DB、簡(jiǎn)單隊(duì)列服務(wù)SQS、彈性MapReduce服務(wù)等系列服務(wù),其中Dynamo作為Amazon的電子商務(wù)平臺(tái)基礎(chǔ)完全分布式、去中心化,已被Twitter和Facebook作為存儲(chǔ)架構(gòu)。另外,微軟推出了AZURE,IBM推出了藍(lán)云服務(wù)。
上述大數(shù)據(jù)較普遍采用了以下技術(shù):①對(duì)數(shù)據(jù)庫(kù)不事先定義結(jié)構(gòu)(schemaless)以解決“阻抗失諧”問(wèn)題,即先有數(shù)據(jù)再確定模式,不需事先修改結(jié)構(gòu)定義從而可以自由添加字段;②采用弱一致性模型或最終一致性模型以適應(yīng)集群處理大數(shù)據(jù);③通過(guò)并行計(jì)算模型實(shí)現(xiàn)在可伸縮的大規(guī)模集群上執(zhí)行并行操作,以從系統(tǒng)層面解決擴(kuò)展性及容錯(cuò)性問(wèn)題。
3.2基于大數(shù)據(jù)技術(shù)的中醫(yī)藥信息管理措施
中醫(yī)藥數(shù)據(jù)難以管理和利用,可以歸結(jié)為對(duì)象屬性復(fù)雜、數(shù)據(jù)海量及對(duì)象間關(guān)系復(fù)雜,這些問(wèn)題本質(zhì)上屬于大數(shù)據(jù)的4V特征,目前業(yè)界已有成熟且實(shí)踐中得到廣泛驗(yàn)證的解決方案,因而可以借鑒大數(shù)據(jù)技術(shù)解決中醫(yī)藥信息的管理問(wèn)題。
3.2.1對(duì)象屬性多樣 中醫(yī)藥數(shù)據(jù)中操作對(duì)象的屬性描述多樣,即其數(shù)據(jù)類型存在著不確定性,傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)需事先預(yù)定數(shù)據(jù)結(jié)構(gòu),導(dǎo)致無(wú)法存儲(chǔ)類型不統(tǒng)一的數(shù)據(jù),而大數(shù)據(jù)技術(shù)通常采用“無(wú)模式”數(shù)據(jù)庫(kù),可解決大數(shù)據(jù)特征的“數(shù)據(jù)類型多樣(variety)”問(wèn)題。如Dynamo存儲(chǔ)架構(gòu)對(duì)數(shù)據(jù)以位(bit)的形式存儲(chǔ)、不解析數(shù)據(jù)的具體內(nèi)容,對(duì)數(shù)據(jù)結(jié)構(gòu)不進(jìn)行識(shí)別,從而可以處理不同的數(shù)據(jù)類型。
中醫(yī)藥信息存在大量非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如古醫(yī)籍、藥典、處方等,目前已有許多成熟的數(shù)據(jù)庫(kù)可以存儲(chǔ)非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),最為典型的為鍵值數(shù)據(jù)庫(kù) Riak、文檔數(shù)據(jù)庫(kù)、列族數(shù)據(jù)庫(kù)HBase。這些數(shù)據(jù)庫(kù)通過(guò)聚合構(gòu)建,每個(gè)聚合都有一個(gè)鍵或ID以獲取數(shù)據(jù)。其中,鍵值數(shù)據(jù)庫(kù)可以根據(jù)鍵值查出整個(gè)聚合,而文檔數(shù)據(jù)庫(kù)的聚合是透明的,因而文檔數(shù)據(jù)庫(kù)可用聚合中的字段查詢。列族數(shù)據(jù)庫(kù)與傳統(tǒng)數(shù)據(jù)庫(kù)以行為單元存儲(chǔ)來(lái)滿足需要經(jīng)常寫(xiě)入操作的場(chǎng)景最大不同之處在于,其將所有行的某一組列作為基本數(shù)據(jù)單元進(jìn)行存儲(chǔ)以適應(yīng)經(jīng)常需要一次讀取若干行中多列的情況。這些數(shù)據(jù)存儲(chǔ)模型能較好地解決中醫(yī)藥信息中復(fù)雜的數(shù)據(jù)存儲(chǔ)對(duì)象,如處方可以用患者的ID作為鍵值采用鍵值數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),便于查詢以該ID存儲(chǔ)的聚合內(nèi)容;而藥典中對(duì)藥的描述組織結(jié)構(gòu)大體相同,因而可采用文檔數(shù)據(jù),便于通過(guò)其中的字段進(jìn)行查詢以提高查詢效率。
3.2.2數(shù)據(jù)海量、增長(zhǎng)迅速 中醫(yī)藥數(shù)據(jù)中操作對(duì)象的屬性模糊、不完備、古籍校本混亂,為獲取全面、準(zhǔn)確的信息,需綜合多個(gè)數(shù)據(jù)源進(jìn)行綜合分析,即從大量數(shù)據(jù)價(jià)值相對(duì)低的中醫(yī)藥信息中進(jìn)行抽取。該問(wèn)題可歸結(jié)為“數(shù)據(jù)量大(volume)”和“數(shù)據(jù)價(jià)值密度低(value)”的大數(shù)據(jù)特征。
解決中醫(yī)藥數(shù)據(jù)的海量性需具有可擴(kuò)展性的分布式文件系統(tǒng),而且文件的規(guī)模不同,則需采取的策略不同。在處理大文件方面,Google的分布式文件系統(tǒng) GFS可構(gòu)建在大量廉價(jià)服務(wù)器之上,主要適用于讀操作遠(yuǎn)大于寫(xiě)操作的應(yīng)用場(chǎng)景且具有可擴(kuò)展性,如中醫(yī)藥文獻(xiàn)古籍存儲(chǔ)后主要進(jìn)行讀操作一般不需進(jìn)行再寫(xiě),因而可采用 GFS文件系統(tǒng)。在存儲(chǔ)海量小文件如圖片存儲(chǔ)場(chǎng)景時(shí),Haystack文件系統(tǒng)通過(guò)多個(gè)邏輯文件共享同一個(gè)物理文件、增加緩存層、加載部分元數(shù)據(jù)到內(nèi)存等方式,解決 GFS在解決海量小文件由于頻繁讀取元數(shù)據(jù)導(dǎo)致效率低的問(wèn)題。
3.2.3各數(shù)據(jù)對(duì)象間復(fù)雜關(guān)系 中醫(yī)藥文獻(xiàn)記載或中醫(yī)藥數(shù)據(jù)庫(kù)中存儲(chǔ)的對(duì)象之間復(fù)雜關(guān)系實(shí)際上是客觀存在的聯(lián)系,圖作為表示事物之間聯(lián)系的有效手段,可以表示這種復(fù)雜關(guān)系。需要記載或存儲(chǔ)的對(duì)象即實(shí)體,對(duì)象間關(guān)系即為邊,實(shí)體和邊都有各自的屬性。關(guān)系型數(shù)據(jù)庫(kù)中存儲(chǔ)的圖結(jié)構(gòu)通常采用單一關(guān)系類型,如在增加一條關(guān)系往往需修改多個(gè)模式并轉(zhuǎn)移大批數(shù)據(jù),因而不適用于中醫(yī)藥數(shù)據(jù)分析的場(chǎng)景。圖數(shù)據(jù)庫(kù)與關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)圖結(jié)構(gòu)不同之處在于實(shí)體間的關(guān)系在創(chuàng)建時(shí)被持久化,因而對(duì)其進(jìn)行遍歷的效率高。在大數(shù)據(jù)圖處理方面,Google提出了主要用于圖計(jì)算的Pregel模型,其核心思想源于BSP計(jì)算模型;微軟提出了Dryad數(shù)據(jù)處理模型,主要用來(lái)構(gòu)建支持有向無(wú)環(huán)圖類型數(shù)據(jù)的并行程序。Pregel模型和Dryad模型相結(jié)合,能較好地分析中醫(yī)藥信息中對(duì)象間存在的相互關(guān)系。
如何有效管理和利用中醫(yī)藥信息資源是充分利用中醫(yī)藥技術(shù)服務(wù)社會(huì)的核心問(wèn)題。本文在分析中醫(yī)藥信息資源的發(fā)展歷程和其本質(zhì)特征的基礎(chǔ)上,闡述了中醫(yī)藥信息資源具有大數(shù)據(jù)4V特征,從理論上分析了大數(shù)據(jù)技術(shù)解決中醫(yī)藥信息資源管理的可行性。今后研究將主要集中在具體存儲(chǔ)對(duì)象的存儲(chǔ)模型選取及其實(shí)現(xiàn)方面,以期最終實(shí)現(xiàn)一個(gè)有效管理中醫(yī)藥信息資源的綜合云平臺(tái)。
[1]于琦,崔蒙.中醫(yī)藥信息的特征研究[J].中國(guó)中醫(yī)基礎(chǔ)醫(yī)學(xué)雜志,2012,18(10):1137-1139.
[2]丁志平,王家輝,喬延江.中藥信息學(xué)研究淺釋[J].中國(guó)中醫(yī)藥信息雜志,2003,10(4):92-94.
[3]羅朝淑.我首個(gè)國(guó)家級(jí)中醫(yī)藥數(shù)據(jù)中心成立[N].科技日?qǐng)?bào),2015-01-08(10).
[4]李湘君.中醫(yī)藥信息資源現(xiàn)狀分析[J].衛(wèi)生軟科學(xué),2007,21(3):227-228.
[5]劉保延.大數(shù)據(jù)繪制當(dāng)代中醫(yī)航海圖[N].中國(guó)中醫(yī)藥報(bào),2013-06-05(3).
[6]尹愛(ài)寧,崔蒙,范為宇,等.中醫(yī)藥虛擬研究院[J].國(guó)際中醫(yī)中藥雜志,2006,28(3):141-143.
[7]趙紅,尹嶺,王建國(guó),等.國(guó)家醫(yī)藥衛(wèi)生領(lǐng)域科學(xué)數(shù)據(jù)共享網(wǎng)建設(shè)目的與現(xiàn)狀[J].中國(guó)中醫(yī)藥現(xiàn)代遠(yuǎn)程教育,2008,6(6):570-572.
[8]崔蒙,謝琪,尹愛(ài)寧,等.中醫(yī)藥信息數(shù)字化虛擬研究院建設(shè)模式研究[J].上海中醫(yī)藥大學(xué)學(xué)報(bào),2008,23(3):5-8.
[9]朱文鋒.WF文鋒-Ⅲ中醫(yī)(輔助)診療系統(tǒng)[J].醫(yī)學(xué)研究雜志,2007,36(9):62.
[10]ERIC A BREWER. Towards robust distributed systems[EB/OL]. (2000-07-19)[2016-04-19].http://people.eecs.berkeley.edu/~bre wer/cs262b-2004/PODC-keynote.pdf.
[11]LYNCH N, GILBERT S. Brewer's conjecture and the feasibility of consistent, available, partition-tolerant Web services[J]. ACM SIGACT News,2002,33(2):51-59.
[12]覃雄派,王會(huì)舉,杜小勇,等.大數(shù)據(jù)分析——RDBMS與MapReduce的競(jìng)爭(zhēng)與共生[J].軟件學(xué)報(bào),2012,23(1):32-45.
(修回日期:2016-05-26;編輯:梅智勝)
TCM Data Management Based on Object Characteristics under the Background of Big Data
DING Chang-song, QU Hao-yu, WU Shi-wen (School of Management and Information Engineering, Hunan University of Chinese Medicine, Changsha 410208, China)
Targeting the problem that it is difficult for traditional data management mode to effectively manage TCM information, this article analyzed from the aspect of object characteristics of TCM information resources and summarized that the reason lies in the TCM information resources with big data 4V features, proposed strategies for TCM information resource management based on big data technology, and expounded the feasibility.
TCM information; big data; data management
10.3969/j.issn.1005-5304.2016.09.003
R2-05
A
1005-5304(2016)09-0010-05
國(guó)家自然科學(xué)基金(81573985);湖南省科技廳項(xiàng)目(2011RS4025、2013GK3143);湖南省教育廳優(yōu)秀青年
基金(13B079)
2016-04-21)