徐 榮
(中國中醫(yī)科學(xué)院廣安門醫(yī)院 北京 100053)
國家中醫(yī)臨床研究基地是2008年12月國家發(fā)改委和國家中醫(yī)藥管理局共同啟動(dòng)實(shí)施的建設(shè)項(xiàng)目[1],旨在通過基地業(yè)務(wù)建設(shè)工作,系統(tǒng)構(gòu)建中醫(yī)臨床研究、協(xié)作攻關(guān)、成果轉(zhuǎn)化推廣平臺(tái),培養(yǎng)領(lǐng)軍人才,全面提高自主創(chuàng)新能力,提升中醫(yī)藥防病治病能力,促進(jìn)中醫(yī)藥事業(yè)的發(fā)展。文獻(xiàn)信息庫作為中醫(yī)臨床研究基地基礎(chǔ)平臺(tái)建設(shè)的一項(xiàng)重要內(nèi)容,對(duì)搜集臨床研究基地重點(diǎn)病種古今中外診療信息及研究資料、挖掘和整理中醫(yī)診療經(jīng)驗(yàn)、實(shí)現(xiàn)對(duì)中醫(yī)診療經(jīng)驗(yàn)的傳承和創(chuàng)新有著非常重要的作用。中國中醫(yī)科學(xué)院廣安門醫(yī)院是國家中醫(yī)臨床研究基地之一,圍繞本基地重點(diǎn)病種肺癌、糖尿病、冠狀動(dòng)脈粥樣動(dòng)脈硬化性心臟病進(jìn)行文獻(xiàn)信息庫系統(tǒng)研究和設(shè)計(jì)。
在文獻(xiàn)信息庫建設(shè)過程中要以國際、國家、學(xué)科領(lǐng)域標(biāo)準(zhǔn)規(guī)范為基礎(chǔ),著眼于信息庫的服務(wù)對(duì)象、內(nèi)容組織、技術(shù)架構(gòu)等多個(gè)方面,形成相對(duì)完整的規(guī)范體系[2],建設(shè)易操作、易管理、易維護(hù)和易擴(kuò)展的各類文獻(xiàn)信息庫。
文獻(xiàn)信息庫的建設(shè)要有強(qiáng)大的安全保障體系來保證系統(tǒng)中數(shù)據(jù)存儲(chǔ)和傳輸?shù)陌踩Rx用高可靠性設(shè)備和技術(shù)支持?jǐn)?shù)據(jù)資源的冗余、備份、容災(zāi)、恢復(fù)等功能[3]。同時(shí)還要建立一整套安全管理制度,從管理和技術(shù)上確保系統(tǒng)及其資源的安全訪問與監(jiān)控。
文獻(xiàn)信息庫的建設(shè)要依托廣安門醫(yī)院數(shù)字圖書館平臺(tái),全方位展示肺癌、糖尿病、冠狀動(dòng)脈粥樣動(dòng)脈硬化性心臟病這3個(gè)重點(diǎn)病種的臨床及科研成果,根據(jù)不同病種研究需求,全面收集古今中外的診療信息及研究資料,使文獻(xiàn)信息建設(shè)集成化、動(dòng)態(tài)化、知識(shí)化,滿足用戶個(gè)性化的信息需求,實(shí)現(xiàn)對(duì)信息庫內(nèi)容的實(shí)時(shí)更新和拓展。
文獻(xiàn)信息庫服務(wù)系統(tǒng)平臺(tái)采用大量的元數(shù)據(jù)作為數(shù)據(jù)源,本地底層數(shù)據(jù)通過管理層進(jìn)行管理,應(yīng)用層對(duì)其進(jìn)行各種應(yīng)用的分布式架構(gòu)。在數(shù)據(jù)底層定期更新,在管理層管理各種元數(shù)據(jù)及各級(jí)機(jī)構(gòu)、學(xué)者、科研成果的對(duì)照關(guān)系,在服務(wù)層為用戶展示重點(diǎn)病種的全方位、多層次的信息數(shù)據(jù)[4],提供檢索和指標(biāo)評(píng)價(jià)分析服務(wù)。文獻(xiàn)信息庫平臺(tái)框架,見圖1。

圖1 文獻(xiàn)信息庫平臺(tái)框架
3.2.1 信息采集 分為兩個(gè)子系統(tǒng),即互聯(lián)網(wǎng)信息采集和本地文獻(xiàn)數(shù)據(jù)庫采集,可根據(jù)用戶指定的數(shù)據(jù)采集范圍進(jìn)行模板定制開發(fā),信息采集功能架構(gòu),見圖2。信息采集系統(tǒng)支持對(duì)各種數(shù)據(jù)庫及網(wǎng)頁內(nèi)容的解析和抓取,包括各種附件和音視頻內(nèi)容。系統(tǒng)具有高效的數(shù)據(jù)去重處理機(jī)制和多種對(duì)網(wǎng)絡(luò)采集屏蔽技術(shù)的反制措施,采集內(nèi)容的噪音去除和正文自動(dòng)抽取準(zhǔn)確率高,能幫助用戶有效利用網(wǎng)絡(luò)資源和降低功耗。

圖2 信息采集功能架構(gòu)
3.2.2 分布式全文檢索 分布式全文檢索系統(tǒng)(SolrCloud)作為搜索引擎的重要組成部分,為用戶提供平臺(tái)各種核心資源的檢索服務(wù),系統(tǒng)部署,見圖3。

圖3 分布式檢索系統(tǒng)部署
使用Zookeeper作為集群的配置信息中心,實(shí)現(xiàn)集中式配置信息, 將SolrCloud的相關(guān)配置文件上傳Zookeeper,多機(jī)器共用。實(shí)現(xiàn)自動(dòng)容錯(cuò),SolrCloud對(duì)索引分片并對(duì)每個(gè)分片創(chuàng)建多個(gè)備份。每個(gè)備份都可以對(duì)外提供服務(wù),1個(gè)備份出現(xiàn)錯(cuò)誤也不會(huì)影響索引服務(wù);實(shí)現(xiàn)近實(shí)時(shí)搜索,立即推送式的備份可以在秒內(nèi)檢索到新加入索引。此外,SolrCloud在用戶查詢時(shí)可以實(shí)現(xiàn)自動(dòng)負(fù)載均衡,SolrCloud索引的多個(gè)備份可以分布在多臺(tái)機(jī)器上,均衡查詢壓力[5]。如果查詢壓力大,可以通過擴(kuò)展機(jī)器,增加備份來減緩。
3.2.3 數(shù)字化加工 主要是為實(shí)現(xiàn)已有內(nèi)容資源的結(jié)構(gòu)化拆分解析,為內(nèi)容資源的產(chǎn)品化重組奠定數(shù)據(jù)基礎(chǔ)。數(shù)字化加工系統(tǒng)可以進(jìn)行文本、圖片、表格拆分并對(duì)經(jīng)過加工的數(shù)據(jù)進(jìn)行清洗和規(guī)范化存儲(chǔ)。(1)文本拆分。系統(tǒng)可對(duì)文檔進(jìn)行細(xì)化到段落層級(jí)的拆分加工并將拆分的結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化存儲(chǔ)。處理組件首先將讀入的待處理文檔進(jìn)行載入,依據(jù)掛載的待解析內(nèi)容模塊依次將每個(gè)資源項(xiàng)解析出需要的元數(shù)據(jù),將這些數(shù)據(jù)傳遞給存儲(chǔ)組件進(jìn)行后續(xù)處理。存儲(chǔ)組件按照元數(shù)據(jù)類型將不同資源存儲(chǔ)至預(yù)定義的目錄結(jié)構(gòu)及數(shù)據(jù)庫中。文檔拆分整理完畢后,各碎片可作為元數(shù)據(jù)項(xiàng)供其他程序使用。(2)圖片拆分。對(duì)文檔中的圖片進(jìn)行單獨(dú)提取,拆分后的每張圖片及其附屬文件均存放于獨(dú)立文件夾下,每張圖片均保存原圖(原分辨率導(dǎo)出)、低分辨率圖(根據(jù)用戶在頁面中輸入的數(shù)值導(dǎo)出)、預(yù)覽圖(72dpi導(dǎo)出)及描述文件。(3)表格拆分。對(duì)文檔中的結(jié)構(gòu)化表格進(jìn)行單獨(dú)提取,拆分后的每個(gè)獨(dú)立表格均存放于獨(dú)立文件夾下,每個(gè)表格保存為一個(gè)對(duì)應(yīng)的獨(dú)立目錄,目錄下存放表格對(duì)應(yīng)的描述文件,描述文件中存儲(chǔ)表格碎片的位置、內(nèi)容信息。
3.2.4 元數(shù)據(jù)管理及資源倉儲(chǔ) 文獻(xiàn)信息庫建設(shè)采用國際通用標(biāo)準(zhǔn)都柏林核心元素集(Doblin Core Element Set,DC),依照中國高等教育文獻(xiàn)保障體系《特色庫項(xiàng)目本地系統(tǒng)技術(shù)規(guī)范》以及國家中醫(yī)藥管理局制定的《中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫數(shù)據(jù)來源規(guī)范》、《中醫(yī)藥文獻(xiàn)數(shù)據(jù)庫數(shù)據(jù)資源加工指導(dǎo)規(guī)范》[6]等相關(guān)標(biāo)準(zhǔn)進(jìn)行元數(shù)據(jù)處理。系統(tǒng)平臺(tái)能夠進(jìn)行元數(shù)據(jù)類型、映射以及索引管理,其功能架構(gòu),見圖4。系統(tǒng)提供元數(shù)據(jù)定義與編輯維護(hù)功能,包括設(shè)置元數(shù)據(jù)的規(guī)范名稱(中英文)、數(shù)據(jù)庫數(shù)據(jù)類型、solr字段類型、字段描述、是否多值等;可對(duì)數(shù)據(jù)源與信息庫字段進(jìn)行一一映射,完成從數(shù)據(jù)源到知識(shí)庫的數(shù)據(jù)導(dǎo)入操作;能夠直接與檢索邏輯相關(guān)聯(lián),靈活設(shè)置元數(shù)據(jù)是否可索引、可查詢展示及權(quán)重和排序策略配置,管理與維護(hù)情報(bào)分析所需要的各級(jí)分類,實(shí)現(xiàn)不同類型資源整合以及統(tǒng)一檢索。基于元數(shù)據(jù)存儲(chǔ)的數(shù)字資源倉儲(chǔ)系統(tǒng)支持元數(shù)據(jù)存儲(chǔ)、添加、修改、刪除、整合以及數(shù)據(jù)的導(dǎo)入和導(dǎo)出。數(shù)字資源倉儲(chǔ)系統(tǒng)能夠?yàn)椴煌厣奈墨I(xiàn)信息庫構(gòu)建不同結(jié)構(gòu)規(guī)范的元數(shù)據(jù)倉儲(chǔ)庫,通過不同適配器從不同數(shù)據(jù)源中提取數(shù)字資源的元數(shù)據(jù)信息,將元數(shù)據(jù)信息通過生成的結(jié)構(gòu)保存,提高文獻(xiàn)信息庫建設(shè)效率。
圖4 數(shù)字資源元數(shù)據(jù)管理功能架構(gòu)
3.3.1 信息來源及信息組織方式 文獻(xiàn)信息庫資源來自于期刊論文、會(huì)議論文、學(xué)位論文、報(bào)紙、圖書、專利、報(bào)告、標(biāo)準(zhǔn)、網(wǎng)頁及論壇等,支持按年度、成果類型、收錄類型、學(xué)科、基金、數(shù)據(jù)來源等多個(gè)方面篩選查看內(nèi)容。突破以往以文獻(xiàn)為單位進(jìn)行信息組織的模式,在一些特色數(shù)據(jù)庫如診療方劑、特色制劑、中醫(yī)古籍文獻(xiàn)庫等的建設(shè)過程中對(duì)中醫(yī)藥文獻(xiàn)題錄數(shù)據(jù)、引文數(shù)據(jù)以及中醫(yī)古籍內(nèi)容全部進(jìn)行關(guān)聯(lián)和深度標(biāo)注,全方位構(gòu)建元數(shù)據(jù)之間的關(guān)系網(wǎng)絡(luò)。確定對(duì)應(yīng)的特色數(shù)據(jù)庫中存在的所有數(shù)據(jù)類型。在數(shù)據(jù)資源的基礎(chǔ)上確定數(shù)據(jù)庫的專家、特色方劑、特色療法、科研成果以及報(bào)道和研討活動(dòng)等信息,這些信息將以元數(shù)據(jù)異構(gòu)共享的形式組成特色數(shù)據(jù)庫的共享資源。
3.3.2 建設(shè)知識(shí)本體形式化的特色數(shù)據(jù)庫 在文獻(xiàn)信息庫的構(gòu)建過程中,基于本體的模型能夠有效地明確特色數(shù)據(jù)庫內(nèi)容和形式、標(biāo)準(zhǔn)與規(guī)范等,針對(duì)各種數(shù)據(jù)資源類型的相互關(guān)系和外部數(shù)據(jù)源的連接標(biāo)準(zhǔn),形成元數(shù)據(jù)與知識(shí)本體形式化的特色數(shù)據(jù)庫。本體構(gòu)建主要包括創(chuàng)建、管理和服務(wù)3個(gè)方面[7]。在本體創(chuàng)建方面,要實(shí)現(xiàn)從結(jié)構(gòu)化詞表中自動(dòng)獲取概念和概念層級(jí)結(jié)構(gòu)以及從中醫(yī)藥相關(guān)專業(yè)教材和文獻(xiàn)中學(xué)習(xí)概念的屬性及其屬性值,提取領(lǐng)域知識(shí)概念之間的關(guān)系;在本體管理方面,要實(shí)現(xiàn)多人在線的輔助校對(duì)和版本管理,文獻(xiàn)信息庫的知識(shí)關(guān)系更多地蘊(yùn)含在深層次的領(lǐng)域知識(shí)當(dāng)中,要獲取深層次的領(lǐng)域知識(shí)關(guān)系,應(yīng)充分運(yùn)用圖書情報(bào)學(xué)領(lǐng)域知識(shí),同時(shí)也需要各個(gè)臨床重點(diǎn)學(xué)科專家對(duì)所建立的知識(shí)關(guān)系進(jìn)行及時(shí)校對(duì),形成各個(gè)臨床專家和本體學(xué)習(xí)功能的良性互動(dòng);在本體服務(wù)方面,要實(shí)現(xiàn)本體知識(shí)的搜索和展示,主要包括知識(shí)導(dǎo)航、知識(shí)檢索和概念關(guān)聯(lián)的可視化展示、概念屬性的展示。在建設(shè)過程中首先需要根據(jù)不同類別的中醫(yī)藥特色文獻(xiàn)信息庫元數(shù)據(jù)體系構(gòu)建形式本體模型,有效表達(dá)各種數(shù)據(jù)資源和類型的形式化。將各類專題文獻(xiàn)信息數(shù)據(jù)庫的系統(tǒng)性、學(xué)術(shù)性以及深度廣度等信息作為數(shù)據(jù)庫的構(gòu)建內(nèi)容,通過對(duì)某些特色領(lǐng)域中元概念的構(gòu)建以確保最終的數(shù)字化表現(xiàn)形式能夠滿足不同類別數(shù)據(jù)庫之間元數(shù)據(jù)共享的需求。將需要建設(shè)的文獻(xiàn)信息庫中的元概念和元關(guān)系描述出來,構(gòu)造具有元數(shù)據(jù)與知識(shí)本體形式化的特色數(shù)據(jù)庫模型。在數(shù)據(jù)庫建設(shè)過程中應(yīng)與各個(gè)重點(diǎn)病種以及計(jì)算機(jī)學(xué)科專家互相配合,構(gòu)建出適合不同臨床學(xué)科的知識(shí)本體形態(tài)。根據(jù)國家中醫(yī)藥管理局科技司對(duì)國家中醫(yī)臨床研究基地業(yè)務(wù)建設(shè)方案的要求,項(xiàng)目建設(shè)的7個(gè)文獻(xiàn)信息庫主要內(nèi)容包括:(1)專家。重點(diǎn)收集各個(gè)科室代表專家基本信息、臨床經(jīng)驗(yàn)、學(xué)術(shù)思想、研究成果、發(fā)表的論文論著和媒體報(bào)道等信息。(2)優(yōu)勢(shì)病種。針對(duì)各個(gè)學(xué)科單病種的中醫(yī)療法、診療方案、診療技術(shù)、療效評(píng)價(jià)方法等信息資源進(jìn)行整合,全面搜集與該病種有關(guān)的論文、論著、視頻及課件等信息。(3)診療方劑。收集古籍及現(xiàn)代文獻(xiàn)中的古今中藥方劑,全面介紹方劑信息,提供有關(guān)方劑藥味組成等統(tǒng)計(jì)信息,詳細(xì)介紹每一方劑的不同名稱、處方來源、藥物組成、功效、主治、用藥禁忌、藥理作用、制備方法等信息。(4)特色制劑。對(duì)學(xué)科在中醫(yī)理論及臨床實(shí)踐中研制出的特色制劑進(jìn)行介紹,包括藥物的合理組方、功能主治、用法用量及不良反應(yīng)采集等。(5)特色療法。針對(duì)各個(gè)學(xué)科在長期臨床經(jīng)驗(yàn)中形成的大量特色診療方法進(jìn)行歸納總結(jié),收集疾病的概述、診療要點(diǎn)、辨證要點(diǎn)、治療規(guī)范、療效評(píng)定標(biāo)準(zhǔn)、臨床分期等信息。(6)中醫(yī)古籍。對(duì)中醫(yī)經(jīng)典古籍進(jìn)行數(shù)字化加工,對(duì)其中的醫(yī)經(jīng)、醫(yī)理、診斷、針灸推拿、本草、方書、臨證各科、養(yǎng)生、醫(yī)案醫(yī)論醫(yī)話、醫(yī)史等信息進(jìn)行分類整理、標(biāo)引入庫。(7)科研成果。重點(diǎn)介紹科研成果的項(xiàng)目完成人、完成單位、研究內(nèi)容、研究結(jié)果和研究意義,該數(shù)據(jù)庫應(yīng)充分展示不同學(xué)科的研究成果,揭示該學(xué)科在國內(nèi)乃至國際上所處的研究水平及地位。
通過文獻(xiàn)閱讀以及實(shí)況調(diào)研確定文獻(xiàn)信息庫建設(shè)的技術(shù)方案以及基本框架,形成總體建設(shè)方案,將3個(gè)重點(diǎn)病種作為試點(diǎn),進(jìn)行文獻(xiàn)信息庫建設(shè)工作。確定數(shù)據(jù)采集加工、質(zhì)量控制以及著錄標(biāo)引規(guī)范。與3個(gè)重點(diǎn)病種建立密切聯(lián)系,了解學(xué)科需求,確定文獻(xiàn)信息庫建設(shè)的核心技術(shù)及基本框架。邀請(qǐng)相關(guān)專家對(duì)信息庫建設(shè)方案進(jìn)行論證評(píng)估,根據(jù)評(píng)估意見修改建設(shè)方案,開展信息庫建設(shè)工作。
根據(jù)前期制定的文獻(xiàn)信息庫建設(shè)方案進(jìn)行文獻(xiàn)的收集、著錄、整理和入庫工作,搭建出中醫(yī)學(xué)科特色化文獻(xiàn)信息庫的框架與模式。針對(duì)不同類型文獻(xiàn)信息庫的具體要求確定數(shù)據(jù)庫結(jié)構(gòu),對(duì)參與文獻(xiàn)信息庫建設(shè)的人員進(jìn)行技術(shù)培訓(xùn),開展文獻(xiàn)信息庫內(nèi)容的收集整理以及數(shù)字化加工工作。首先確立文獻(xiàn)搜集的范圍和檢索策略,分別交由各臨床科室或研究室的人員進(jìn)行文獻(xiàn)資料的搜集整理工作;其次通過信息采集系統(tǒng)對(duì)各種數(shù)據(jù)庫及網(wǎng)頁內(nèi)容的解析和抓取,結(jié)合詞表、自動(dòng)識(shí)別技術(shù),對(duì)采集數(shù)據(jù)內(nèi)出現(xiàn)的內(nèi)容實(shí)體進(jìn)行自動(dòng)識(shí)別和抽取并進(jìn)行存儲(chǔ);最后通過數(shù)字化加工技術(shù)對(duì)已有內(nèi)容資源的結(jié)構(gòu)化拆分解析并將拆分的結(jié)構(gòu)進(jìn)行結(jié)構(gòu)化存儲(chǔ),為不同文獻(xiàn)類型數(shù)據(jù)庫的建設(shè)奠定數(shù)據(jù)基礎(chǔ)。將檢索到的文獻(xiàn)逐條分析,按類別進(jìn)行標(biāo)引、著錄,導(dǎo)入到相應(yīng)的文獻(xiàn)信息庫中,形成文獻(xiàn)信息庫的整體模型。
將試點(diǎn)科室的文獻(xiàn)信息庫建設(shè)方案和成果逐步推廣到其他臨床科室及研究室,逐步建立系統(tǒng)、完善、全面反映基地臨床及科研成果的文獻(xiàn)信息系統(tǒng)應(yīng)用平臺(tái)。
臨床科研平臺(tái)文獻(xiàn)信息庫基于廣安門醫(yī)院數(shù)字圖書館的平臺(tái),建立集綜合檢索、開放獲取、學(xué)術(shù)分析、個(gè)性化服務(wù)于一體的中醫(yī)藥特色文獻(xiàn)信息庫及服務(wù)系統(tǒng),為中醫(yī)臨床研究基地建設(shè)提供強(qiáng)有力的信息保障。