,,
大數據時代,過載的信息一方面給人們帶來了更為廣泛的數據來源,另一方面對信息的快速聚合和處理提出了更高的要求,即資源深度開發與廣度關聯。換言之,需要對信息進行更深層次的融合,根據目標進行耦合,推送智能聚合的結果。本文面向案例分析,根據資源深度開發與廣度關聯的需求,提出了一種基于數據關聯的信息聚合模型,旨在不同類型信息間建立不同角度聚合關系并進一步形成耦合,并以實例說明該模型在醫學信息決策輔助領域的應用場景。
信息聚合是指從不同的數據源匯集分析相關信息和解決這些信息在語義方面的異構性,并提供基于數據源之間關系、業務過程的聚合等功能[1-3]。目前,信息聚合模型在圖書情報領域得到了廣泛的應用,包括基于關聯數據的圖書館信息聚合模型[4]、將知識聚合模型應用于數字圖書館的智能檢索模型[5]、基于關聯數據的數字圖書館資源聚合與服務研究[6]、基于耦合關系的學術信息資源深度耦合分析[7],基于共現與耦合的館藏數字文獻資源聚合4層模型[8]。以上研究對學術資源的聚合進行了深層分析,然而在實際決策支持應用系統中,除了學術資源之外,還存在領域統計數據、信息動態、案例等大量異構資源。因此需要建立一個統一的信息聚合模型,并將這些數據用于案例分析,為決策提供支持服務。
本文基于語義特征,建立了多個二元聚合關系,并進一步基于多個二元聚合關系建立了案例之間的耦合,以輔助決策制定。
參考面向政府決策的知識管理系統模型[9],本文結合領域知識建立了一個決策輔助知識管理系統(圖1),并應用語義關聯技術建立了一個信息聚合模型。考慮到政府決策人員在決策時的知識需求,本文選取了靜態信息、動態信息和案例信息3類信息,其中靜態信息包括政策法規、專家信息、領域統計數據、學術論文和研究報告,動態信息主要為行業動態等。

圖1 面向決策支持的知識管理系統模型
在該模型中,異構資源經整合后,規范存儲為數據庫資源。該資源一方面用于建立領域主題詞表,另一方面用于進一步建立索引、提取語義特征。根據語義特征和領域主題詞表,首先形成案例與各資源的聚合,并進一步形成案例之間的耦合,最終用于決策咨詢。
圖1中的信息聚合模塊所用到的面向決策支持的信息聚合模式如表1所示。關聯維度分為案例特征關聯維度的不同關聯路徑對應的聚合模式為基于語義特征的聚合模型,案例評價過程關聯維度為基于聚合關系的耦合模型。
在聚合模型的數據關聯過程中,不僅考慮了屬性權重,即相關性;還結合了資源的權威性,即重要性。模型的數學描述如下:
式中,d表示文檔,dq代表待決策案例,dc代表候選各個資源類型文檔,f(dq, dc)代表dq和dc的耦合指數,Wn代表字段n的權重因子,A(dc)代表dc的權威因子,g代表字段根據詞匹配的得分。其中,權威因子A(dc)∈[0,1]。權威因子A(dc)綜合考慮了資源來源權威性排序以及發表時間:資源來源的可靠性越高(如期刊的影響因子值越高),權威因子A(dc)越高;發表時間與當前時間的時間差越小,權威因子A(dc)越高。
權向量 W=(w1,w2,…,wn)滿足wi∈[0,1]。權重因子wi越大,代表該字段越重要。
權威因子和權向量需根據具體領域進行調試。

表1 面向決策支持的信息聚合模式
應醫學情報機構強化衛生決策情報服務功能的需求[10],本文把信息聚合模型應用于衛生信息領域。以一個典型的突發公共衛生事件:中東呼吸綜合癥“MERS”為例,用信息聚合模型對該主題信息進行分析,取排序為前20條的聚合結果(top 20結果)。具體的數據關聯項及其權重產參數設置詳見表2所示。

表2 衛生信息領域信息聚合模型關鍵參數設置
根據表2的數據關聯項及其權重設置,輸入“突發公共衛生事件中東呼吸綜合癥‘MERS’”,系統返回的top 20結果中出現了有助于輔助決策的信息資源。具體返回的信息舉例如表3所示。

表3 面向公共衛生事件的MERS分析的信息聚合結果舉例
從表3可以看出,通過基于數據關聯的信息聚合模型以及具體參數調試,可在top 20結果列表中獲取可供決策參考使用的有效信息,包括衛生政策、學術論文、研究報告和信息動態等。
本文從信息特征間關聯和信息利用過程關聯的角度出發,對信息聚合的維度、路徑、模式及其應用范圍等進行了較深入的研究,建立了一個基于數據關聯的信息聚合模型。該模型在醫學信息領域的應用表明其在特定領域的案例分析中具有可行性。考慮到模型的參數設置具有經驗性,還存在較大的改進空間。另外,由于模型選取的特征僅利用了基于領域詞典的語義信息,更深層次的語義信息如本體信息,隱含語義信息等,會加強資源挖掘的深度。