吳蔚

[摘要] 隨著社會的進步,信息技術的發展,醫院在不斷向前發展的過程中累積了大量的多模態檔案管理數據,在這些海量的大數據中查找目標資源變得越來越困難。在此背景下,利用先進的技術和數據管理工具,形成一套面向多模態醫院檔案管理數字資源統一檢索方案,籍此高效地生成透明、多維的檢索結果,形成的檢索結果的動態呈現和多維展示可為用戶提供檢索信息的最佳途徑。
[關鍵詞] 醫院檔案管理數字資源;多模態;統一檢索方案
[中圖分類號] R197.3;G270.7;TP309.3 [文獻標識碼] A [文章編號] 1672-5654(2019)06(c)-0060-02
隨著社會的進步,信息技術的發展,我國醫院在不斷向前發展的過程中累積了相當多的數據,而且隨著時間的推移,這些數據累積的速度越來越快。這些飛速增加的數據一方面為醫院積累了一個非常龐大的知識庫,成為醫院的寶貴財富,而另一方面卻產生了一些問題,就是從這些信息庫里查找一些資源越來越困難[1]。由于這些信息庫之間的信息是孤立的,它們之間沒有任何聯系,隨著數據越來越多,查找這些信息耗費的人力物力成本卻在不斷增加,人們需要在不同的系統之間搜索整理數據,而且搜索的效率越來越低。而且諸如圖像、視頻、文本等不同模態的電子資源被存放在各個不同的系統中,形成信息孤島[2]。因此,在不同系統中,且要面對多模態的電子資源進行目標資源查詢的效率非常低,這盈然不能適應當代醫院業務的開展,長期下去,會極大阻礙醫院的發展。開展多模態電子資源的集成檢索,顯得尤為重要。
近些年來,在國內外,已有一些關于電子資源的集成檢索技術或方法的研究,此類問題的研究焦點主要集中于結構化、非結構化和半結構數據的融合,數據之間的關聯性以及數據檢索統一化[3-4]。問題難點是在于文本、圖像、音視頻等源數據是屬于異構異質,且來自于不同的系統中,它們存在著不同的形態,數據之間的關聯性較低,數據主體間的“數據壁壘”“信息孤島”較為突出,諸如此類的不利因素致使對這些多源異構且多模態數據的實施集成檢索困難重重[5]。
針對醫院檔案管理數字資源,利用先進的技術和相關工具,實現高效的數字資源集成檢索,可以更好地滿足醫院對于數字資源的查詢需求,提升工作效率。
1? 統一檢索方案
1.1? 總體目標
針對醫院中存在的這些信息孤島,利用先進的技術,把它們整合到一起,高效地生成透明、多維的檢索結果,智能地幫助用戶清楚記憶并完善用戶的檢索表達,使用最新的互聯網體驗模式展示給用戶。檢索結果的動態呈現、多維呈現為用戶提供發現信息的最佳途徑。同時,配合主題詞表,即使用戶輸入錯誤,系統也能自動推薦正確的表達供用戶選擇。總之,集成檢索機制將幫助普遍用戶、管理人員或者其他類型的使用者準確獲取信息,成為易于部署、管理方便、使用便捷的信息橋梁。
1.2? 檢索方案邏輯設計
從邏輯上來分,面向醫療多模態大數據的統一檢索方案可以劃分為6個部分,這6個部分分別為文件、數據庫、核心引擎、分析管理系統、檢索條、結果顯示界面。這里的文件是指醫院行政管理中積存的視頻、圖片、聲音等非結構化文件或者半結構化文件;數據庫為管理記錄、會議電子記錄等結構化數據;核心引擎則包括自然語言處理系統、醫療行業知識庫、多模態統一數據庫,自然語言處理系統具有用戶輸入檢索以及數據預算時的文字的分句、語義等分析功能,醫療行業知識庫則為數據預處理時的行業知識指導規則,多模態統一數據庫是通過數據預處理后,存放和統一管理多模態的數據庫系統;分析管理系統則是對數據進行分析和管理的系統;檢索條與檢索結果展示是面向用戶的操作功能模塊,接受用戶的輸入和向用戶展現檢索結果。檢索方案的總體設計如圖1所示。
1.3? 檢索方案物理設計
圍繞多模態醫院檔案管理數字資源統一檢索系統的設計目標,在邏輯設計基礎上,統一檢索系統的物理設計的核心任務有信息采集系統的設計、信息分析系統的設計以及數據庫系統的設計,信息采集系統和信息分析系統為數據庫系統提供服務,數據庫系統又為應用服務系統提供高質量的數據來源,而應用服務系統是與終端用戶交互的系統,為用戶提供個性化服務。在上述各系統的物理設計過程中,均采用服務組件的設計模式,具體為:在信息采集系統中,封裝有關系數據庫和文件等多模態的服務組件;在數據庫系統中設計有數據庫讀取服務組件;在信息分析系統中,設計有自然語言處理服務組件;在應用服務系統中,設計有用戶檢索分析、檢索結果分析與可視化等多個應用型服務組件。統一檢索系統的物理設計的直觀表述如圖2所示。
①數據采集系統。在該系統中可以通過數據庫網關系統(VSP Gateway)來完成。VSP Gateway是面向Oracle、DB2、SQL Server、Sybase、MySQL 等主流關系數據庫和 Lotus Notes系統的數據交換橋梁,可以整合多種異構數據源,將不同系統的數據實時同步、無縫集成到VSP全文數據庫管理系統,協同工作,充分利用VSP全文數據庫管理系統的強大檢索性能來提供便捷高效的在線檢索服務,實現企業級信息資源的統一搜索。
②信息分析系統。信息分析系統中可以使用VKM Server,它的全稱是VSP Knowledge Management Server,它囊括自然語言處理模塊的多個Linux下運行,以可配置的方式動態加載功能模塊。目前支持Windows,自然語言處理工具是為了梳理加工采集后的結構化、半結構化和非結構化信息,比如從非結構化文本中抽取結構化數據。系統將自動采集并處理信息,利用知識庫的內容自動標引信息,實現概念檢索。
③數據庫系統。全文數據庫(VDB Server)提供海量信息的分布存儲和即時索引,并提供全文檢索和高級檢索功能,是實現高效精準檢索的堅實基礎。數據庫系統具有非常高的穩定性和靈活性。一方面穩定性幫助系統快速地查找到需要的信息,另一方面的靈活性能確保隨著需求的不斷改進實時調整產品,使之能快速適應新的需求,滿足用戶的需要。
④應用服務系統。應用服務系統包含的內容較多,本文僅以用戶檢索服務為例進行闡述,在設計檢索服務組件時,可以檢索內容的不同屬性為維度,生成動態導航目錄。用戶只要點擊不同屬性,就能縮小信息檢索的范圍,從而快速、準確找到滿意的信息。
2? 結論
該文針對醫院檔案管理過程產生的海量多模態數字資源,從多模態數據采集、信息分析、數據庫存取以及應用服務等方面,提出了一套數字資源統一檢索系統的設計方案,旨在為醫院行政管理人員實現快速、準確的資源檢索,解決了用戶在海量多模態數據查詢中存在的多點查找、查詢不方便等諸多難題。通過作者所在單位的方案實際應用,結果表明本文提出的統一檢索系統設計方案,對于醫院單位的數據統一查詢策略的制定具有參考意義。
[參考文獻]
[1]? 孫亭,丁杰.異構政務信息資源集成檢索技術研究[J].計算機工程與應用,2016,16(5):142-143.
[2]? 錢宇華,成紅紅,梁新彥,等.大數據關聯關系度量研究綜述[J].數據采集與處理,2015,35(4):57-61.
[3]? 王雅瓊.基于WCF的圖書館數據集成檢索研究[J].河南圖書館學刊,2018,24(4):32-40.
[4]? 趙鑫龍.基于OPAC的資源集成檢索實現[J].科技情報開發與經濟,2013,24(17):38-39.
[5]? 李梁,譚薇,陳彥萍.適用于電子醫療環境下的數據檢索方案究[J].計算機工程與設計,2017,20(7):210-211.
(收稿日期:2019-03-23)