孟 亞,嚴 健,黃優杰,劉鵬遠
(上海市徐匯區大華醫院,上海 200237)
基于醫院數據中心的臨床全視圖構建方法研究
孟 亞,嚴 健,黃優杰,劉鵬遠
(上海市徐匯區大華醫院,上海 200237)
為了提高醫院臨床管理的精細化程度,更好地滿足臨床診療、科研和醫療質量的需求,需要構建基于醫院數據中心的臨床全視圖系統;當前的臨床全視圖構建方法,是以數據分塊存儲的方式進行構建,導致臨床醫護人員無法獲得完整有效的醫療數據,存在臨床數據分散、數據不完整等問題;為此,提出一種基于醫院數據中心的Paxos算法臨床全視圖構建方法;仿真實驗結果證明,所提方法可以將醫療數據有效地應用到醫務人員的臨床工作中,達到數據資源利用最大化,幫助醫院實現醫療信息化改進和服務創新,使各個異構系統之間的數據進行交互,實現了醫療數據共享,為臨床工作的發展提供了可用工具;基于醫院數據中心構建的臨床全視圖具有全面、精準、可共享的特點,在未來醫院數據中心控制系統的發展中具有重要作用。
醫院數據中心;全視圖構建;方法研究
目前,隨著醫院信息系統的全面發展,在臨床工作中產生了海量醫療數據,例如門急診數據、手術數據、住院數據等[1]。醫療數據的用處很多,它不僅可以為醫療技術的提高提供輔助作用,而且還可以幫助醫院進行管理創新[2]。但由于醫療數據錯綜復雜,很難將所有的相關數據集合到一個頁面展示,尤其是在臨床方面,因此醫院臨床全視圖的構建成為了當今HIT業界的熱點問題[3-4]。醫療數據具有規模龐大,數據交互性不強等特點,多數醫院臨床全視圖構建方法無法對醫院臨床數據進行準確穩定地構建,導致基于醫院數據中心的臨床全視圖系統構建時,經常出現惡意數據混淆,可利用數據丟失,數據查找結果不明確等問題[5]。在這種情況下,如何提高基于醫院數據中心臨床全視圖構建準確度,增加全視圖構建質量,成為了該領域亟待解決的問題[6]。而利用Paxos算法進行基于醫院數據中心的臨床全視圖構建的方法,不僅可以對臨床全視圖進行全面,高效地構建,而且也是解決上述問題的有效途徑,受到了醫療信息化方面專家的關注和深度鉆研,同時也出現了很多好的方法[7]。
文獻[8]提出了一種基于本體論的醫院臨床全視圖構建方法。該方法首先對醫院信息數據網絡的生成進行深入研究,然后利用全局本體對醫院臨床全視圖的構建進行透徹分析,最后結合實例,完成對醫院臨床全視圖的構建。該方法運行起來很簡單,但是存在構建準確率低的問題。文獻[9]提出了一種基于XML中間件技術的醫院臨床全視圖構建方法。該方法首先在醫院數據集成的基礎上,不局限于原有數據,對數據源的范圍進行拓寬,然后利用中間件技術獨立開發的性能,使數據彼此間固定接口并進行交互,明確各自的功能,最后以數據源作為單位,構建醫院臨床全視圖。該方法用時較短,但是對數據源范圍的拓寬過程導致了惡意數據較多的問題。文獻[10]提出了一種基于Datalog規則的醫院臨床全視圖構建方法。該方法首先對醫院數據集成結構進行分析,然后利用Datalog規則將醫院臨床全視圖描述出來,最后將數據集成分為自上而下和自下而上兩類,并對醫院數據全視圖的集成部分進行討論。該方法對醫院臨床全視圖構建的比較全面,但是存在耗時較長的問題。
針對上述產生的問題,提出一種基于醫院數據中心的Paxos算法臨床全視圖構建方法。仿真實驗證明,所提方法可以準確地對醫院臨床全視圖進行構建。
1.1.1 醫院數據清洗
以2.1中的信息為依據,利用擴展樹狀知識庫對醫院數據中心的數據進行清洗。其清洗過程為:首先根據醫院實際情況的需求,獲得清洗的相關知識和該知識對應的原子知識集合,其次要將該原子集合優化,取得醫院數據清洗時利用的清洗序列,這也是醫院數據中心數據清洗中至關重要的步驟,最后以清洗序列為基礎,對醫院數據中心的數據進行清洗。假設,輸入為醫院原始數據中心的數據,則輸出為清洗過的醫院數據。綜上可知對醫院數據中心的原始數據清洗時:
1)對醫院數據中心的預處理對象進行選擇。假設,要清洗的醫院數據集為{B1,B2,…,Bn},在知識庫中選取的醫院數據清洗相關知識為{TQ1,TQ2,…,TQn},醫院數據清洗屬性和知識集(Bi,TQi)為相互對應的關系。由此可得知識集TQi:
TQi={Ti1,Ti2,…,Tim}
(1)
其中:i代表醫院數據數目,m代表數據清洗對象個數,Tij(1≤j≤m)代表擴展樹狀知識庫中一個結點,但不是葉結點,j代表數據清洗對象中某一數據。對于每個(Bi,TQi)轉2)。
2)原子知識集的產生。對于TQi中的每一個知識Tij,搜尋其知識庫,得到Tij的所有原子知識:
Tij={Tij1,Tij2,…,Tijq}
(2)
其中:q代表原子知識總量,Tijv(1≤v≤q)代表原子知識。
3)對重復原子知識進行刪除操作,公式為:
TQi={Ti1,Ti2,…,Tim}=
{Ti11,Ti12,…,Ti21,Ti22,…,Tim1,Tim2,…}
(3)
假設,F為醫院數據屬性,該屬性所對應的知識集可表示為{T1,T2,T3},則其原子知識集可分別表示為:
T1=(T11,T12)
(4)
T2=(T12,T21)
(5)
T3=(T21,T31)
(6)
根據上述公式可知,數據屬性F所對應的原子知識集表示為{T11,T12,T21,T31}。
4)原子知識序列的產生。對醫院數據清洗的過程中,由于數據清洗知識的不同,導致數據清洗時間也就不同,因此一個數據清洗知識對應一個數據處理權重。對3)中產生的原子知識集,將權重按照從小到大的順序進行排列,并得到原子知識序列。假設,依據原子知識權重按照從小到大進行排序,得到序列T12,T31,T11,T21,則屬性B所對應的原子知識序列可表示為(T12,T31,T11,T21)。
5)綜上所述,通過原子知識序列完成對醫院數據中心數據的預處理。假設原始醫療數據庫為G,序列中原子知識個數為H,則醫院數據中心數據的預處理方法時間復雜度可表示為O(G×H)。
1.1.2 醫院數據集成與數據脫敏
將2.2中清洗過的醫療數據,利用神經網絡集成算法進行數據集成。首先對醫院原始數據集B訓練神經網絡,從而得到一個分類器Ni,將該分類器作為醫院數據集成中的一個組成部分,然后利用醫院原始數據集B的特性產生額外數據,假設得到的額外數據集為M,通過數據集成分類器對數據集M進行分類,使數據集M中每個數據點都可以得到一個隸屬于各數據類的概率分布。
假設,要對每個數據點的具體類別進行確定,則可以轉換為求每個數據點所屬類別的概率值,且此概率值為最大概率值。為了使后續生成的神經網絡分類器以及醫院數據集成中的分類器,可以有較大的差異。將數據集M中的每個數據點,隸屬于各類的概率進行求倒數操作。假設,確定了生成數據所屬類別后,與醫院原始數據集B一起訓練,成為新神經網絡的醫療數據集,設置利用該數據集得到分類器N′。
為了保障醫院數據集成的準確性,將新生成的分類器N′,加入至醫院數據集成中,對數據集成分類器在醫院原始數據集B上的分類誤差率進行計算,假設該誤差率小于未加入N′時的誤差率,則N′可以當作醫院數據集成中的組成部分,否則將N′丟棄。直至達到醫院數據集成規模的要求,或者達到額定的迭代次數。
對醫院數據集成規模以及迭代次數賦值:i=1,iterations=1,利用數據集B進行神經網絡訓練操作,則可得到分類器Ni:
Ni=AA(B)
(7)
其中:A代表神經網絡訓練的常數單位。將分類器Ni加入至醫院數據集成過程中,則有N*={Ni},對數據集成分類器在醫院原始數據集B上的誤差率λ進行計算可得:
(8)
其中:wi和li分別代表醫院原始數據的兩個子集。利用醫院原始數據集B的數據分布產生數據集M,數據集M中數據點個數通過比例因子ε確定,則:
M=Data-Generation(ε,B)
(9)
利用得到的局部數據集成分類器,對數據集M進行分類,分類結果代表每個數據點,隸屬各數據類別的概率分布S,則:
S=Local-Ensembie-Classification(N*,M)
(10)
其中:為了生成有差異的神經網絡,依據概率分布S,生成一個與S互為倒數的概率分布,即:
M-label=set-Class-Label(N*,M)
(11)
將新產生的數據集M-label和數據集B組合成新數據集B,則:
B=B∪M-label
(12)
利用神經網絡算法對新生成的數據集B進行訓練操作,得到的醫院數據分類器為N′,則:
N′=AA(B′)
(13)
將式(13)得到的分類器N′加入到醫院數據集成中,則有:
N*=N*∪{N′}
(14)
將數據集B去除,產生新的數據集,B=B-M-label,根據新產生的數據集,對醫院數據集成分類器在醫院原始數據集B上的誤差率進行計算:
(15)
其中:λ′代表根據新產生的數據集,醫院數據集成分類器在醫院原始數據集B上的誤差率。假設加入分類器N′之后,集成分類器在數據集B上的誤差率小于未加入集成分類器N′后數據集成分類器的誤差率,則在數據集成過程中,保留分類器N′,否則從醫院數據集成中將該分類器剔除。假設醫院數據屬性是連續性屬性,那么對數據集B中的每一個連續屬性均值與方差進行計算,然后根據高斯分布產生新的數據集Data-con,假設醫院數據屬性是離散屬性,則對它們的概率分布進行計算,按上述分布產生數據集Data-nocon,Data-nocon=generation(S-feature),將各屬性數據Data-nocon和Data-con結合,構成新數據點Data。
Sl=E(SlN1(wi),SlN2(wi),…,SlN*(wi))
(16)
為了更好地保護患者隱私,保障醫院的正常管理,利用DDM對醫院數據進行脫敏操作。DDM一般在敏感數據具有訪問權限時,對數據進行脫敏,而且可以根據規劃,執行對應的脫敏操作。醫院數據脫敏系統主要由資源層、服務層、應用層構成,具體配置如下:
1)醫院敏感數據的識別配置:對目標模型的全部數據進行智能化識別,對醫院數據字段內容分析透徹,對關鍵詞進行處理,對數據庫中敏感數據進行識別。
2)數據脫敏狀態監控:對醫院數據脫敏系統運行狀況進行監控與審計,可以及時觀察到異常并且做出處理,在規定期限內將綜合處理后的操作結果反饋給醫院管理人員,將脫敏的需求配置盡量完善,從而提高醫院數據的脫敏效率。
1)以醫院臨床全視圖組成結構為基礎,利用擴展樹狀知識庫對醫院臨床數據進行清洗。為實現Paxos算法臨床全視圖系統的構建,首先對醫院臨床數據來源進行統計。圖1給出了醫院臨床診療數據的組成部分。
圖1 醫院臨床診療數據的組成
由圖1可知,醫院臨床診療數據主要由:患者基本信息、醫囑信息、患者治療過敏史、病理報告、護理記錄、醫學影像報告、醫療費用記錄、門診處方信息構成。醫院臨床數據的構成部分,對醫院臨床全視圖的構建起到了輔助作用。
2)采用Paxos算法對清洗過的數據進行集成。為了獲得差異比較大的神經網絡,使用數據分類器對數據集合中的各個數據點分類結果,進行求倒數操作,從而獲得中的各個數據點概率分布。當數據集成分類器中各個組成部分確定后,利用融合方法將各個分類器的數據分類結果進行融合,由此完成對醫院數據的集成操作。
3)通過DDM對醫院敏感臨床數據進行脫敏操作,從而完成對醫院臨床全視圖的構建。圖2是醫院臨床全視圖系統的服務層架構圖。
圖2 臨床全視圖服務層架構
分析圖2可知,在醫院臨床全視圖架構中,首先對醫院醫療臨床數據進行清洗,過濾掉冗余數據,并對清洗過的數據完成脫敏操作,然后將脫敏過的醫療臨床數據進行集成和存儲,最后在數據中心基礎上采用B/S架構,將臨床業務人員需要的完整詳細的數據展示在臨床全視圖系統界面上。
為了證明基于Paxos算法的醫院臨床全視圖構建方法的實用性,需要進行一次仿真實驗。在matlab R2016b的環境下搭建基于醫院數據中心的臨床全視圖構建實驗仿真平臺。實驗數據取自于我院中心機房,利用本文所提Paxos算法對實驗數據進行全視圖構建,觀察其可靠性。表1是不同方法下數據集成時間(s)的對比。下面給出了數據集成時間(s)的計算公式:
(17)
由上述公式得出,當數據集成量為2000萬個時,文獻[8]所用時間為10 s,本文方法所用時間為5 s;當數據集成量為3000萬個時,文獻[8]所用時間為17 s,本文方法所用時間為9 s;當數據集成量為4000萬個時,文獻[8]所用時間為26 s,本文方法所用時間為12 s;當數據集成量為5000萬個時,文獻[8]所用時間為32 s,本文方法所用時間為17 s;當數據集成量為6000萬個時,文獻[8]所用時間為41 s,本文方法所用時間為22 s。分析表1可知,文獻[8]所提方法進行數據集成的所用時間比本文所提Paxos算法所用時間多,因為文獻[8]所提方法最后是以結合實例的方式,完成對醫院臨床全視圖的構建,并未設計單獨的數據集成模塊,導致數據在集成過程中沒有相對應的系統控制數據集成時間,存在數據集成所用時間長的問題。而本文所提Paxos算法利用神經網絡集成算法進行數據集成,減少了數據集成時間。
表1 不同方法下數據集成時間對比
分別計算文獻[8]、文獻[9]、文獻[10]所提方法下構建的醫院臨床全視圖,所占存儲空間很大,尤其是文獻[10]所提方法,全視圖所占存儲空間高達400 GB,與之相比的本文方法下的醫院臨床全視圖僅占160 GB的存儲空間,如表2所示,證明了本文所提Paxos算法具有可靠性和穩定性。
表2是不同方法下醫院臨床全視圖所占存儲空間(GB)對比。
表2 不同方法下醫院臨床全視圖所占存儲空間對比
圖3是不同方法下醫院數據清洗效率(%)對比。下面給出了數據清洗效率(%)計算公式:
(18)
圖3 不同方法下數據清洗效率對比
從圖3可以看出,數據清洗效率隨著數據清洗量的不斷增加而變化,文獻[9]和文獻[10]所提方法的數據清洗效率曲線波動很大,而且數據清洗效率很低,本文所提方法的數據清洗效率高且效率曲線起伏不大,而本文Paxos算法數據清洗效率較高,這主要是因為在利用Paxos算法進行數據清洗時,采用了擴展樹狀知識庫完成對醫院數據的清洗,使得Paxos算法具有較高的清洗效率,進一步證明了本文所提方法的整體有效性。圖4是不同方法下數據脫敏覆蓋率(%)的對比。下面給出了數據脫敏覆蓋率(%)計算公式:
(19)
圖4 不同方法下數據脫敏覆蓋率對比
脫敏數據對醫院數據的管理非常重要,分析圖4可知,文獻所提方法的脫敏覆蓋率相對集中,表示它們的脫敏性能大致相同,覆蓋率基本維持在78%以下,而本文所提Paxos算法的脫敏覆蓋率幾乎在82%以上,本文最低脫敏覆蓋率與文獻最高脫敏覆蓋率相差4%,證明了本文方法對醫院敏感信息的保護相對穩定可靠。
仿真實驗證明,Paxos算法可以準確地對基于醫院數據中心的臨床全視圖進行構建。
采用傳統方法對基于醫院數據中心的臨床全視圖系統進行構建時,無法構建出準確詳細的全視圖,存在醫護人員對醫療數據查詢時,查詢結果不理想,無法在同一界面看到所有相關信息數據的問題。提出一種基于Paxos算法的醫院數據中心臨床全視圖構建方法。并通過仿真實驗證明,Paxos算法可以準確地對醫院臨床全視圖進行構建,具有優秀的應用價值。后期我院將與上海柯林布瑞信息技術有限公司合作,利用Paxos算法將基于臨床數據中心的臨床全視圖系統實施落地,更好的服務于臨床。
[1] 奈存劍,任宇飛,李 金,等.醫院臨床數據中心建設與應用[J].中國醫院管理,2014,34(5):53-54.
[2] 張文捷,蔣 抒,張 民.我院綠色數據中心建設的實踐[J].中華醫院管理雜志,2016,32(5):394-396.
[3] 高 明,唐 順,徐福文.醫院數據挖掘平臺中X-11-ARIMA預測模型的應用研究[J].中國衛生統計,2016,33(1):139-141.
[4] 于國泳,楊 薇,謝雁鳴,等.醫院信息系統數據庫72772例2型糖尿病患者臨床特征分析[J].北京中醫藥大學學報,2014,37(12):851-857.
[5] 吳正一,崔迎慧,陸 耀,等.以臨床數據倉庫為核心的醫院大數據平臺構建[J].中國醫院管理,2015,35(11):13-15.
[6] 楊 莘,韓斌如,應 波,等.基于信息數據中心決策支持平臺構建護理質量評價體系[J].中華護理雜志,2015,50(1):10-13.
[7] 陳 川.基于學科元數據中心的知識服務平臺建設研究與應用[J].情報理論與實踐,2014,37(5):57-60.
[8] 侯佳音,史淳樵.云計算技術在醫院的信息化建設中的應用研究[J].電子設計工程,2016,24(5):35-39.
[9] 劉 偉,趙一林.數據包絡分析在地市級中心醫院綜合效率分析中的應用[J].中國衛生統計,2014,31(5):896-898.
[10] 宗酉明,詹偉國,畢魯佳,等.醫院影像系統圖文大數據云存儲的實踐應用[J].中華醫院管理雜志,2015,31(12):940-942.
Research on Construction Method of Clinical View Based on Hospital Data Center
Meng Ya,Yan Jian,Huang Youjie,Liu Pengyuan
(Shanghai Dahua Hospital,Shanghai 200237,China)
In order to improve the refinement of clinical management and better meet the needs of clinical diagnosis and research and medical quality, it is necessary to build a clinical whole view system based on hospital data center. The construction method of current clinical view, is based on data block storage mode, leading to clinical medical staff difficult to obtain complete medical data effectively, clinical data scattered and incomplete data problems. Therefore, a method of constructing clinical full view of Paxos algorithm based on hospital data center is proposed. The simulation results show that the proposed method can be effectively applied to medical data in the clinical work of medical personnel, to maximize the use of the data resources, help hospital to realize medical information service innovation and improvement, the interaction between heterogeneous system data, the implementation of medical data sharing, provide the tools available for the development of clinical work. The clinical full view based on hospital data center has the characteristics of comprehensive, accurate and sharable. It plays an important role in the development of hospital data center control system in the future.
hospital data center; full view build; methods to study
2017-05-10;
2017-05-22。
孟 亞(1981-),男,上海人,碩士研究生,高級工程師,主要從事醫院信息化管理與建設相關工作方向的研究。
嚴 健(1958-),男,江蘇人,碩士研究生,主任醫師,主要從事醫院管理方向的研究。
1671-4598(2017)12-0191-04
10.16526/j.cnki.11-4762/tp.2017.12.050
R319
A