劉方 李健明 王藝元 陳汝林 沈文婷
【摘 要】區域醫療信息平臺是連接區域內多家醫療機構信息系統的信息共享和交換的平臺,醫療信息共享能夠最大限度地提高醫療服務的可及性、提升醫療診斷的質量和效率、降低病人就醫的成本和風險。經過多年的努力,深圳市福田區建設的區域醫療衛生數據交換平臺基本完成。為了整合區域范圍內不同醫療機構的信息系統,實現區域醫療信息共享和交換,需要解決相同病人在不同醫療信息系統中的身份標識號如何進行關聯的問題。本文中的病人主索引優化方法是在福田區衛計委在區域醫療衛生信息平臺統建設的成果上,嘗試在主索引建立過程中病人身份屬性的優先級分類及逐級匹配實現主索引的建立,從而改善匹配效率低和準確性低等問題。本方法基于優先級進行逐級匹配,過程簡單,匹配效率高,匹配準確性高。
【關鍵詞】區域醫療衛生信息平臺;互連互通;病人主索引;匹配算法
【中圖分類號】R197 【文獻標志碼】A 【文章編號】1005-0019(2018)10-261-01
Abstract Regional health information platform is the connection of several medical institutions information system in the area of information sharing and exchange platform for the medical information sharing can maximize the accessibility of medical service, improve the quality and efficiency of medical diagnosis, reduce costs and risks of a patient.After years of efforts, the shenzhen futian district construction of regional health data exchange platform basically completed.To integrate regional scale information systems of different medical institutions, realize the regional medical information sharing and exchange, the same patients need to be solved in the information system of different medical identification number how to carry out the related problems.Main index optimization method in this paper, the patient is in futian district health development planning commission on achievements of the construction of the regional health information platform system, try to patients in the process of the main indexes to establish identity attribute of priority classification and match step by step to realize the establishment of the main index, so as to improve the matching
(一)概述
近年來,醫療衛生體制改革的不斷深入,各級醫院以及醫療衛生管理機構的信息化建設得到了很大的發展。經過多年的努力,深圳市福田區建設的區域醫療衛生數據交換平臺基本完成。截止到目前,區域平臺已接入了5家公立醫院,77家社康中心及多個公衛機構的系統,涵蓋門(急)診、住院、成人健康體檢、社康全科診療,婦幼保健(孕婦建檔)、預防接種等方面健康檔案數據。健康檔案數據庫已超過170多萬筆業務數據,建立了11多萬份健康檔案,結構化數據容量超過1TB。
區域醫療信息平臺是連接區域內多家醫療機構信息系統的信息共享和交換的平臺,醫療信息共享能夠最大限度地提高醫療服務的可及性、提升醫療診斷的質量和效率、降低病人就醫的成本和風險。我國醫療信息系統具有垂直建設的特點,區域內的不同性質的醫療機構,如綜合性醫院、社區衛生服務中心、婦幼保健院、公共衛生專業機構、專科醫院等,相對獨立地開展業務,病人信息分散在多個相互封閉的信息系統中,不能有效地共享和交換。為了整合區域范圍內不同醫療機構的信息系統,實現區域醫療信息共享和交換,需要解決相同病人在不同醫療信息系統中的身份標識號如何進行關聯的問題。
美國放射學會(Radiological Society of North America,RSNA)及美國醫療信息和管理系統學會(Healthcare Information and Management Systems Society,HIMSS)等多家機構共同發起并提供了一種集成醫療企業醫療(integration healthcare enterprise,IHE)健康信息集成規范,其中的病人身份交叉索引(patient identifier cross-referencing,PIX)技術框架為關聯不同醫療機構的病人身份標識號提供了指導標準。IHE PIX技術框架定了三種角色,分別為病人身份源(patient identity source)、PIX管理器(PIX manager)以及PIX使用者(PIX consumer)。PIX管理器可接收多個病人身份源提供的病人注冊信息,并通過唯一的主索引將多個病人身份源關聯在一起,并為PIX使用者提供查詢服務。其中,主索引是指在特定區域范圍內,用來標識每個病人并保持其唯一性的編碼。
建立共享域范圍的病人主索引(master patient index,MPI)是PIX管理器的核心功能,一般通過病人信息匹配來實現。目前,最常采用的方法是對病人身份屬性進行逐項匹配并根據各項屬性的權重計算匹配程度。這類方法的弊端是:各屬性的權重之和必須為1,當任意屬性缺失時,必須重新調整其余所有屬性的權重。在實際應用中,由于不同醫療機構登記個人信息時可能存在填寫不規范、不完全甚至出現偏差等情況,病人身份屬性的錯誤率和缺失率較高,區域醫療信息平臺覆蓋的病人眾多,醫療機構數據龐大,權重的調整流程十分復雜,嚴重影響病人主索引建立方法的效率性和準確性,導致病人主索引在區域醫療中的使用價值顯著降低。
本文中的病人主索引優化方法是在福田區衛計委在區域醫療衛生信息平臺統建設的成果上,嘗試在主索引建立過程中病人身份屬性的優先級分類及逐級匹配實現主索引的建立,從而改善匹配效率低和準確性低等問題。本方法基于優先級進行逐級匹配,過程簡單,匹配效率高,匹配準確性高。
(二)MPI的建立優化方法實施步驟
區域醫療信息平臺的互聯互通與應用,依賴于病人主索引的建立和準確引導。目前建立病人主索引(MPI)最常采用的方法是對病人身份屬性進行逐項匹配并根據各項屬性的權重計算匹配程度。其弊端是:當任意屬性缺失時,必須重新調整其余所有屬性的權重,由于實際當中病人身份屬性的錯誤率和缺失率較高,會嚴重影響病人主索引建立方法的效率性和準確性,導致病人主索引在區域醫療中的使用價值顯著降低,進一步影響區域醫療信息平臺的互聯互通和相關應用的有效開展。
本文提出一種面向區域醫療的病人主索引建立方法,解決主索引建立過程中病人身份屬性的優先級分類及逐級匹配實現主索引的建立,從而改善匹配效率低和準確性低等問題。病人主索引建立方法,包括如下步驟:
步驟(1):將注冊病人的N種病人身份屬性根據事先按優先級劃分的n個等級進行分類,其中每個所述等級含有Mi種身份屬性,其中Mi為小于等于N的整數,i表示等級,為小于等于n的正整數;
步驟(2):將Mi種身份屬性與當前數據集合中的身份屬性進行匹配,記匹配結果為數據集合Pi;
步驟(3):當所述集合Pi含有零個元素,即所述Mi種身份屬性與所述當前數據集合中病人的身份屬性不匹配,則為注冊病人建立主索引;
當集合Pi只含有一個元素,即Mi種身份屬性與所述當前數據集合中的一個病人的身份屬性匹配,則為注冊病人匹配數據建立交叉索引;
當集合Pi至少含有兩個元素,即Mi種身份屬性與所述當前數據集合中多個病人的身份屬性匹配,則進入下一個級別,即i加1,并轉到所述步驟(2)重新匹配。
當n為5,按優先級高低依次為精確匹配屬性、關鍵匹配屬性、模糊匹配屬性、輔助匹配屬性和不匹配屬性。
在執行步驟(2)之前判斷M1的值,M1的值不為0,則步驟(2)中的Mi為M1,并記匹配結果為數據集合P1; M1的值為0,則步驟(2)中的Mi中的i為大于1且小于等于n的正整數,并記匹配結果為數據集合Pi。
相似度值的計算公式為:
向量B中包括的各項第i等級身份屬性不相關,則相似度值的計算公式為:
similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)
其中,向量B=(B1,B2…,BN1),N1為向量B包括的第i等級身份屬性的數量,也為向量BBj包括的第i等級身份屬性的數量;向量BBj={BB1j,BB2j,…,BBN1j}; j表示數據集合Pi-1中的第j個病人;θ為字符串匹配函數;
向量B中包含的各項第i等級身份屬性相關,則所述相似度值的計算公式為:similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)
其中,向量B=(B1,B2…,BN1),N1為向量B包括的第i等級身份屬性的數量;向量BBj={BB1j,BB2j,…,BBN1j},N2為向量BBj包括的第i等級身份屬性的數量; j表示數據集合Pi-1的第j個病人;θ為字符串匹配函數。
優先級劃分單元:用于將注冊病人的N種病人身份屬性根據事先按優先級劃分的n個等級進行分類,其中每個所述等級含有Mi種身份屬性,其中Mi為小于等于N的整數,i表示等級,為小于等于n的正整數;
匹配單元:用于將所述優先級劃分單元劃分后的Mi種身份屬性與當前數據集合中的身份屬性進行匹配,記匹配結果為數據集合Pi;
主索引建立單元:用于如權利要求1所述的方法中為所述注冊病人建立主索引。
與現有技術相比,上述技術方案引入了對病人身份屬性的等級分類,使用的病人身份屬性更為全面,保證了身份匹配的準確性和可靠性,而且無需為各項屬性分配權重,當任意屬性缺失時,也無需采取繁瑣的方法重新調整各項屬性的權重,操作流程簡單,具有更好的實用性。
通過逐級匹配的方法對病人身份屬性進行匹配,在保證匹配準確率的同時,可以大幅度減少匹配次數,使得病人主索引建立的同時具備效率性和準確性,而且在分級匹配過程中可以根據實際需要快速、便捷地調整匹配算法和匹配閾值,提高匹配結果的準確性;引入人工處理的方式來處理可能出現多條匹配記錄的情況,保證病人主索引的唯一性和可靠性,提高病人主索引的實用價值。
(三)方法實例
以HL7(Health Level 7,衛生信息交換標準)標準中定義的30種病人身份屬性為例,根據精確性和重要性將HL7標準中定義的30種病人身份屬性按優先級高低劃分為精確匹配屬性、關鍵匹配屬性、模糊匹配屬性、輔助匹配屬性和不匹配屬性五個等級(如圖1所示),即n=5。其中,各等級內所包含的身份屬性可以根據實際情況改變。
首先,執行步驟S1,將注冊病人的N種病人身份屬性根據事先按優先級劃分的5個等級進行分類,其中每個所述等級含有Mi種身份屬性,其中Mi為小于等于N的整數,i表示等級,為小于等于n的正整數。
假設注冊病人含有11種病人身份屬性(如圖2所示),即N=11,將這11種病人身份屬性和HL7標準中定義的30種病人身份屬性進行比較,可知,其中每個等級含有的身份屬性分別為1,5,2,2和1,即M1=1,M2=5,M3=2,M4=2,M5=1。Mi的值根據實際注冊病人提供的信息進行確定。
接著,執行步驟S2,將Mi種身份屬性與當前數據集合中的身份屬性進行匹配,記匹配結果為數據集合Pi。在執行上述步驟(2)之前判斷M1的值,所述M1的值不為0,則上述步驟(2)中的Mi為M1,并記匹配結果為數據集合P1;所述M1的值為0,則上述步驟(2)中的Mi的中的i為大于1且小于等于n的正整數,并記匹配結果為數據集合Pi。
根據步驟S1可知,注冊病人含有一個精確匹配屬性,即M1=1,則將1種病人身份屬性(身份標識號)與存放病人主索引數據庫(MPI數據庫)中的精確匹配屬性(身份標識號)進行匹配,記匹配結果為數據集合P1。具體的匹配過程為:根據所述1種病人身份屬性(身份標識號)創建向量A={A1,A2,…,AL1},向量A中的元素為注冊病人的非空精確匹配屬性(身份標識號);接著根據MPI數據庫中第j個病人的精確匹配屬性(身份標識號)創建向量AAf={AA1j,AA2j…,AAL2j},向量AAj中的元素為MPI數據庫中第j個病人的非空精確匹配屬性(身份標識號);交叉比較向量A和向量AAj中的元素,遍歷整個MPI數據庫,即將注冊病人的身份標識號和MPI數據庫中每一個病人的身份標識號都進行了比較,將兩個向量中完全相同的元素放入P1中,所述P1中的元素為和注冊病人身份標識號這個身份屬性匹配的病人(匹配數據),即如果向量A和向量AA5(j=5)中的元素完全相同,則表示注冊病人和MPI數據庫中第5個病人的身份屬性匹配,則將第5個病人放入P1中。其中,如果注冊病人的精確匹配屬性為身份標識號列表,并且身份標識號列表非空,則將其中的每個元素拆分出來,分別放入向量A中,則相應地,將MPI數據庫中第j個病人的身份標識號列表中的每個元素拆分出來放入向量AAj中。
如果注冊病人的N種身份屬性中不含有精確匹配屬性,即M1為0,則將注冊病人的N種身份屬性中的M2種身份屬性,即關鍵匹配屬性,與MPI數據庫中的關鍵匹配屬性進行匹配,記匹配結果為數據集合P2。具體的匹配過程(如圖3所示),先執行S201,根據所述M2種身份屬性創建向量B;接著執行S202,根據數據庫中第j個病人的關鍵身份屬性創建向量BBj;再接著執行S203,計算向量B和向量BBj的相似度值;最后執行S204,比較所述相似度值和預先設定閾值的大小,則確定數據集合P2,所述集合P2中的元素為和注冊病人M2種身份屬性匹配的病人(匹配數據)。
向量B中包括的各項關鍵身份屬性不相關,則所述相似度值的計算公式為:
similarity(BBBj)=1N1∑N1n1=1θ(Bn1,BBn1j)(公式1)。其中,向量B=(B1,B2…,BN1),N1為向量B包括的關鍵身份屬性的數量,也為向量BBj包括的關鍵身份屬性的數量;向量BBj={BB1j,BB2j,…,BBN1j}; j表示MPI數據庫中的第j個病人;θ為字符串匹配函數。
當所述向量B中包括的各項第i等級身份屬性相關,則所述相似度值的計算公式為:
similarity(BjBBj)=1N1∑N1n1=1max1sn2·sN2θ(Bn1,BBn2j)(公式2)。其中,向量B={B1,B2…,BN1},N1為向量B包括的關鍵身份屬性的數量;向量BBj={BB1j,B2j,…,BN2j},N2為向量BBj包括的關鍵身份屬性的數量; j表示MPI數據庫中的第j個病人;θ為字符串匹配函數。
再接著執行步驟S3,當所述集合Pi為含有零個元素,即所述Mi種身份屬性與所述當前數據集合中病人的身份屬性不匹配,則執行步驟S4,為注冊病人建立主索引;當所述集合Pi只含有一個元素,即所述Mi種身份屬性與所述數據庫中的一個病人的身份屬性匹配,則執行步驟S5,為注冊病人和匹配數據建立交叉索引;當所述集合Pi至少含有兩個元素,即所述Mi種身份屬性與數據庫中多個病人的身份屬性匹配,則進入下一個級別,即i加1,并轉到所述步驟S2重新匹配。在本實例中,具體地,在步驟S2中確定了數據集合P1,當P1為含有零個元素,即向量A和向量AAj不完全相同,則為注冊病人建立新的主索引,當P1非空,即向量A和向量AAj完全相同,則為注冊病人和P1中的匹配病人建立交叉索引,由步驟S2中可知,P1中含有MPI數據庫中的第5個病人,則為注冊病人和MPI數據中的第5個病人建立交叉索引。
在注冊病人不含有精確匹配屬性的情況下,上述步驟S2中確定了數據集合P2,當P2為含有零個元素,則執行步驟S4,為注冊病人建立新的主索引;當P2非空且只含有一個元素,則執行步驟S5,為注冊病人和P2中的匹配病人建立交叉索引;當P2非空且至少含有兩個元素,即注冊病人的5種關鍵身份屬性至少和MPI數據中的兩個病人的關鍵身份屬性匹配,則進入下一級別,即模糊匹配,并轉到步驟S2重新匹配,此時,將注冊病人的M3(M3=2)種模糊匹配屬性(出生日期和性別)與數據集合P2中病人的模糊屬性(出生日期和性別)進行匹配,并確定數據集合P3。其中,匹配的過程和關鍵屬性匹配的過程相同,在計算相似度的公式(1)和公式(2)中j表示的是數據集合P2中的第j個病人。再根據數據集合P3中含有的元素個數來建立主索引,該過程如集合P2。當集合P3至少含有兩個元素,則進入下一個級別,即輔助匹配,并轉到步驟(2)重新匹配,此時,將注冊病人的M4(M4=2)種輔助匹配屬性(聯系地址和家庭電話號碼)與數據集合P3中的病人輔助屬性(聯系地址和家庭電話號碼)進行匹配,并確定數據集合P4,之后的過程如上述,在計算相似度的公式(1)和公式(2)中j表示的是數據集合P3中的第j個病人。當集合P4至少含有兩個元素,由于不匹配等級并不參與匹配,則通過人工處理的方式來處理數據,以保證病人主索引的唯一性和可靠性。
通過專門的功能實現模塊,配合經以上方法處理的病人分類,建立病人主索引(如圖4所示)。功能實現模塊包括:優先級劃分單元1、匹配單元2和主索引建立單元3。
優先級劃分單元1適于將注冊病人的N種身份屬性根據事先按優先級劃分的n個等級進行分類,其中每個所述等級含有Mi種身份屬性,其中Mi為小于等于N的整數,i表示等級,為小于等于n的正整數。在本實例中,注冊病人11種病人屬性和HL7標準中定義的30種病人身份屬性進行比較,則自動將注冊病人的N種病人屬性進行了劃分(如圖2所示)。
匹配單元2適于將所述優先級劃分單元劃分后的Mi種身份屬性與當前數據集合中的身份屬性進行匹配,記匹配結果為數據集合Pi。匹配單元中的確定集合單元包括創建向量單元、計算單元和比較單元。創建向量單元適于根據所述Mi種身份屬性創建向量B,并根據數據庫中第j個病人的第i等級的身份屬性創建向量BBj;計算單元適于計算向量B和向量BBj的相似度值;比較單元適于比較所述相似度值和預先設定閾值的大小,則確定數據集合Pi。
主索引建立單元3適于在以上方法中為所述注冊病人建立主索引。在本實例中,當匹配單元中的P1為含有零個元素,則為注冊病人建立新的主索引;當匹配單元中的P1非空,將為注冊病人和P1中的匹配病人建立交叉索引。當匹配單元中的P2為含有零個元素,則為注冊病人建立新的主索引;當匹配單元中的P2只含有一個元素,則為注冊病人和P2中的匹配數據建立交叉索引;當匹配單元中P2至少含有兩個元素,則進入下一級別,即模糊匹配,并轉到匹配單元重新匹配,此時,匹配單元適于將注冊病人的M3種模糊匹配屬性與數據集合P2中的病人模糊屬性進行匹配,并確定數據集合P3。再根據集合P3的情況來進行后面的匹配,具體的過程如上述所述,當進行最后一級匹配所確定的集合中還含有至少兩個以上元素,則轉入人工處理單元。
(四)MPI建立優化算法流程圖
(五)結論
深圳市福田區區域醫療衛生數據交換平臺已接入了5家公立醫院,77家社康中心及多個公衛機構的系統,健康檔案數據庫已超過170多萬筆業務數據,平均每天產生20萬以上的診療數據量。
選取福田區區域醫療衛生數據交換平臺截至2017年底的門診住院的病人信息量和病人信息登記表,優化前后的病人主索引信息數據數量對比:
因此,本病人主索引建立的優化方法具有以下優點:
(1)可自定義更改身份屬性匹配登記,根據當地門診住院對病人身份的登記偏好和實際情況調整病人主索引的匹配優化效率和準確率;
(2)通過本優化方法,能顯著提高區域醫療衛生系統門診住院信息的病人主索引率,提高平臺整體的信息互聯互通效率和應用效果。
在各家醫療機構登記病人的個人信息時普遍存在填寫不規范、不完全甚至出現偏差等情況,導致病人身份屬性的錯誤率和缺失率較高的數據質量現狀條件下,從實驗數據結果中可看出,在采用傳統的病人主索引建立技術和方法時,建立索引的比例明顯小于采用優化后的比例。
而通過區域醫療衛生數據交換平臺進行互聯互通時,病人主索引是數據互聯互通、應用的基礎,對數據利用效率、準確性和應用的有效性有明顯的影響,因此提高病人主索引的建立比例和質量,有利于數據互聯互通、平臺應用和大數據的挖掘。
參考文獻
[1] 基于SOA解決異構醫療信息系統的互聯互通 何安勇 上海交通大學,2010
[2] 區域醫療信息共享平臺構建理論與實踐的研究 何琳《天津醫科大學》,2010