趙海靜,王永峰,張 娟,張新平
(河北省人民醫院 河北 石家莊 050000)
云計算環境下醫院檔案信息管理系統研究
趙海靜,王永峰,張 娟,張新平
(河北省人民醫院 河北 石家莊 050000)
針對醫院檔案信息數據提取復雜度高的問題,本研究將醫院的檔案信息分為文字信息和數字信息,提出了一套基于云計算環境下的檔案信息管理系統,利用線性歸一化和非線性歸一化對文字信息進行去噪預處理,結合外邊框和質心歸一化進行文字信息的數據提取;針對字符信息利用點陣圖和字符輪廓平滑處理,將字符的輪廓獲取和存儲進行特征值提取。通過設計醫院檔案信息的容器編碼,并結合分布式關聯數據庫以供信息的匯總和共享,方便了系統管理員對檔案信息的綜合調度使用。在對醫院檔案信息數據提取實驗測試,結果顯示:初步識別提取率與綜合數據提取率均分別保持在90%和80%以上,并且云計算數據提取效率明顯高于電子標簽(RFID)數據提取。
云計算;文字提取;字符提取;檔案信息;編碼設計
隨著計算機網絡的迅速發展,我國的各類檔案信息管理不斷推入云計算系統[1-3]。在系統的運行和管理過程中,檔案信息依靠計算機數據挖掘技術[4],不僅提升了整體的檔案信息管理水平,還促進了檔案管理人員的工作效率。檔案信息的數字化為信息系統管理的自動化和智能化帶來了便利,目前的檔案信息管理系統主要依靠電子標簽(RFID)[5]、二維碼[6]和Web Service[7]等技術。相比已有研究,文中從數據挖掘技術的云計算理念出發,對檔案中的文字信息利用外邊框和質心歸一化處理,對字符信息利用點陣圖和字符輪廓平滑處理,將檔案中的信息進行有效提取。結合醫院的檔案信息管理系統的特點,分別設計了檔案錄入、刪減、編輯權限,給出了檔案信息編碼準則,并在分布式數據庫結構下建立起醫院檔案信息管理數據庫。該云計算下的檔案信息管理系統提高了醫院信息檔案管理效率。
1.1 文字信息提取
通過將檔案中待對序列的文字進行輸入之后,最先進行的重要環節是對檔案信息輸入進行預處理。在預處理的環節中主要任務是去除獲取信息中的白噪聲,這樣的預處理步驟主要用于提取關鍵信息[8]。對信息的關聯程度進行篩選和加強,主要的預處理的方法是利用線性歸一化和非線性歸一化的方法,通過這樣的變量工具使得處理后的信息和圖像相對的便于識別和穩定,增強系統的管理識別能力[9]。對于醫院檔案中的圖像信息,通過字符圖像的方式進行線性規劃的處理。歸一化相對于不同的問題其含義有所不同,在進行醫院檔案信息處理的過程中,通過將漢字的信息字符構成的點陣圖移動到既定的方位和區域,以此來消除漢字字符在點陣圖上的位置偏差,這樣的過程即完成了整個位置歸一化的處理。一般來說位置歸一化的方法最常用的分為兩種[10]:以文字外邊框為參考物進行位置的歸一處理;以質心為參考物進行位置的歸一處理。以文字外邊框為參考物進行位置的歸一處理方法首先需要計算出文字的外邊框,然后將基于外邊框的文字中心找到,最后的步驟是將基于外邊框的文字中心移動到既定的位置和區域上;以質心為參考物進行位置的歸一處理方法首先需要計算出漢字的質心,再然后將漢字的質心移動到既定的位置和區域上[11]。在本文中主要采用基于外邊框的文字位置歸一化和線性大小歸一化相結合的方法進行處理,利用這樣的方法進行信息的提取和管理之前,需要對等待識別的文字字符和圖像字符進行歸一化的處理,首先將其轉化為規格標準的大小,然后才能進行系統特征值的提取。其次,對等待識別的文字的位置進行歸一化的處理,將等待識別文字的邊框提取出來,再將四周邊框中間的點陣圖獲取儲存。最后的環節是對獲取儲存的四周邊框中間的點陣圖進行線性大小的歸一化處理,從而得到標準點陣圖。具體表達式如下:

其中,s是在上一個環節獲取的文字邊框內的點陣,s*是進行線性大小歸一化處理后的點陣,h和w分別是s的高和寬,h*和w*分別是s*的高和寬。
1.2 字符信息提取
在進行了文字信息的預處理后還需要對字符的輪廓進行提取,若白點的四周在四個方位鄰接著一個黑點,那么這個黑點就是輪廓上的點[12]。通過在字符輪廓上的黑點提取系統的特征向量,實際上也可以通過從字符的構架上提取系統的特征向量,但通常情況下字符中存在一定的污點[13]。因此,采取后者的方法往往會丟失字符污點處的關鍵信息。有些情況下存在字符損壞嚴重的情況,這樣的情況下仍然可以對存在的筆畫和輪廓中提取系統的特征[14]。對字符的輪廓獲取和存儲之后則可以進行特征值提取[15],通常此時的字符輪廓容易產生毛刺,多是因為成像質量欠佳存在干擾因素等原因,因此在本文中將采用模板法對處理中的特征值提取環節之間進行平滑處理以消除類似的影響,將輪廓邊緣進行平滑性處理。黑點輪廓中需要平滑的點與之相對應的經過模板法平滑處理后的點的排列情況,如圖1所示。

圖1 消除輪廓中直角邊平滑處理的前后對比
圖1中,黑色的點代表黑的像素,空白的區域代表白的像素,九方格能夠表示兩種像素,即可以代表黑像素也可以代表白像素。對于字符輪廓中存在的每一個黑點。首先都要將其四周的8個相鄰像素進行考察。當圖像中的黑點同四周的相鄰像素的排列組合與圖中的任意一個相吻合那么需要將這個黑的像素變為白的像素。當字符輪廓四周的相鄰像素排列組合與某一個黑像素的排列相同,則抹去此黑像素,利用圖1的排列情況經過平滑處理來代替之前的黑像素,字符輪廓中的直角能夠被全部抹除,用于消除字符輪廓中微小的突起。
2.1 檔案管理
在醫院的檔案信息管理系統中,操作管理人員擁有與檔案管理有關的各種操作權限,例如檔案錄入、檔案刪減、檔案編輯等權限,從而提高了醫院信息檔案管理效率。
1)檔案錄入:醫院的檔案信息操作管理人員通過信息管理系統平臺對醫院病人信息等資料進行檔案信息數據庫的篩選和查找,并對每一份檔案進行獨立編號以確保沒有重復檔號。接著按照醫院信息管理系統的編程算法和醫院的相關檔案調檔條例進行相應的檢測,如若不存在錯誤,則由醫院的檔案信息操作管理人員將新的檔案信息錄入到檔案信息數據庫當中并與用戶進行關聯。
2)檔案刪減:醫院的檔案信息操作管理人員通過信息管理系統平臺登陸檔案數據庫,并對需要刪減的檔案進行篩選,如若存在需要刪減的檔案則由檔案信息操作管理人員從數據庫中將其刪除。
3)檔案編輯:醫院的檔案信息操作管理人員通過信息管理系統平臺登陸檔案數據庫,并對需要編輯的檔案進行篩選,如若存在需要重新編輯和修改的檔案則由檔案信息操作管理人員在數據庫進行編輯和修改以完成數據庫的更新,避免錯誤檔案信息的發生。檔案管理的具體操作流程如圖2所示。

圖2 檔案添加數據流圖
2.2 編碼設計
為了保證醫院檔案信息管理系統的良好運轉,一個必要條件就是容器編碼[16]。文中設計了醫院檔案信息管理系統的一些常用和主要的編碼,其具體的編碼的準則定義如下:
以醫院人力資源部門的的統一編碼為用戶和操作人員進行編碼為例,以4位編碼為各個部門進行編碼。第1~2位代表單位編號,第3~4位表示職員的班組編號,用大小寫的字母表示。例如:21Aa表示Aa組,21Ab表示Ab組。利用3位編碼來為功能進行編碼:第1~2位代表功能模塊編號,第3位表示在此功能模塊下的進行操作的編號,利用大寫英文字母表示,A表示檔案錄入權限,B表示檔案編輯權限,C表示檔案刪減權限,D表示檔案查詢權限。例如:03B表示具有3號功能模塊的檔案刪減權限,圖紙編碼可直接從系統中截取,也可使用現有的產品編碼規則。用戶的編碼規則使用8位數字型編碼,系統的編碼規則使用8位數字型編碼。模塊的編碼規則使用4位數字型編碼。角色的編碼規則使用4位字母型編碼。
2.3 數據庫設計
在計算機的存儲設備上通過按照一定的規則存放在關聯的數據所構成的集合構成了帶有鮮明特征的數據庫。通過這樣的規則所構成的數據庫主要有收集信息、數據信息組織、信號存儲、數據加工、篩選和傳播信息的主要功能。由于負責上述的數據庫特有功能,數據庫設計的完善程度將會對信息管理系統產生多方面性能的影響。為了更加方便的實現對檔案數據信息的匯總和傳播共享,因而在分布式的數據庫環境下建立起醫院檔案信息管理數據庫將更加便捷。在醫院檔案信息管理系統的操作流程中,紙質檔案的設置具體如表1所示。

表1 紙質信息數據設置
針對醫院檔案信息的數據提取測試如下:檔案的分類包括病人的病例信息、醫院工作人員信息和醫院物資信息等不同種類,首先通過文字信息和字符信息提取對測試則的不同樣本進行初步識別提取,樣本為各類型待識別紙質檔案。初步識別提取的效果如表2所示。
由表2可得,在1 070張醫院檔案紙質信息中,成功識別了1 003張,未識別63張。其中,各樣本的初步識別提取率均在90%以上,總樣本提取率為93.69%。在紙質檔案信息初步識別提取后,繼續對提取的樣本進行數據提取。結果如表3所示。
由表3可得,在已成功識別的1003張醫院檔案紙質信息中,各樣本的再次數據提取率和綜合提取率分別均在90%和83%以上,總樣本提取率和總樣本綜合提取率分別為94.12%和88.17%。通過檔案系統的流程設計,從檔案管理員的信息錄入到系統管理員的綜合運維,對100張醫院紙質檔案信息進行數據提取,分別利用本研究提出的云計算數據提取與電子標簽(RFID)數據提取性能重復進行10次測試,如圖3所示。

表2 初步提取效果

表3 綜合提取效果

圖3 數據提取量性能比較
由圖3可見,對100張醫院紙質檔案信息提取過程中,本研究使用的云計算數據提取量明顯高于電子標簽(RFID)數據提取。對于較少頁數的紙質檔案信息,使用電子標簽(RFID)數據提取效果高于云計算數據提??;而對于類似醫院檔案信息量巨大的操作業務壓力,使用云計算數據提取可以有效的提高檔案信息的錄入效率,為醫院檔案信息管理系統的綜合信息匯總和共享提供了便利。
通過對本研究設計的醫院檔案信息管理系統的數據提取性能測試表明,各類型檔案信息數據提取率較高,對于拒絕識別的紙質檔案出現報錯信息,這是由于數據量巨大超過了終端計算機運行的速度出現的響應不及時。而醫院的紙質檔案信息的識別與分組儲存對于文字信息和字符信息具有較高的數據識別提取功能,經過初步提取和綜合提取的處理后,最高的提取率可達到90%以上,這對于醫院檔案信息包含眾多復雜數據提取具有較好的處理效果。數據信息提取測試也說明了,當醫院原有的紙質檔案信息出現文字和字符不清晰時,數據的識別提取仍然不能很好的進行。因此,在醫院檔案信息錄入與綜合管理過程中,本研究可以提升醫院信息檔案管理效率,但還需要檔案管理人員的輸入和審核確認來確保檔案信息管理系統的準確性。
本研究針對傳統醫院紙質檔案數據錄入信息管理系統的問題,開發了一套云計算環境下的數據信息提取錄入設計。首先,將檔案信息分為文字信息和數字信息分別進行數據提取錄入。在對文字信息去噪預處理后,考慮文字信息外邊框和質心之間的關系,利用點陣圖線性歸一化原理對文字信息的數據進行提取。在對字符信息提取過程中,從字符的構架上提取系統的特征向量并采用模板法對數據特征值進行平滑處理。其次,根據醫院檔案信息管理系統流程操作和紙質檔案信息數據類型,設計了一套針對醫院檔案數據信息錄入容器編碼。最后,通過模擬不同類型的醫院檔案信息錄入性能測試結果表明,對于醫院紙質檔案數據提取率高,數據提取量大,為醫院的數字化檔案信息管理提供了有價值的參考。
[1]崔海莉,張惠達.云計算環境下檔案信息管理系統風險分析[J].檔案學研究,2013(1):56-60.
[2]鞠國山,王俊,范吉峰.基于RFID技術的檔案信息管理自動化系統[J].中國數字電視,2012(2):89-91.
[3]曹吉超,孫帥.智能檔案館與數字檔案館辨析[J].辦公自動化,2013(12):17-19.
[4]於立勇.計算機數據挖掘技術應用在檔案信息管理系統中的探討[J].電腦知識與技術,2012,8(1): 260-261.
[5]范浩明.電子標簽(RFID)技術在檔案管理自動化系統中的應用[J].電視工程,2012(1):29-30.
[6]李朝洋,袁海瓊.基于二維碼技術的檔案信息管理系統研究與設計[J].蘭臺世界,2013(9):23-24.
[7]李仕瓊.數據挖掘技術在檔案信息管理系統中的應用分析[J].科技展望,2015(1):53-57.
[8]易劍,彭宇新,肖建國.基于顏色聚類和多幀融合的視頻文字識別方法[J].軟件學報,2011,22(12): 2919-2933.
[9]劉英杰,楊風暴,吉琳娜,等.一種古建墻壁受污題記文字圖像邊緣提取方法[J].圖學學報,2015(5):783-788.
[10]賈建忠,孫萍.脫機維吾爾文組合特征提取及模糊聚類識別[J].新疆大學學報(自然科學版),2013(3):347-353.
[11]徐凌,王江晴,李波.基于骨架平滑與均勻膨脹的女書輪廓字形生成方法[J].科學技術與工程,2014,14(34):229-234.
[12]王忠飛,陳元正.基于輪廓特征的車牌英文和數字識別方法[J].浙江工業大學學報,2015,43(5): 522-526.
[13]何兆成,佘錫偉,余文進,等.字符多特征提取方法及其在車牌識別中的應用[J].計算機工程與應用,2011,47(23):228-231.
[14]高保平,白瑞林,溫振市.基于輪廓層次和小波分析的工業字符識別 [J].計算機工程與設計,2012,33(6):2423-2427
[15]殷羽,鄭宏,王靜,等.一種自適應煙標字符提取方法[J].計算機應用研究,2015,32(4):1248-1252.
[16]申利峰,戴萌,宋亞峰,等.基于信息自動識別技術的核燃料倉儲管理標準化[J].核標準計量與質量,2014(1):26-32.
Research on management system of file information of hospital with cloud computing environment
ZHAO Hai-jing,WANG Yong-feng,ZHANG Juan,ZHANG Xin-ping
(Veteran Cadres of Hebei Provincial People's Hospital,Shijiazhuang 050000,China)
For the problem of hospital records information data extraction of high complexity,the study will be divided into text files hospital information and digital information,a set of file-based information management system for cloud computing environment,the use of linear and non-linear normalization normalization of text messages denoising pretreatment,combined with external borders and the centroid of the normalized data for text information extraction;smoothing process for the use of bitmap character information and character outline,the outline of the character is captured and stored eigenvalue extract. Hospital records through the container code design information,combined with the distributed relational database for aggregation and sharing of information,facilitate system administrators to archive information integrated scheduling use.In the archives of the hospital information data extraction experimental test results show that:the extraction rate of the initial recognition and integrated data extraction rates were maintained at above 90%and 80%,and cloud computing data extraction efficiencysignificantly higher than the electronic tags(RFID)data extraction.
cloud computing;text extraction;extracting character;file information;coding design
TN914.3
A
1674-6236(2017)09-0014-04
2016-08-07稿件編號:201608052
國家自然科學基金項目資助(81071710)
趙海靜(1983—),女,河北石家莊人,碩士,檔案管理員。研究方向:檔案管理。