魏源+葛勇
摘 要: 對醫院信息系統(HIS)中的目標處方信息進行篩選時,當前目標處方信息篩選方法特征選擇的特征向量空間維數較多,導致篩選過程消耗的能量較高,篩選結果不準確。在醫院HIS系統中提出一種目標處方信息篩選方法,對目標處方信息進行特征選擇,控制目標處方信息的特征向量空間維數,降低篩選過程中的能量消耗。通過醫院HIS系統的分類器,對目標處方信息的權重進行計算,提高目標處方信息篩選結果的精準度。實驗結果表明,該方法對醫院HIS系統中的目標處方信息進行篩選時,能量消耗較少,篩選結果較為精準,其成果對該領域的研究發展具有重要的指導意義。
關鍵詞: HIS; 目標處方信息; 信息篩選; 能量消耗; 權重計算; 特征向量選擇
中圖分類號: TN911?34; TP393.08 文獻標識碼: A 文章編號: 1004?373X(2018)05?0028?05
Abstract: For the target prescription information screening in hospital information system (HIS), the current target prescription information screening method for feature selection has high dimensionality of characteristic vector space, which may cause the high energy consumption in screening process and inaccurate screening results. A method of target prescription information screening in HIS is put forward to perform the feature selection of target prescription information, control the feature vector space dimensionality of the target prescription information, and reduce the energy consumption in the screening process. The weight of the target prescription information is calculated by means of the classifier of the HIS to improve the accuracy of the target prescription information screening results. The experimental results show that the method used to screen the target prescription information in HIS has low energy consumption and accurate screening results, and its achievements have important guiding significance for the research and development of this field.
Keywords: hospital information system; target prescription information; information screening; energy consumption; weight calculation; feature vector selection
0 引 言
互聯網信息經濟的快速發展,使信息在當代社會的作用越來越重要[1]。信息收集、整理和篩選的目的是提供及時、全面、準確的信息[2]。在信息時代,信息的含金量普遍提高,含有大量的經濟利益和商機[3]。但信息給人們帶來商機和利益的同時,也存在著海量的虛假信息,這些虛假信息會導致工作出現錯誤,并造成嚴重的后果[4]。
HIS是醫療活動和醫院管理中進行聯機操作和信息管理的計算機應用系統,是覆蓋醫院所有業務和業務過程的信息管理系統[5]。HIS系統的主要目標是支持醫院事物處理業務和行政管理業務,減少事物處理人員的勞動強度,輔助高層領導的決策和醫院的管理工作[6]。對醫院HIS系統中的目標處方信息進行篩選,可以快速地找到目標處方,減少查詢時間,降低處方查詢人員的勞動強度[7]。
近紅外光譜信息篩選方法采用近紅外漫反射光譜對信息進行鑒別。通過Norris平滑處理光譜、二階導數和光譜標準偏差選擇光譜波段,篩選出目標信息的主成分。利用模群迭代奇異樣本診斷方法去除數據庫中的異樣信息,采用子窗口重排、競爭自適應重加權法、遺傳算法和蒙特卡洛?無信息變量消除法四種方法進行信息篩選。該方法對目標信息篩選的結果較為精準,但篩選過程中消耗的能量較多[8]。信息篩選與聚類的處理方法對目標處方信息提出了一種基于信息聚類的特征變化和特征選擇方法,通過詞匯在處方中出現的頻率選擇進行聚類的詞匯,并根據詞匯出現頻率的模型定義特征變化函數,使信息篩選的速度加快,該方法根據詞匯出現的頻率對信息進行篩選時,篩選的結果難免會存在誤差[9]。基于信息敏感性的目標信息篩選方法通過主成分占總指標集信息的比例和被保留主成分對目標信息的偏導數乘積的和,對原始目標信息的影響度進行分析。根據目標信息的敏感性指標對積累的信息進行篩選。該方法對信息進行篩選時,計算量較大,過程較為復雜,能耗較高[10]。為解決上述問題,本文提出一種醫院HIS系統中目標處方信息篩選方法。endprint
1 信息篩選
1.1 特征選擇
醫院HIS系統的數據庫中儲存了大量關于處方的信息,處方信息中每段信息的詞匯均不相同,導致醫院HIS系統數據庫中文本樣本集的特征向量空間維數較多。特征向量的空間維數一般是副詞、標點符號、助詞和虛詞,還有一部分是長度為1的詞匯,這些詞匯對目標處方信息篩選是不需要的,對這些詞匯進行篩選不僅會耗費計算資源,還會造成“過擬合問題”,影響醫院HIS系統中目標處方信息篩選的結果,對分詞詞匯進行特征篩選減少向量空間的維數。
當前常用的特征選擇方法有、信息爭議、詞頻和互信息等。本文采用統計方法進行目標處方信息的特征選擇。統計用來度量類別和特征值的獨立程度,當越大時,信息的獨立性就越小,相關性越大。統計量特征選擇方法又成為CHI,用來衡量處方信息類別和特征之間統計的相關性。
是目標處方信息數理統計中的統計量。設為醫院HIS系統數據庫中的某個詞,為醫院HIS系統數據庫中某個類別,的計算公式如下:
式中:代表和在HIS系統中共同出現的頻數;是目標處方信息中包含的文件;為不屬于類中的頻數;代表類文件中不包含的詞匯頻數;表示出現既不包括類文件頻數也不包括類文件頻數的文件;代表目標處方信息中的總文件數。當時,是獨立的。
在醫院HIS系統中,不同類別的處方信息特征值的重合程度越高,表示不同類別的處方信息之間的特征值區別越小,篩選難度越大。
判別率代表區分度特征中最大的可分性。表示醫院HIS系統中處方信息的每一維,的判別率的計算公式如下:
式中:代表不同類別的處方信息;分別代表在第維特征下,該處方信息類別的標準差和均值。在醫院HIS系統數據庫的數據集復雜度中,處方信息特征最大的判別率為越大,處方信息的區分度越好。
代表特征間重合區域的體積,的計算公式如下:
式中表示醫院HIS系統中數據集特征維數。越大,處方信息的重合度越大,篩選越困難。
代表最大特征效率,是處方信息特征重合區域外的處方信息占總處方信息的比例。越大,代表在特征重合區域之外存在更多的處方信息,特征的區分度較好。通過去停用詞清理法和目標處方信息的詞性標注過濾法對醫院HIS系統中的特征詞向量空間維度進行選擇性的降低,控制特征選擇的空間維數,降低目標處方信息篩選需要的能耗。
1.2 目標處方信息篩選結果精準度的提高
給定醫院HIS系統中的數據庫樣本集為:,當時,代表樣本中的第個元素,代表與樣本中對應元素的屬性值。醫院HIS系統數據庫中的每一個樣本都分配一個權重,由這些樣本權重構成向量。將初始化數據庫樣本的權重設定為表示每個數據庫中的樣本權重都是相同的。設表示樣本集中最大的循環次數,計算醫院HIS系統分類器在權值為情況下的錯誤率:
在醫院HIS系統分類器的第二次訓練中,對樣本的權重進行調整,第一次對正確樣本進行分類時,權重會降低。第一次對錯誤樣本進行分類時,權重會提高。為醫院HIS系統中所有分類器都分配一個權重值。權重值是根據醫學HIS系統中弱分類器的錯誤率進行計算的,計算公式如下:
完成值的運算后,對權重向量進行更新處理,降低正確分類的處方信息樣本權重,更新處方信息樣本的權值公式為:
完成目標處方信息樣本的權值計算后,開始下一輪的迭代,直到醫院HIS系統弱分類器的數目達到指定值或錯誤率為0,提高目標處方信息篩選結果的精準度。
1.3 目標處方信息篩選
定義醫院HIS系統中目標處方信息篩選中的相關變量:
式中:代表篩選處方信息對象集;代表可識別的處方信息;表示用戶對處方的目標值。
目標處方信息篩選可以描述為。其中代表篩選處方信息對象集到信息類映射的關系;表示信息類用戶目標度映射的關系。目標處方信息篩選根據對輸入醫學HIS系統的處方信息進行分類;通過計算用戶輸入HIS系統處方信息類的目標值,并根據目標閾值判斷其取舍。
圖1為目標處方信息篩選的過程,包括:
1) 用戶目標體系的描述,對用戶的目標和信息需求進行描述;
2) 醫院HIS系統接收輸入的信息;
3) 對輸入醫院HIS系統的處方信息進行分類;
4) 根據用戶的目標值對輸入醫院HIS系統的信息處理行為進行判斷:是否通過醫院HIS系統的篩選器,判斷輸入醫院HIS系統的信息是否進入處方信息篩選結果集;
5) 用戶評價處方信息篩選的結果集;
6) 對用戶的目標描述進行修正。
2 實驗分析
本次實驗在Microsoft.NET Framework環境下完成,并使用Microsoft Visual Studio編寫Web服務和客戶端應用程序。實驗數據從醫院HIS系統中收集,信息收集的標準是包含目標處方信息,標為目標處方信息的數據約為100條。隨機對醫院HIS系統中的處方信息進行劃分,通過多次迭代進行平均。實驗的評價指標為綜合指標、召回率和采用準確率計算公式如下:
在醫院HIS系統進行目標處方信息篩選時要避免漏報目標處方信息,并注重召回率。實驗評估了本文方法和LiDAR目標處方信息篩選方法,實驗結果如表1,表2所示。
表1為本文方法的實驗結果,分析表1可知,本文的采用準確率平均為0.24,召回率平均為0.83,綜合指標平均為0.66。表2為LiDAR目標處方信息篩選方法的實驗結果,分析表2可知,LiDAR目標處方信息篩選方法的采用準確率平均為0.13,召回率平均為0.26,綜合指標平均為0.33。對比表1、表2可知,本文方法的篩選結果要優于LiDAR目標處方信息篩選方法,篩選結果較為精準,適合醫院HIS系統的目標處方信息篩選任務。endprint
選取四種特征選擇方法進行實驗,四種特征選擇方法的空間維數分別為400,600,800,1 000,1 200,得到的宏平均值如表3所示。
分析表3可知,四種特征選擇方法的宏平均值均在特征維數為1 000時最高,篩選的結果最為準確,當特征空間維數過多時,會導致特征選擇的特征詞中存在噪聲信息,篩選的計算量增大,導致目標處方信息篩選的結果不準確。為了驗證本文方法的特征選擇性能,分別選取MI特征選擇方法和IG特征選擇方法與本文方法的特征選擇方法進行測試,三種不同方法的測試結果如圖2所示。
由表3可知,當特征維數為1 000個時,特征選擇方法效果達到最佳,目標處方信息篩選的結果最為準確,分析圖2可知,在測試時,本文方法的特征維數保持在1 000左右,此時的特征選擇方法達到最佳,對目標處方信息篩選的結果較為準確。使用MI特征選擇方法進行實驗時,該方法的特征維數超過1 000個,此時的特征空間維數過多,導致特征選擇的特征詞中存在噪聲信息,使篩選的計算量增大,篩選結果不準確。使用IG特征選擇方法進行測試時,特征維數沒有達到1 000個,此時的特征空間維數較少,不能完全篩選出含有特征的目標處方信息,導致篩選結果不準確。
為了驗證醫院HIS系統中目標處方信息篩選方法的性能,分別采用本文方法和SEF目標處方信息篩選方法進行測試,對比兩種不同方法進行目標處方信息篩選時的能耗,能耗越低,篩選方法的可用性越高,實驗結果如圖3所示。
分析圖3可知,本文方法進行目標處方信息篩選時的能量消耗要低于SEF方法進行目標處方信息篩選時的能量消耗。SEF方法對目標信息進行篩選時利用中間節點的概率,因為SEF方法各個節點之間的公共密鑰概率比較低,所以非目標處方信息需要通過較多的跳出傳輸才能被過濾出去,消耗了較多的能量,使SEF的能耗較高。
3 結 論
對醫院HIS系統中的目標處方信息進行篩選,可以快速地找到目標處方信息,減少查詢所用的時間。當前的目標處方信息篩選方法存在能量消耗較高,篩選結果不準確的問題,本文提出一種醫院HIS系統中目標信息篩選方法,在解決上述問題的基礎上進行提升,并通過實驗得到驗證。
1) 采用本文方法和LiDAR目標處方信息篩選方法根據綜合指標召回率和采用準確率進行篩選結果的測試,驗證本文方法的篩選結果較為精準。
2) 根據特征維數對MI特征選擇方法、IG特征選擇方法和本文方法進行測試,驗證本文方法的篩選結果精準度較高。
3) 采用本文方法和SEF目標處方信息篩選方法進行能耗測試,驗證本文方法對目標處方信息進行篩選時所用的能量較低。
參考文獻
[1] 高凌潔.實時互聯網信息過濾系統的設計及實現研究[J].電子設計工程,2016,24(19):51?53.
GAO Lingjie. The design and implementation of real time Internet information filtering system [J]. Electronic design engineering, 2016, 24(19): 51?53.
[2] 馬媛媛,楊磊.最優乒乓球運動員身體特征尋優篩選挖掘建模[J].計算機仿真,2015,32(6):382?385.
MA Yuanyuan, YANG Lei. Modeling of optimization screening mining for optimal table tennis athletes physical characteristics [J]. Computer simulation, 2015, 32(6): 382?385.
[3] 王欣,黃莉莉,陶祥,等.SPD系統在醫院藥品管理中的應用[J].科技通報,2017,33(2):231?234.
WANG Xin, HUANG Lili, TAO Xiang, et al. Application of SPD system for pharmaceutical management [J]. Bulletin of science and technology, 2017, 33(2): 231?234.
[4] 馬胡雙,石永革,高勝保.基于特征增益與多級優化的協同過濾個性化推薦算法[J].科學技術與工程,2016,16(21):272?277.
MA Hushuang, SHI Yongge, GAO Shengbao. A recommendation algorithm based on collaborative filtering by feature augmentation and cascade tactics [J]. Science technology and engineering, 2016, 16(21): 272?277.
[5] 孟祥萍,周來,王暉,等.云計算技術在未來智能電網信息處理平臺中的應用[J].計算機測量與控制,2015,23(10):3508?3511.
MENG Xiangping, ZHOU Lai, WANG Hui, et al. Applications of cloud computing technology for information processing platform in future smart grid [J]. Computer measurement & control, 2015, 23(10): 3508?3511.
[6] 張瑞昕,卜方玲,惠毅.一種適用于多數據鏈網絡的信息過濾轉發策略[J].計算機工程與應用,2015,51(8):89?91.endprint
ZHANG Ruixin, PU Fangling, HUI Yi. Information filtering and forwarding strategy suitable for multiple data link networks [J]. Computer engineering and applications, 2015, 51(8): 89?91.
[7] 李云瑋,馬蕾.基于SVM的物聯網大數據有效信息過濾挖掘[J].控制工程,2016,23(10):1533?1537.
LI Yunwei, MA Lei. Big data effective information filtering mining of Internet of Things based on SVM [J]. Control engineering of China, 2016, 23(10): 1533?1537.
[8] 王元忠,趙艷麗,張霽,等.近紅外光譜信息篩選在瑪咖產地鑒別中的應用[J].光譜學與光譜分析,2016,36(2):394?400.
WANG Yuanzhong, ZHAO Yanli, ZHANG Qi, et al. Study on application of NIR spectral information screening in identification of Maca origin [J]. Spectroscopy and spectral analysis, 2016, 36(2): 394?400.
[9] 李陽,杜垚.文本情報信息篩選與聚類的一種處理方法[J].火力與指揮控制,2017,42(2):172?175.
LI Yang, DU Yao. A text clustering method using word appea?rance probability [J]. Fire control & command control, 2017, 42(2): 172?175.
[10] 遲國泰,陳洪海.基于信息敏感性的指標篩選與賦權方法研究[J].科研管理,2016,37(1):153?160.
CHI Guotai, CHEN Honghai. A study of index screening and weighting method based on information sensitivity [J]. Science research management, 2016, 37(1): 153?160.endprint