鄭麗青 張育嘉 彭劍橋

摘要:本文針對支氣管炎電子病歷數據,利用改進的基于統計的中文分詞算法、粗糙集和決策樹理論對數據做了處理;最后采用改進的Apriori算法進行關聯分析,實現“數據-信息-知識-價值”的轉變過程。
關鍵詞:電子文本病歷;反向最大匹配;Apriori;關聯規則
中圖分類號:TP391.1 文獻標識碼:A 文章編號:1007-9416(2019)05-0055-02
0 引言
隨著醫院信息系統(HIS)的普及應用,其產生的大量數據是對醫療活動的真實記錄。醫療數據具有海量、多樣化、主觀性、價值高、實時性的特點,這使得對病歷數據的預處理成為了醫學數據分析最大的挑戰之一。HIS是未來醫院發展的必然趨勢,電子病歷(CPR)作為HIS的一個重要組成部分,逐漸為近年來的研究熱點。
文本挖掘是從大量非結構化的數據中提煉出有用的信息和知識的半自動化處理過程。而分詞算法的優劣直接決定了中文文本挖掘的效果。目前的研究中,基于詞庫的算法在中文文本挖掘的分詞技術中應用較為廣泛。這類算法分詞的準確性很大程度上取決于所建的詞庫。但是該算法可能會漏掉某些具有重要意義的未登錄詞匯,從而使得到的結果不準確。
文獻[3]的作者設計了一種發現文本中所有最長頻繁序列的算法,該算法基于“組成一個詞的漢字經常在文中以相同的順序重復出現”的假設。文獻[4]根據提取到的詞或詞組的長度和頻數計算它們的權重,根據權重得到關鍵詞或詞組。這種算法主要應用于包含較多新詞和音譯詞的中文短文本。……