999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于文本挖掘詞頻反文檔頻率方法的疾病癥狀權重挖掘研究

2014-01-05 05:51:58舒紅平鄭皎凌梁繁榮任玉蘭文立玉
成都信息工程大學學報 2014年1期
關鍵詞:癥狀模型

宋 艷, 何 嘉, 舒紅平, 鄭皎凌, 梁繁榮, 任玉蘭, 文立玉

(1.成都信息工程學院計算機系,四川成都610225;2.成都信息工程學院軟件工程系,四川 成都 610225;3.成都中醫藥大學,四川成都610075)

0 引言

中醫講求辨證論治[1-2],也稱辨證施治,是中醫學對疾病的一種特殊的研究和處理方法。辨證是決定治療的前提和依據,不同的證(癥狀與體征)在辨證過程中所起作用大小是不同的[3],半身不遂、癱瘓、口噤不開、惡風、疼痛、頭昏的重要性就不同[4],其中半身不遂、癱瘓、口噤不開的重要性就比其余幾個癥狀大。如果見到半身不遂、癱瘓,病人患中風的可能性就很大;而見到頭昏、疼痛則不然。因而,考慮各癥狀[5]的權重問題在制定中醫疾病診斷標準方面也起到極大作用[6]。

1 基于文本挖掘TF-IDF詞頻統計模型

1.1 TF-IDF簡介

TF-IDF[7-8](Term Frequency-Inverse Document Frequency)是一種用于資訊檢索與資訊探勘的常用加權[9-10]技術。TF-IDF是一種統計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。提出采用此文本挖掘算法[11]來解決疾病癥狀的權重問題。

文本分類[12]時常用詞頻(Term Frequency,TF)和反文檔頻率(Inverse Document Frequency,IDF)的乘積來表示特征向量的權重,TF指的是某一個給定的詞語在該文件中出現的次數,出現次數越多說明該詞語越重要,反映了詞語的靈敏度。IDF是一個詞語普遍重要性的度量,反映了詞語的特異度[13]。某一特定詞語的IDF,可以由總文件數目除以包含該詞語的文件的數目,再將得到的商取對數得到。某一特定文件內的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產生出高權重的TF-IDF,它傾向于保留文檔中較為特別的詞語,過濾常用詞[14]。

TF-IDF數學模型:W=TF*IDF=(i/m)*log(N/n)

其中,i指某個字詞在某一文件中出現的次數,m指該文件的總詞數,N指語料庫的文件總數,n指包含某字詞的文件總數。

1.2 病例庫與語料庫的TF-IDF映射關系

病例庫記錄了疾病及其對應的癥狀在一段時間內的分布情況,利用TF-IDF文本挖掘算法對病例庫進行挖掘,目的就是找出每一種疾病中各個癥狀所占的權重分布。不僅考慮癥狀在某種疾病的所有癥狀中所占的比重大小,同時還要考慮在病例庫的所有疾病中這一癥狀對這種疾病的辨別能力。因此,將病例庫中的疾病、癥狀與文本語料庫中的文件、字詞形成正確合理的映射關系則顯得尤為重要。映射關系是否合理直接決定了后期的實驗效果,圖1、圖2分別展示了改進前和改進后的病例庫語料庫映射圖。

圖1 基于原始TF-IDF模型的病例語料庫映射關系

圖2 基于改進的病例語料庫映射關系

下面分別從IDF、TF的角度論證了改進后模型的病例語料庫映射關系要優于基于原始TF-IDF模型的病例語料庫映射關系。

(1)從IDF角度考慮

圖1中,改進前考慮將每個癥狀映射為一個字詞,將每條病例映射為一個文件。假如某個癥狀只在某個疾病中出現較頻繁(n較大),說明該癥狀對該疾病有很高的權重。但在計算IDF時,n越大,IDF越小,說明該癥狀權重越小,這與實際情況不符。簡單舉例如下:一共有1000條病例,其中感冒有800條,在800條感冒病例中發熱出現790次(也即790條病例包含發熱,若某病例中出現某癥狀,則該病例與該癥狀是一對一的關系)。根據上文提出的TF-IDF數學模型計算IDF(感冒,發熱)=log(1000/790)數值很小,不能很好地反應發熱在感冒中應該賦予很高權重這一實際情況。

圖2中,改進后將同種疾病的所有病例作為一個整體映射為一個文件,每條病例映射為一個詞。根據上述例子,將800條感冒病例映射為一個文件,IDF=log(1000/1),則能很好的反應發熱在區分感冒時所作的貢獻。

(2)從TF角度考慮

圖1中,一條病例映射為一個文件,這條病例只記錄了各種癥狀一次,那么各癥狀的TF相同都為1/m,這種情況明顯不能區別各癥狀的重要性。另外,針對同一疾病不同的病例記錄,同一癥狀會得出不同的TF,因為同種疾病的不同病例,病人表現出來的癥狀個數m不同。實際上,在同一病例庫中,某癥狀針對某疾病的TT是確定唯一的,某疾病的某癥狀不可能有不同的TF,這里也可以推出假設與實際是相矛盾的。

圖2中,將病例庫的同種疾病的所有病例映射為一個文件,則一種疾病對應一個主題文件,每個癥狀也就只有確定唯一的TF。另一方面,由于同種疾病的不同病例,病人表現出來的癥狀不完全相同,則統計每個癥狀出現次數i是不同的,又由于該種疾病的總病例數m是確定不變的(假設在統計期間病例庫不更新)。那么癥狀出現次數多的,i值就越大,TF就越大,說明該癥狀對比其他癥狀在該疾病中有更高的權重。

1.3 基于改進的文本挖掘MAPTF-IDF方法的詞頻統計模型

根據前面的論述分析,主要進行了兩方面的改進。一個是詞語映射的改進,由原來的一個癥狀映射為一個詞語,改為一條病例映射為一個詞語,用表示癥狀出現次數。另一個是文件映射的改進,由原來的一條病例映射為一個文件,改為將同種疾病歸類后映射為一個文件,用M表示每種疾病的病例數。由此提出改進的MAPTF-IDF詞頻統計模型:

其中M指每種疾病的病例數。It指某一癥狀在此種疾病中是否出現,取值為0或者1,即在具體某一條病例中,患者出現了該癥狀I1=1,否則統計的是在M條病例中,該癥狀出現的次數總和。N指病例庫中疾病種數,n指出現某癥狀的疾病種數。由上述統計模型可知,求解某種疾病的某個癥狀的權重W,先統計包含該癥狀的病例數,再除以這種疾病的總病例數M就得到MAPTF,而IDF則由病例庫總疾病種數N除以包含該癥狀的疾病種數n再取對數計算得出。如下實例是對該模型的進一步闡述。

例1:詳細描述病例庫與語料庫的映射關系圖

如圖3,同種疾病的所有病例作為一個整體映射為一個文件,統計下圖病例庫含有黃疸、虛勞、水腫、中風等4種疾病,左邊對應4種疾病的映射文檔。每條病例映射為一個字詞,對應左邊文檔中的一行,如右邊病例庫第3條水腫,它對應左邊第二個文檔的第一行。

分析對比原TF-IDF模型病例庫,可知原模型并沒有對病歷記錄按照疾病種類進行歸類統計,而是直接在初始病例庫上進行計算,原模型的病例庫如圖4所示。

圖3 基于MAPT F-IDF的歸類病例庫映射圖

圖4 基于TF-IDF的非歸類病例庫圖

2 算法流程

2.1 數據預處理

具體預處理過程:

第一步:規范癥狀表

不同的臨床醫生收集的病情資料表述極不一致,命名規則、術語表達的不同容易產生問題數據[15],無法進行量化分析,因此需要在實驗開始階段對疾病癥狀等命名進行規范[16]。疾病癥狀表來源于成都中醫藥大學附屬醫院的針灸循證臨床診療決策支持系統[17-18],其中各種疾病的癥狀大約有1000多種。經過篩選、校對、規范得到676種癥狀。

第二步:規范病例表

在臨床醫生錄入病例過程中,由于個人經驗不同造成病情癥狀描述不統一,可能的誤操作造成很多空數據等問題。另一方面,從實驗科學性與準確性的角度出發[19],這里選取病例數大于10的疾病進行試驗。對篩選后的2178條病例先規范描述,再根據一定的空值處理原則進行空值處理。

第三步:建立符合算法要求的疾病癥狀表

由于數據表是文本格式,不利于特征權重算法MAPTF-IDF統計數據。首先,根據676種癥狀建立疾病癥狀新表,該表的字段名依次為病例號、疾病名、676種癥狀無序排列。然后,逐條提取2178條病例的癥狀與新表的各個癥狀進行匹配,如果病例癥狀在新表的癥狀字段有出現,則將該病歷號、疾病名插入到新表中,同時在對應的癥狀列數值處標記為1。最終形成符合算法要求的01格式的970條病例數據表。表1、表2分別是原始疾病癥狀表和規范疾病癥狀表:

圖5 數據預處理流程

表1 原始疾病癥狀表

表2 規范疾病癥狀表

2.2 基于改進的MAPTF-IDF詞頻統計模型算法實現

算法 基于改進的MAPTF-IDF詞頻統計算法

輸入:疾病癥狀數k;疾病種數N

輸出:疾病癥狀的權重W

例2:詳細描述基于改進的MAPTF-IDF詞頻統計模型算法在表2所給數據集上的計算過程,同時給出原模型TF結果計算表。

(2)計算IDF,IDF=log(N/n)。其中N指病例庫中疾病種數,n指出現某癥狀的疾病種數。

圖6 基于改進的MAPT F-IDF算法流程圖

表3 癥狀權重結果表

表4 原模型TF結果表

從表4看出,針對黃疸這種疾病,浮腫癥狀在3條病例中的TF值分別為1/3、1/2、1/3,這就出現了同種疾病同種癥狀有不同癥狀頻率的矛盾,這也是對前面從TF角度考慮論證的一個舉例補充說明。綜合分析,使用歸類的改進MAPTF-IDF詞頻統計模型能達到更好的實驗效果。

3 實驗結果及分析

實驗統計分析了霍亂、厥證、痹證、淋證、哮喘、失眠、咳嗽、便秘、瘧疾、痢疾、中風、中暑、水腫、黃疸、虛勞等106種疾病,與臨床診療經驗相符合的有84種,準確率達79.2%。20.8%的實驗結果與實際不符,主要表現在3方面:(1)疾病癥狀權重分布表中某些疾病的顯著特征癥狀被遺漏;(2)疾病癥狀權重表中出現某些罕見癥狀;(3)極少數癥狀權重排序與臨床實踐結果不符。仔細分析原始數據,數據預處理過程以及算法實現過程,發現原始數據仍存在命名不規范、病例記錄不清楚、癥狀表述有歧義等問題,在數據預處理過程中,病例記錄中的癥狀與規范癥狀匹配精度不夠高。針對上述一些列問題,規范原始數據,優化數據預處理過程仍是下階段的研究重點。

原始TF-IDF模型與改進的MAPTF-IDF統計模型試驗結果對比如表5所示。

表5 試驗結果對比表

實驗表明:改進后的MAPTF-IDF詞頻統計模型要優于原始模型,利用改進后的模型對病例庫進行統計分析,挖掘出的疾病癥狀權重具有很高的準確率。

4 結束語

評價診斷試驗的科學性主要看其靈敏度和特異度[20],如果按每種疾病單獨統計,沒有考慮如何在疾病之間鑒別,根據這些癥狀權重把病人歸入某種疾病。這樣指定的診斷標準[21]雖有很好的敏感度,但特異度很低,因而誤診率就很高[21]。例如胡立勝用Delphi法[22]建立的抑郁癥常見中醫癥候診斷標準中,其中“情緒抑郁”一癥,多數專家認為在各疾病辨證中都很重要,按照百分權重法統計,結果情緒抑郁在各疾病的診斷中權重都很大。而實際上如果一個癥狀在各個疾病中都很重要,那就意味著它沒有鑒別意義,特異性差,不應該有很大的權重。把各疾病中都很常見的癥狀賦予很大的權重,而事實上這些癥狀對辨別疾病并沒有什么貢獻。

采用MAPTF-IDF文本挖掘算法來計算疾病癥狀的權重[23],MAPTF代表癥狀在疾病中出現的頻率,反映了靈敏度,IDF代表癥狀在各個疾病中出現的頻率,反映了特異度。癥狀權重由兩者共同決定,既能反映癥狀的靈敏度同時也考慮了癥狀的特異度,因此是一種比較科學的方法[24]。

由于不同主治醫生對癥狀和疾病名稱的描述不同,導致不規范數據產生,在一定程度上影響了癥狀對于疾病重要程度研究的效果[25]。另一方面,由于規范后的疾病癥狀表中同時處理的癥狀約676種,而實際疾病的常見癥狀遠少于這個數字,導致計算效率不高。如果能在實驗進行之前先對數據進行降維操作,可以極大提高運算效率,這一問題仍需要下一階段的工作來完成。

致射:感謝成都市科技計劃項目(12DXYB100JH-002);成都信息工程學院中青年學術帶頭人科研基金(J201208,J201101);成都信息工程學院引進人才項目KYTZ201110,KYTZ201111)對本文的資助

[1] 王天芳,李洪娟.關于改進中醫診斷學“問診”內容與方法的思考[J].中醫教育,2004,(1):52-54.

[2] 魏睦新,胡平.再探中醫科學性[J].當代醫學,2009,(6):141-142.

[3] 李晶,杜彩鳳.中醫診斷學臨證思維訓練模式初探[J].中醫教育,2011,(1):31-33.

[4] 酈永平,溫淑云.中醫證候量化研究的理論探討[J].中醫雜志,2008,(8):677-679.

[5] 由松.中醫癥狀及證候的量化方法探討[J].北京中醫藥大學學報,2002,(2):13-15.

[6] 郭小青,韓麗萍.中醫癥狀診斷的意義探析[J].中醫藥學刊,2004,(9):1758-1759.

[7] 施聰鶯,徐朝軍,楊曉江.TFIDF算法研究綜述[J].計算機應用,2009,(S1):167-170.

[8] 羅欣,夏德麟,晏蒲柳.基于詞頻差異的特征選取及改進的TF-IDF公式[J].計算機應用,2005,(9):2031-2033.

[9] 張保富,施化吉,馬素琴.基于TFIDF文本特征加權方法的改進研究[J].計算機應用與軟件,2011,(2):17-20.

[10] 徐鳳亞,羅振聲.文本自動分類中特征權重算法的改進研究[J].計算機工程與應用,2005,(1):181-184.

[11] 景麗萍,黃厚寬,石洪波.用于文本挖掘的特征選擇方法TFIDF及其改進[J].廣西師范大學學報(自然科學版),2003,(1):142-145.

[12] 姜遠,周志華.基于詞頻分類器集成的文本分類方法[J].計算機研究與發展,2006,(10):1681-1687.

[13] 徐文海,溫有奎.一種基于TFIDF方法的中文關鍵詞抽取算法[J].情報理論與實踐,2008,(2):298-302.

[14] 張玉芳,彭時名,呂佳.基于文本分類TFIDF方法的改進與應用[J].計算機工程,2006,(19):76-78.

[15] 殷鑫,李惠芹.中醫診斷學癥狀規范化的研究[J].陜西中醫學院學報,2007,(6):7-8.

[16] 張學虹,鄒圣容,蔣永光.中醫癥狀規范研究中的問題及解決思路[J].中國民族民間醫藥,2009,(21):46-47.

[17] 任玉蘭,曾芳,趙凌,等.研制針灸臨床循證診療決策支持系統的思考[J].針刺研究,2009,(5):349-352.

[18] 任玉蘭,梁繁榮,吳曦,等.基于數據挖掘的針灸臨床循證決策支持系統研究[J].中華中醫藥雜志,2011,(4):795-797.

[19] 黃碧群.中醫癥狀標準化的必要性[J].中華中醫藥雜志,2011,(3):429-432.

[20] 薛飛飛,陳家旭.數據挖掘在中醫診斷學中的應用[J].中醫雜志,2009,(3):200-202.

[21] 朱海峰,陳雪功.中醫診斷客觀化研究的現狀和展望[J].甘肅中醫,2007,(6):10-13.

[22] 吳崇勝,陳家旭,胡立勝.Delphi法建立中醫證候診斷標準中權重系數確定法新探——雙百分法[J].中國中醫基礎醫學雜志,2006,(4):254-255.

[23] 劉里,何中市.基于關鍵詞語的文本特征選擇及權重計算方案[J].計算機工程與設計,2006,(6):934-936.

[24] 鄭淑美,胡立勝,李友林,等.淺談中醫癥狀量化的運用[J].中國中醫藥信息雜志,2008,(6):89-90.

[25] 閆麗芳.試論中醫癥狀的規范[J].世界中西醫結合雜志,2008,(7):427-428.

猜你喜歡
癥狀模型
一半模型
Don’t Be Addicted To The Internet
保健醫苑(2022年1期)2022-08-30 08:39:40
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
預防心肌缺血臨床癥狀早知道
可改善咳嗽癥狀的兩款藥膳
3D打印中的模型分割與打包
夏季豬高熱病的癥狀與防治
獸醫導刊(2016年6期)2016-05-17 03:50:35
FLUKA幾何模型到CAD幾何模型轉換方法初步研究
主站蜘蛛池模板: 婷婷久久综合九色综合88| 8090午夜无码专区| 巨熟乳波霸若妻中文观看免费| 福利一区在线| 91小视频在线观看免费版高清| 无码高潮喷水在线观看| 99精品一区二区免费视频| 精品国产免费观看| 亚洲一道AV无码午夜福利| 欧美久久网| 五月天综合婷婷| AV不卡国产在线观看| 国产精品综合色区在线观看| 日韩av电影一区二区三区四区| 亚洲欧美成aⅴ人在线观看| 国产一区成人| 国产浮力第一页永久地址| 国产超薄肉色丝袜网站| 亚洲中文字幕无码爆乳| 波多野结衣久久高清免费| 国产高清免费午夜在线视频| 亚洲欧美成人在线视频| 五月激情综合网| 国产黄色免费看| 毛片免费高清免费| 国产亚洲精品97在线观看| 亚洲女人在线| 国产三级毛片| 欧美精品一区在线看| 亚洲久悠悠色悠在线播放| 呦系列视频一区二区三区| 91无码人妻精品一区| 国产成人成人一区二区| jizz在线观看| 亚洲欧美在线看片AI| 亚洲精品人成网线在线| 亚洲大尺度在线| 欧美成人aⅴ| igao国产精品| 亚洲福利网址| 第一页亚洲| 精品欧美视频| 久草热视频在线| 中文天堂在线视频| 国产成人无码久久久久毛片| 亚洲手机在线| 五月天综合婷婷| 久久成人国产精品免费软件| 国产免费精彩视频| 伊人色在线视频| 亚洲国产成人精品无码区性色| 一级一毛片a级毛片| 国产黄网永久免费| 日本亚洲国产一区二区三区| 欧美日韩中文字幕在线| 国产另类视频| 黄色网页在线观看| 国产午夜福利在线小视频| 色综合网址| 国产在线视频导航| 国产va在线观看| 久久精品午夜视频| 国产玖玖玖精品视频| 人妻一本久道久久综合久久鬼色| 久久香蕉国产线看观看精品蕉| 最新国产高清在线| 精品福利视频网| 精品在线免费播放| 国产精品人成在线播放| 久久九九热视频| 国产性精品| 国产成人精品18| 国产精欧美一区二区三区| 欧美综合激情| 免费国产好深啊好涨好硬视频| 伊人久久青草青青综合| 国产精品天干天干在线观看 | 在线视频97| 国产国产人在线成免费视频狼人色| 欧美一级一级做性视频| 综合网天天| 国产午夜福利片在线观看|