999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于異質關聯網絡的辨證規律挖掘方法設計及應用*

2020-03-13 03:09:18高佳奕陶妍心史話躍胡孔法
世界科學技術-中醫藥現代化 2020年6期
關鍵詞:關聯肝癌規則

于 婧,張 寧,楊 濤**,高佳奕,陶妍心,史話躍,胡孔法

(1. 南京中醫藥大學人工智能與信息技術學院 南京 210023;2. 南京中醫藥大學中醫學院·中西醫結合學院南京 210023;3. 南京中醫藥大學第一臨床醫學院 南京 210023)

1 引言

辨證論治是中醫診治疾病的基本理論和思維方法[1],其中辨證是臨床立法、處方和用藥的基礎和前提,辨證準確與否直接關乎臨床藥效的好壞。名老中醫臨床經驗豐富,臨床思維活躍,辨證靈活準確,臨床療效顯著。如何分析挖掘名老中醫的辨證思維成為中醫傳承與發展的重要內容[2]。隨著中醫藥信息化的發展,中醫電子病歷已經在醫院普及,名老中醫的臨床醫案由傳統的紙質形式轉變為電子形式,這為名老中醫的經驗挖掘提供了數據基礎。越來越多的數據挖掘方法被應用到名老中醫經驗傳承中,常見的挖掘辨證規則方法有頻數分析[3-4]、關聯規則[5-6]、因子分析[7-8]、聚類分析[9-10]、復雜網絡[11-12]等,其中關聯規則應用最為廣泛[13]。

關聯規則在中醫藥領域的應用研究可以分成兩大類,一類就關聯規則算法進行具體應用,如王慶[14]等人利用關聯規則分析干燥綜合征的證素組合規律,通過證候組合進一步分析了中醫證候分布特征和規則;潘樹芳[15]等人利用Apriori算法歸納總結范忠澤教授治療腸癌的辨證思路,根據舌苔、脈象及癥狀進行辨證分型后對證候要素進行關聯分析,挖掘出了證候與癥狀的對應關系;史話躍[16]等人借助關聯規則探明了肝癌不同證候與病位病性的相關性。上述研究多為對傳統關聯分析算法(如Apriori、Fp-growth)的初步應用,尚未深入中醫問題進行方法設計和優化。另一類研究便是對傳統方法的優化與改進,部分學者認識到傳統關聯分析算法的效率問題,提出了一些改進算法,例如,董國華[17]基于計算機對位串邏輯運算的快速反應,提出改進算法Apriori-BSO,挖掘了哮喘病的診斷規律;王世潁[18]通過約束Apriori 的頻繁項集挖掘高原常見病慢性萎縮性胃炎的癥狀特征,使挖掘結果更有實際意義;梁慶[19]等人改進了一種基于關系數據庫多維數值關聯規則算法,使算法的執行效率得到大幅提高,并在中醫溫癥病案信息挖掘中進行應用。這些研究對中醫辨證規律進行了有益探索,但在中醫辨證規律研究中,癥狀、證素(病位和病性)、證型具有異質性,而關聯規則中的不同項集地位平等,導致冗余規則較多,采用傳統方法無法高效解決異質項集的分析問題。因此,如何設計新方法高效解決“癥狀-證素-證型”之間的組合規律發現問題值得深入研究。

鑒于此,本文提出一種以矩陣運算為基礎,以聯合度為評價指標的異質關聯網絡(Heterogeneous Associated Network,HAN)算法,用以解決“癥狀-證素-證型”兩兩元素之間的組合規律發現問題。為了驗證算法的有效性,將HAN算法與經典的關聯分析算法Apriori 進行比較,分別對1164 條肝癌醫案進行挖掘,分析二者的挖掘結果差異。

2 異質關聯網絡算法

令Z 表示癥狀輸入集合(即在醫案樣本中所有出現的癥狀數據),W 表示病位輸入集合(即在醫案樣本中所有出現的病位數據),Z ={z1,z2,z3,…,zm}表示有m 種不同的癥狀,W ={w1,w2,w3,…,wn}表示有n種不同的病位。假設一條中醫醫案數據集為T ={(Zi,Wj,Xp,Jq)|i ∈[1,m],j ∈[1,n],p ∈[1,P],q ∈[1,Q]},其中Zi?Z是由若干癥狀組成的Z子集,Wj?W是由若干病位組成的W 子集,Xp?X 是由若干病性組成的X 子集,Jq?J是由若干基礎證組成的J子集。記總醫案樣本為S ={Tk|k ∈[1,N]},其中Tk?T 是一條醫案數據,N為樣本中醫案總數。關聯網絡算法是為了從醫案樣本S 中提取若干異構元素間組合規則(Zi→Wj),(Zi→Xp),(Zi→Jq),(Wj,Xp→Jq),如“乏力→肝,脾”,作為輸出結果,其中Zi?Z,Wj?W,Xp?X,Jq?J,以此探析肝癌辨證規律(計算過程如圖1所示)。

2.1 聯合度

圖1 HAN計算過程

圖2 0-1矩陣構造示例

定義聯合度(Unite Degree,Ud)作為關聯網絡算法中有向組合規則xi→Yj的提取依據,聯合度表示有向組合前后元素共同出現的概率,計算方法是前項元素概率和多組二項組合條件概率之積。該值越大,則相關性越大,其定義如下:

其中,f(x)表示x 在樣本S 中出現的頻數,f(x,yk)表示x,yk在樣本S中同時出現的頻數,N表示樣本S總數。

2.2 算法計算過程

(1)構建證0-1矩陣

掃描醫案數據庫,提取原始醫案關鍵信息,得到所有的“癥狀”“病位”“病性”“基礎證”元素集合。假設癥狀集Z ={z1,z2,z3,…,zm}為m 種不同的癥狀,病位集W ={w1,w2,w3,…,wn}為n 種不同的病位,以癥狀-病位為例,可以構建相應的0-1矩陣,其中每一行代表一條醫案,每一列代表不同的癥狀和病位(見圖2)。

(2)篩選二元規則

遍歷0-1矩陣A、B的每個元素zi,wj,zi∈Z,wj∈W,將矩陣中兩列元素對應相乘后求和計算出兩元素的共現頻率f(zi,wj),設定頻數閾值min f,認定f(zi,wj)≥min f的規律“zi→wj”為有效二元規則(見圖3)。

(3)聚合二元規則得到有向組合規則

得 到 若 干 二 元 規 則(如xi→yj1、xi→yj2、xi→yj3),合并相同前項元素規則的后項元素,聚合得到組合規則xi→yj1yj2yj3。計算所有組合規則的聯合度,并以聯合度作為評價指標對組合規則進行排序。聯合度定義如下:

根據這一定義對圖2 示例規則進行篩選,最終得到“Z1→W1,W4”“Z2→W2”“Z3→W1,W2”“Z4→W1,W3”“Z5→W4”“Z6→W1”。

(4)繪制關聯網絡圖

將獲得的組合規則前項元素構成集合S,后項元素構成集合T,S 和T 共同構成關聯網絡圖的節點集合V ={v1,v2,…,vi},二元規則構成網絡圖的邊集合如E ={(v1,v2),(v1,v3),…,(vm,vn)}。由此構成關聯網絡圖G =(V,E),上述示例的可視化結果見圖4,其中V 為結點集合,E為邊集合。

3 實驗及結果分析

3.1 數據來源及預處理

3.1.1 數據來源

本文所有醫案數據來源于南京中醫藥大學附屬醫院江蘇省中醫院病案庫,共收集肝癌醫案1164例。

3.1.2 納入標準及剔除標準

納入標準:原發性肝癌確診患者。

剔除標準:非原發性肝癌確診患者;具有心、腎、肺等嚴重疾病的患者。

3.1.3 數據預處理

由于原始肝癌醫案數據存在表述口語化、術語不統一等問題,因此需要對醫案進行規范化預處理。將所有符合條件的醫案數據錄入到Microsoft Excel中,每一行為一條醫案數據,每一列為癥狀、證素或證型數據項,同時對數據項進行規范化和標準化。如將“倦怠乏力”標準化為“倦怠”和“乏力”,將“濕熱”拆分為“濕”和“熱”,將復合證型“肝腎陰虛證”統一為“肝陰虛證”和“腎陰虛證”,從而得到最終的標準化醫案樣本數據。

圖3 二元規則篩選(min f = 2)

圖4 繪制關聯網絡

3.2 實驗過程

為了評價HAN 算法的有效性,將HAN 與傳統的數據挖掘Apriori 算法進行對比。第一步,采用Apriori算法對肝癌醫案數據進行分析,設定不同參數,觀察規則數量變化,選擇合適的參數提取出潛在的關聯規則;第二步,利用HAN算法對肝癌醫案數據進行分析,觀察不同參數下結果的數量變化,選擇合適的參數分析“癥狀-證素(病位和病性)-證型”兩兩之間的關系,繪制相應的有向網絡圖;第三步,將兩種算法進行對比,結合中醫基礎理論判斷兩種算法結果的準確性。

3.3 實驗結果

3.3.1 Apriori實驗結果

(1)將每條包含癥狀、病位、病性、證型的醫案作為一條數據集,設定最小支持度為0.06,共提取出1293 個頻繁項集。置信度從0.0 至1.0 共取十一個值,將置信度作為橫坐標,提取規則數作為縱坐標。置信度為0 時,提取出18493 條規則,隨著置信度閾值的提高,提取的規則隨之減少,閾值最高為1.0 時,提取規則數為828條,具體提取結果分布見圖5。

(2)置信度閾值為1.0時,共提取828條關聯規則,提升度位于前20 的規則見表1。其中,提升度位于前20 的規則中大部分都與癥狀“目黃”“身黃”“小便黃”相關,且與之相關的證素以病位“肝”“膽”“脾”和病性“濕”“熱”為主。“乏 力”“倦 怠”“腹脹”等癥狀,“氣虛”“濕”“熱”等病性也為常見。

圖5 Apriori算法潛在規則提取結果折線圖

表1 Apriori算法關聯規則提取結果(Top20)(min Sup = 0.06,min Conf = 1.0)

3.3.2 HAN算法結果

(1)共現頻率取0.0至1.0,步長0.1,將共現頻率作為橫坐標,提取組合規則數作為縱坐標。共現頻率閾值為0 時,提取出2321 條組合規則,閾值設為0.1 時,提取出39條規則,當閾值大于0.4時,規則數為0,提取結果分布見圖6。

(2)篩選二元規則時設定共現頻率閾值為0.1,將二元規則進一步聚合后得到“癥狀→病位”“病位→病性”“癥狀→基礎證”“病位,病性→基礎證”的組合規則(表2)。計算出組合規則之后,以可視化的形式繪制關聯網絡圖,得到圖7的結果,從而直觀地體現關聯網絡算法對異構元素關系的提取結果。

圖6 HAN算法潛在組合規則提取結果折線圖

表2 HAN算法提取結果(Top20)

由實驗結果可以看出,肝癌在癥狀方面以“乏力”“納差”“倦怠”“腹脹”“目黃”“小便黃”等較為常見;病位以“肝”“脾”“膽”較為常見;病性以“濕”“熱”“瘀”“氣虛”“血瘀”較為多見;證型以“腎陰虛證”“脾氣虛證”“肝血瘀阻證”為主。在癥狀與病位的相關性方面,“乏力”“納差”“倦怠”等癥狀多同時與病位“肝”“脾”關聯密切,“身黃”“目黃”“小便黃”等癥狀多同時與“肝”“膽”相關性大;在癥狀與病性的相關性方面,多數癥狀與“濕”“熱”“瘀”相關;在癥狀與證型的相關性方面,“倦怠”“乏力”等癥狀與“肝血瘀阻證”“脾氣虛證”密切相關;在證候與證型相關性方面,以“腎,瘀,痰,血瘀,氣虛→肝血瘀阻證”“脾,氣滯,氣虛→脾氣虛證”“腎,陰虛→腎陰虛證”為主。

圖7 HAN關聯網絡圖

3.4 結果討論及分析

(1)從兩種算法的分析效率看:傳統Apriori 算法通過頻繁項集生成關聯規則,此過程多次循環遍歷數據庫,具有很高的時空復雜度,耗費大量的時間和空間內存,過程十分繁雜。而HAN 算法基于矩陣運算,將醫案中共同出現的多種證拆分成單個證的0-1 矩陣,通過一次遍歷即可獲取異構元素間有效二元規則,再利用聯合度作為聚合規則指標提高結果純度,避免了重復掃描數據庫的過程,極大地提高了提取效率。

(2)從兩種算法的分析精度看:Apriori 算法提取結果冗余度高。以置信度為規則篩選標準時,提取的規則最多達18493 條,隨著置信度閾值的逐漸增大規則逐漸減少,而當置信度閾值為1.0 時,仍有828 條關聯規則(圖4)。其中存在大量無效規則和冗余規則,如“身黃,小便黃,脾→濕,膽”,其左項既有癥狀“身黃,小便黃”,又有病位“脾”,兩類元素混雜,不利于中醫辨證規律的提取,屬于無效規則;又如“小便黃,身黃→膽,肝”、“小便黃,身黃→膽”兩條規則,前一條規則更好地反映了中醫辨證的規律,其內涵要大于后一條規則,因而“小便黃,身黃→膽”則為冗余規則。而HAN 算法以聯合度為標準對二元規則聚合后進行排序,更精準地體現組合規則的相關程度。因此,提取結果都為有效二元規則的聚合結果,故不存在重復規律,具有較高的提取精度,每條結果都為異質元素之間的關系,即前后項分別屬于不同類型的元素,更好地展示了“癥狀、證素、證型”兩兩之間的相關性。

(3)從兩種算法的分析結果看:Apriori 算法提取的關聯規則前后項存在多種元素混雜的情況,需人工進一步篩選。如規則“氣虛,倦怠,腹脹→脾,乏力”雖是符合閾值條件的篩選結果,但前后項同時包含癥狀和證素,無法判斷此結果代表的是“癥狀→證素”還是“證素→癥狀”的相關性。且由于實驗數據集中基礎證數據較其他證數據偏少,經過多次實驗,僅當最小支持度設為低于0.04 時,提取結果中才出現基礎證的相關規則,因此根據支持度閾值篩選頻繁項集時很可能將基礎證過濾,而支持度閾值低于0.04 時關聯結果中存在大量冗余規則,故關聯規則中參數閾值的設定是決定結果準確性的重要標準,尋求最合適的閾值也成為難點之一。而HAN 提取結果冗余度低、準確度高,結果既與中醫基礎理論一致,也為臨床所常見。同時關聯網絡圖直觀展現了各證之間的規律,具有較強的辨識度。肝的疏泄作用與脾胃的運化功能和膽汁的分泌排泄有著密切關系。肝失疏泄,會影響脾胃的升降及膽汁的排泄機能,常出現肝氣乘犯脾胃及膽汁預計不暢的病變。故肝癌患者多見腹脹、納呆惡食等消化道癥狀,此類癥狀多與病位“肝”“脾”同時相關,如“納呆→脾”“腹脹→脾”等規律(圖6)。同時肝膽失疏,膽汁外溢肌膚,可見目黃、身黃,此類癥狀多與病位“肝”“膽”相關,如“身黃→膽,肝”“小便黃→脾,膽,肝”“目黃→脾,膽,肝”等規律(圖6)。肝癌病機總屬本虛標實,本虛是肝癌發生發展的主要因素,以脾氣虛為主;標實包括氣滯、血瘀、痰、濕、熱等,其中瘀、痰是肝癌的主要病理產物。因此,肝癌癥狀多與標實的病性相關,如圖7 所示“倦怠→瘀,氣虛,濕,血瘀”“目黃→熱,濕,熱”等規律。亦與“脾氣虛”等本虛證型相關,如圖8中“倦怠→肝血瘀阻證,脾氣虛證”“便溏→脾氣虛證”等規律。肝主疏泄,氣能行津運血,若氣機郁結,則血運不暢,血液瘀滯停聚為淤血、癥積,形成水濕痰飲等病理產物,痰瘀膠結于肝不僅影響肝臟本身的生理功能,還影響其他臟腑的生理功能。如圖9“脾,氣滯,氣虛→脾氣虛證”“腎,瘀,痰,血瘀,氣虛→肝血瘀阻證”等組合規律。

綜上所述,HAN 算法將復雜的異質規則挖掘問題轉化為簡易的矩陣和概率運算,相較于傳統的Apriori算法,具有運算高效、分析準確、挖掘結果直觀等優點。HAN 算法以分析醫案中異質元素的相關性為目標,以矩陣運算為基礎,以聯合度為評價指標,構建“癥狀-證素-證型”異質關聯網絡,并生成相應的規則和可視化網絡圖,能夠直觀地挖掘出醫案中癥狀、證素、證型之間的潛在關系,可以為名老中醫臨床經驗挖掘提供方法參考。

4 結語

從海量的中醫臨床數據中挖掘名老中醫臨床診療經驗是中醫現代化傳承的重要內容,建立符合中醫數據特點的挖掘方法是該項工作的關鍵。本文通過分析中醫辨證的特點,提出了異質關聯網絡HAN這一辨證規律挖掘算法,將異質元素之間的潛在關系轉化為兩兩元素之間的有向組合規則,以矩陣運算為基礎,利用共現頻數和聯合度篩選出有效組合規則。為了驗證算法的有效性,將HAN與經典的關聯分析算法Apriori 進行比較,對肝癌醫案的辨證規律進行分析,結果顯示HAN 具有具有運算高效、分析精準、挖掘結果直觀等優點。HAN 算法的提出可以為中醫辨證規律研究提供方法支撐,實現信息時代名老中醫臨床診療經驗的數字化傳承。

猜你喜歡
關聯肝癌規則
撐竿跳規則的制定
“苦”的關聯
當代陜西(2021年17期)2021-11-06 03:21:36
數獨的規則和演變
LCMT1在肝癌中的表達和預后的意義
奇趣搭配
讓規則不規則
Coco薇(2017年11期)2018-01-03 20:59:57
智趣
讀者(2017年5期)2017-02-15 18:04:18
TPP反腐敗規則對我國的啟示
microRNA在肝癌發生發展及診治中的作用
Rab27A和Rab27B在4種不同人肝癌細胞株中的表達
主站蜘蛛池模板: 亚洲一区二区三区中文字幕5566| 久久青草热| 国产区在线看| 四虎永久在线精品国产免费| 性视频久久| 福利视频一区| 亚洲天堂网2014| 午夜a视频| 亚洲三级片在线看| 久久综合结合久久狠狠狠97色| 嫩草在线视频| 拍国产真实乱人偷精品| 国产精品视频猛进猛出| 91精品aⅴ无码中文字字幕蜜桃| 欧美精品亚洲精品日韩专区| 57pao国产成视频免费播放| 国产亚洲欧美日本一二三本道| 亚洲三级视频在线观看| www精品久久| 国产欧美日本在线观看| 手机在线免费毛片| 国产精品亚洲五月天高清| 亚洲欧美成人影院| 被公侵犯人妻少妇一区二区三区| 中文无码精品A∨在线观看不卡| 国产嫩草在线观看| 亚洲第一天堂无码专区| 亚洲色图综合在线| 黄色不卡视频| 91小视频版在线观看www| 丝袜美女被出水视频一区| 亚洲精品成人片在线观看| 亚洲精品无码抽插日韩| 国产精欧美一区二区三区| 色综合色国产热无码一| 亚洲欧洲综合| 欧美无专区| 成人综合网址| 国产精品一区二区国产主播| 亚洲国产天堂久久综合226114| 在线观看av永久| 在线国产你懂的| 国产午夜无码专区喷水| 久久精品波多野结衣| 在线人成精品免费视频| 色欲国产一区二区日韩欧美| 国产精品夜夜嗨视频免费视频| 国产精品美人久久久久久AV| 91精品国产一区| 日本成人精品视频| 久久精品这里只有精99品| 国产亚洲高清在线精品99| 精品无码一区二区三区在线视频| 日韩专区欧美| 国产精品手机在线播放| 国产成人乱无码视频| 无码精品一区二区久久久| 亚洲综合中文字幕国产精品欧美| 国产95在线 | 四虎影视永久在线精品| 国产原创第一页在线观看| 日本久久久久久免费网络| 久久频这里精品99香蕉久网址| 国产无遮挡猛进猛出免费软件| 婷婷六月天激情| 亚洲男人天堂网址| 欧美亚洲国产日韩电影在线| 欧美在线导航| 欧美成人A视频| 日韩在线1| 中文成人在线| 日韩免费无码人妻系列| 亚洲日韩AV无码精品| 国产欧美在线观看精品一区污| 自拍偷拍欧美| 国产超薄肉色丝袜网站| 亚洲日韩AV无码一区二区三区人 | 99久久国产精品无码| 国产欧美日韩91| 久久精品一品道久久精品| 国产综合色在线视频播放线视| 老司国产精品视频91|