999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于gSpan改進算法的中醫辨證論治模式挖掘研究

2021-11-01 06:04:32任晉宇白琳周志陽馮睿智鐘華
中國中醫藥信息雜志 2021年10期
關鍵詞:脈象特征癥狀

任晉宇,白琳,周志陽,馮睿智,鐘華

中醫藥信息學

基于gSpan改進算法的中醫辨證論治模式挖掘研究

任晉宇1,白琳1,周志陽1,馮睿智2,鐘華1

1.中國科學院軟件研究所,北京 100190;2.四川大學華西醫院,四川 成都 610041

擴展經典的頻繁子圖挖掘算法以獲得在中醫學科中表現更好的數據挖掘效果,從而得出隱含在中醫病案中的辨證論治模式。結合中醫病案數據特征,擴展經典的圖挖掘算法,對多個癥狀屬性分別設置最小支持度閾值參數,再用擴展后的基于多重最小支持度的數據挖掘算法對數據集中蘊含的辨證論治模式進行挖掘。對3 319條慢性阻塞性肺疾病(急性加重期)真實病案數據應用擴展的頻繁子圖挖掘算法,得到一系列該病相關的八綱辨證模式。與經典算法相比,擴展算法挖掘得到的辨證模式在模式維度和數量方面均明顯提升。擴展后的頻繁子圖挖掘算法能夠運用于中醫辨證論治模式的挖掘,發現病案中隱含的辨證規律,且在模式完備性上具有比原始算法更好的效果。

模式挖掘;頻繁子圖;多重最小支持度;辨證論治模式

數據挖掘是從數據集中發現潛在的、隱藏的歸納性知識的一種方法,能在紛繁的數據中獲得具有代表性、可信度高的信息。傳統的分類、聚類等數據挖掘算法主要針對簡單類型數據進行挖掘。對于圖這種計算機科學中通用的數據結構,普通數據挖掘算法難以應對其內部錯綜復雜的頂點之間的關系[1]。為解決這一問題,圖數據挖掘應運而生,并且已經成為數據挖掘領域的基礎性研究問題,特別是頻繁子圖挖掘方向引起了廣泛關注。頻繁子圖挖掘的目的是找到在圖集中頻繁出現的子圖模式,所得結果集可應用于相似性搜索[2-3]、圖聚類和分類[4-6]、圖索引[7-8]等諸多場景[9],其需求推動著該領域高速發展[10-11]。

中醫名家的診療經驗難以客觀化,限制了中醫的傳承和發展,因此構建標準化的信息系統以輔助診斷尤為重要。中醫理論體系中,多種辨證論治模式紛繁復雜,一般的數據結構難以表達模型中的復雜關系。本研究結合圖挖掘理論,改進經典的圖挖掘算法,將中醫診療數據隱含的診斷模式視作一個圖以簡化問題,以中醫思維理念模型為基礎,融合八綱辨證知識,將每一個病案信息建模為一個圖結構,在這些圖構成的數據集中挖掘頻繁子圖,分析所得結果中目標病癥的診治規律,從而得出中醫辨證論治模式,以期為大數據驅動的中醫智能輔助診斷系統提供核心服務。

1 基本概念

根據數據挖掘理論,頻繁出現的圖結構包含可利用的、高價值的信息,頻繁子圖挖掘即在多個圖構成的圖集中尋找頻繁出現的圖結構。本研究基于性能較優的gSpan算法進行擴展,從而提升算法對中醫病案數據集的挖掘效果。

1.1 圖及相關概念形式化定義

1.1.1 標記圖

標記圖是邊和頂點均帶有標簽的圖,可以表示為五元組=(,,,,)。式中,是圖的非空頂點集合,是圖的非空邊集合,和分別是圖的頂點標簽集合和邊標簽集合,為→、→的映射關系。

1.1.2 子圖

標記圖1=(1,1,1,1,1)是標記圖2=(2,2,2,2,2)的子圖,當且僅當①1?2,1?2;②?∈1,1()=2();③?(,)∈1,1(,)=2(,),記作1?2。

1.1.3 子圖同構

設有標記圖1=(1,1,1,1,1)與標記圖2=(2,2,2,2,2),如果存在一個1到2的雙射函數:1→2,且滿足1=<1i,1j>是圖1的一條邊,則稱1與2同構,記作1≌2;如果存在1≌2且2?,則稱1子圖同構于。

1.1.4 支持度

1.1.5 頻繁子圖

給定一個圖集合={1,2,…,G}和最小支持度閾值∈(0,1],如果圖G是頻繁的,當且僅當(,)≥。

2 算法描述

2.1 原始算法

gSpan算法基于深度優先搜索思想和最右路徑擴展方法,并通過逐步擴展頻繁邊而生成頻繁子圖。gSpan算法對訪問過的頂點集合反復擴展,從而建立一個深度優先搜索樹。由于gSpan算法擴展時只對最小的DFS(深度優先搜索)編碼進行最右擴展,因而有效減少了復制圖的產生[12],借此提高了挖掘效率。算法及子程序如下:

2.2 擴展算法

原始的gSpan算法設置統一的最小支持度參數,挖掘結果為在圖集中出現頻率大于該支持度的所有頻繁子圖。將gSpan算法應用于中醫學具體問題時,由于各癥狀值域分布范圍不同,造成某些癥狀特征因值域范圍廣而出現概率低的情況。以中醫癥狀屬性“脈象”為例,其取值包括沉、滑、弱、澀、細、遲、緩、軟、弦、數、疾、緊、濡、穩、代、弦、促、浮、洪、結、平等數十種。我們將癥狀屬性連同其某個取值合稱為一個癥狀特征,如“脈象沉”“脈象滑”。如果對全部癥狀特征都設置相同的最小支持度參數,會使因值域范圍廣而出現概率低的癥狀特征被視為低頻特征,在模式挖掘過程中被過濾掉,而這些特征有可能是辨證論治的關鍵特征,將其過濾掉可能造成辨證論治模式完備性的缺失。因此,采用擴展的gSpan算法,結合癥狀屬性值域范圍和數值分布特征,為每個癥狀屬性分別設置單獨的最小支持度參數,實現基于多重最小支持度的辨證論治模式挖掘。算法如下:

3 算法應用

3.1 數據來源與篩選

以慢性阻塞性肺疾病(急性加重期)中醫病案為實驗數據,來源于四川大學華西醫院醫院信息系統,為該院中西醫結合科2011年1月1日-2019年1月31日出院患者病案。由于該病臨床證名繁多,難以統一歸類,而八綱辨證(陰陽、表里、寒熱、虛實)全部為二分類,條目清晰,因此,根據原始中醫辨證結果,結合病歷記載的四診資料,標記出八綱辨證。

納入標準:病案首頁主診斷為慢性阻塞性肺疾病(急性加重期)且記錄完整清晰,包括完整的四診信息和診斷信息。排除標準:①缺失“中醫證候”項;②缺失患者四診描述信息;③“中醫證候”項的值錯填為西醫疾病名。根據納入和排除標準篩選后得到3 319條病案數據,按照八綱辨證進行統計,結果見表1。其中,表證病案僅10條,且相關研究顯示慢性阻塞性肺疾病(急性加重期)患者特別是住院患者表證很少[13-15],故本文不討論表證辨證模式。

表1 3 319條慢性阻塞性肺疾病(急性加重期)病案數據八綱辨證分布

八綱辨證病案數百分比/% 八綱辨證病案數百分比/% 陰證1 92958.1 寒證1 62248.9 陽證1 39041.9 熱證1 69751.1 虛證1 09132.9 表證 10 0.3 實證2 22867.1 里證3 30999.7

3.2 數據預處理

3.2.1 四診信息規范化處理與分詞

為每個癥狀描述信息(即癥狀特征)定義一個標準名稱,對四診信息進行規范化處理,如“脘腹按痛”“脘腹按壓痛”“脘腹按壓疼痛”統一為“脘腹按痛”。分詞是將復雜文本描述的癥狀信息進行拆分,分解為細粒度的最小癥狀描述單位,如“脈象沉弦細數”分詞為“脈象沉”“脈象弦”“脈象細”“脈象數”。

3.2.2 數據建模

根據“1.1”項下定義,每條病案數據對應一個圖結構。病案中表現異常的癥狀屬性與該病案診斷的八綱證型構成圖的頂點集合,癥狀屬性與八綱證型的聯系構成圖中邊的集合,邊的標記為這條邊關聯的癥狀屬性在病案中表現的癥狀特征。

以病案集中第0005號病案為例,癥狀為“惡寒發熱,盜汗,納呆,常口渴,夜間失眠,呼吸氣粗,痰白色黏稠,脈沉”,證候為“痰熱犯肺”,屬陽證。根據建模規則,病案中表現異常的癥狀屬性“寒熱”“汗”“飲食”“口”“睡眠”“呼吸”“痰”“脈象”,以及所屬的八綱證型“陽證”共同構成圖的頂點集合。每個癥狀屬性頂點與證型頂點之間以邊相連。邊的起點為癥狀屬性頂點,終點為證型頂點,表明該癥狀屬性屬于該證型的臨床關聯屬性。“惡寒發熱”“盜汗”“納呆”等癥狀特征作為邊的標記標注在相應癥狀屬性對應的邊上。該病案對應的圖結構見圖1。

3.3 支持度參數設置

依據各癥狀屬性對應的癥狀特征分布情況,對不同癥狀屬性設置不同的最小支持度。統計結果顯示,病案數據的四診信息可通過19個癥狀屬性進行描述,包括“舌苔色”“舌苔質”“飲食”“睡眠”“痰”“脈象”等,同一病案的癥狀屬性最多有17個,最少僅1個,約86%病案的癥狀屬性為5~10個,見圖2。

圖1 病案記錄轉化為圖模型示例

圖2 3 319條慢性阻塞性肺疾病(急性加重期)病案數據癥狀屬性分布

不同癥狀屬性的癥狀特征數量及其出現頻率存在較大差異。“脈象”這一癥狀屬性的癥狀特征數量最多,在八綱證型(陰、陽、虛、實、寒、熱、里7種證型)上表現的特征數量分別為34、27、25、29、36、29、35個;癥狀特征數量最少的是“睡眠”“飲食”“汗”癥狀屬性,均包含2個癥狀特征,分別為“失眠”“嗜睡”、“納呆”“多食易饑”、“盜汗”“自汗”。出現頻率最高的是“舌苔質”屬性對應的“舌苔質薄”,為81.2%。癥狀特征分布較為分散,只有約9%的癥狀特征出現頻率在20%以上,見圖3。

圖3 3 319條慢性阻塞性肺疾病(急性加重期)病案數據癥狀特征出現頻率分布

對每一個癥狀屬性,根據其癥狀特征的出現頻率分布情況,設置最小支持度參數。具體方法:①設δ為挖掘算法的默認最小支持度,為當前癥狀屬性對應的全部癥狀特征頻率的集合;②若min()<δ(即全部為低頻特征),則以δ為當前癥狀屬性的最小支持度參數,過濾全部低頻特征;③若max()>δ(即全部為高頻特征),則以δ為當前癥狀屬性的最小支持度參數,篩選全部高頻特征;④否則,計算中各頻率值的離散程度,若標準差σ()<α,表明各癥狀特征的頻率分布相對集中,取的上四分位數QU()作為當前癥狀屬性的最小支持度參數,篩選優勢特征;否則,中各頻率值分布較為分散,取對排序位置不敏感的平均數AVE()作為當前癥狀屬性的最小支持度參數。其中,α為可設定的閾值。

以“熱證”為例:1 697條病案中,癥狀屬性“舌苔色”的癥狀特征包括“舌苔色黃”“舌苔色白”,頻率分別為52%、48%,設定δ=20%、α=20,則最小支持度參數minSup.舌苔色=20%。類似的,癥狀屬性“脈象”的癥狀特征“脈象滑”“脈象數”“脈象弦”“脈象細”“脈象沉”“脈象弱”“脈象浮”“脈象濡”“脈象虛”“脈象洪”“脈象緩”“脈象代”“脈象澀”“脈象結”頻率分別為48%、48%、22%、19%、10%、5%、4%、2%、1%、1%、1%、1%、1%、1%,標準差σ()=16.22,則minSup.脈象=QU()=17%。

3.4 挖掘結果與分析

表2 原始算法挖掘得到的辨證論治模式數量(不包含子模式)

證型最小支 持度/%模式維度合計 證型最小支 持度/%模式維度合計 二維三維四維五維 二維三維四維五維 寒證10495119 陰證10958022 1511608 15415010 2013408 2011406 2502305 2536009 3033006 3021003 熱證10153011056 陽證1093010150 1517200037 1513182033 201540019 209110020 251010011 25830011 3080008 3090008 虛證1013128033 里證1013185036 1540105 151043017 2015107 20570012 25933015 2551006 3003003 3031004 實證1011248043 151363022 201121014 2563009 3041005

可以看出,采用單一最小支持度進行挖掘,從模式的數量和維度兩方面綜合考慮,參數設置為20%時,挖掘結果最理想。因此,選取20%作為原始挖掘算法的最小支持度參數與擴展算法進行比較,同時將擴展算法中多重最小支持度的默認值δ設置為20%。挖掘結果見表3~表9(辨證論治模式以所包含的癥狀特征表示)。其中,模式的支持度即該模式在當前病案集中的出現頻率。

表3 寒證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色白,舌色淡紅,痰白色}26 minSup=20%{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}26 {舌苔質薄,舌苔色白,舌色淡紅,脈象細}25 {舌苔質薄,舌苔色白,舌色淡紅,脈象數}23 {舌苔色白,舌色淡紅,飲食納呆}21 {舌苔質薄,舌色淡紅,飲食納呆}20 {舌苔質薄,舌苔色白,飲食納呆}20 多重{舌苔質薄,舌苔色白,舌色淡紅,痰白色}26 minSup.睡眠=18%{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}26 minSup.痰=34%{舌苔質薄,舌苔色白,舌色淡紅,脈象細}25 minSup.舌色=50%{舌苔質薄,舌苔色白,舌色淡紅,脈象數}23 minSup.舌苔色=50%{舌苔質薄,舌苔色白,舌色淡紅,飲食納呆}19 minSup.舌苔質=17%{舌苔色白,舌色淡紅,脈象弦}17 minSup.脈象=17%{舌苔質薄,舌色淡紅,脈象弦}17 minSup.其他=20%

表4 熱證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色黃,舌色紅}26 minSup=20%{舌苔質薄,舌苔色白,舌色淡紅}23 {舌苔質薄,舌苔色黃,脈象滑}22 {舌苔質薄,舌苔色黃,痰白色}21 多重{舌苔質薄,舌苔色黃,舌色紅}26 minSup.睡眠=24%{舌苔質薄,舌苔色白,舌色淡紅}23 minSup.痰=26%{舌苔質薄,舌苔色黃,脈象滑}22 minSup.舌苔質=15%{舌苔質薄,舌苔色黃,痰白色}21 minSup.脈象=17%{舌苔質薄,舌色紅,痰白色}19 minSup.其他=20%{舌苔質薄,舌色淡紅,脈象滑}19 {舌苔質薄,舌色紅,脈象滑}18 {舌苔質薄,脈象滑,脈象數}18 {舌苔質薄,舌苔色黃,脈象數}18 {舌苔質薄,脈象滑,痰白色}17 {舌苔色黃,舌色紅,脈象滑}17 {舌苔質薄,舌色紅,脈象數}17 {舌苔質薄,舌苔色白,脈象數}17 {舌苔質薄,舌色淡紅,脈象數}17 {舌苔質薄,舌苔色白,脈象滑}16 {舌苔質薄,舌色紅,飲食納呆}15 {舌苔質薄,舌苔色黃,飲食納呆}15

表5 虛證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色白,舌色淡紅,脈象細}26 minSup=20%{舌苔質薄,舌苔色白,脈象數}24 {舌苔質薄,舌苔色白,痰白色}21 {舌苔色白,舌色淡紅,脈象數}21 {舌苔質薄,舌色淡紅,脈象數}20 {舌苔質薄,舌苔色白,飲食納呆}20 多重{舌苔質薄,舌苔色白,舌色淡紅,脈象細}26 minSup.痰=32%{舌苔質薄,舌苔色白,舌色淡紅,脈象數}19 minSup.舌苔色=50%{舌苔質薄,舌苔色白,舌色淡紅,痰白色}16 minSup.舌苔質=14%{舌苔質薄,舌苔色白,舌色淡紅,飲食納呆}14 minSup.其他=20%{舌苔質薄,舌苔色白,脈象滑}14

表6 實證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}22 minSup=20%{舌苔質薄,舌色淡紅,痰白色}21 {舌苔質薄,舌色淡紅,脈象數}21 多重{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}22 minSup.睡眠=22%{舌苔質薄,舌色淡紅,痰白色}21 minSup.痰=36%{舌苔質薄,舌苔淡紅,脈象數}21 minSup.舌苔質=17%{舌苔質薄,舌苔色白,脈象數}19 minSup.脈象=17%{舌苔質薄,舌苔色白,痰白色}18 minSup.其他=20%{舌苔質薄,痰白色,脈象滑}18 {舌苔色白,舌色淡紅,脈象數}18 {舌苔質薄,舌苔色黃,舌色紅}17 {舌苔質薄,舌苔色黃,脈象滑}17 {舌苔質薄,脈象滑,脈象數}17

表7 陰證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}23 minSup=20%{舌苔質薄,舌苔色白,舌色淡紅,痰白色}22 {舌苔質薄,舌苔色白,舌色淡紅,脈象細}21 {舌苔質薄,舌苔色白,舌色淡紅,脈象數}20 {舌苔質薄,舌苔色白,飲食納呆}20 多重{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}23 minSup.痰=34%{舌苔質薄,舌苔色白,舌色淡紅,痰白色}22 minSup.舌苔色=50%{舌苔質薄,舌苔色白,舌色淡紅,脈象細}21 minSup.舌苔質=14%{舌苔質薄,舌苔色白,舌色淡紅,脈象數}20 minSup.脈象=16%{舌苔質薄,舌苔色白,舌色淡紅,飲食納呆}16 minSup.其他=20%{舌苔質薄,舌色淡紅,脈象弦}20 {舌苔質薄,舌苔色白,脈象弦}20

表8 陽證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色黃,舌色紅}28 minSup=20%{舌苔質薄,舌苔色白,舌色淡紅}27 {舌苔質薄,舌苔色黃,脈象滑}26 {舌苔質薄,舌苔色黃,痰白色}24 {舌苔質薄,舌色淡紅,脈象滑}22 {舌苔質薄,舌苔色黃,脈象數}21 {舌苔質薄,脈象滑,脈象數}21 {舌苔質薄,脈象滑,痰白色}20 {舌苔色黃,舌色紅,脈象滑}20 {舌苔質薄,舌色紅,脈象滑}20 {舌苔質薄,舌色淡紅,脈象數}20 多重{舌苔質薄,舌苔色白,舌色淡紅}27 minSup.睡眠=23%{舌苔質薄,舌苔色黃,痰白色}24 minSup.痰=28%{舌苔質薄,舌色淡紅,脈象滑}22 minSup.舌苔質=17%{舌苔質薄,脈象滑,脈象數}21 minSup.脈象=15%{舌苔質薄,脈象滑,痰白色}20 minSup.其他=20%{舌苔質薄,舌色淡紅,脈象數}20 {舌苔質薄,舌色紅,痰白色}19 {舌苔質薄,舌苔色黃,舌色紅,脈象滑}17 {舌苔色黃,痰白色,脈象滑}17 {舌苔質薄,舌苔色黃,飲食納呆}17 {舌苔質薄,舌苔色白,脈象滑}17 {舌苔色黃,舌色紅,脈象數}17 {舌苔質薄,舌苔色白,脈象數}17 {舌苔質薄,舌色紅,脈象數}16 {舌苔質薄,痰白色,脈象數}15 {舌苔質薄,飲食納呆,脈象滑}15 {舌苔色黃,脈象滑,脈象數}15

表9 里證單一和多重最小支持度設置挖掘結果比較(模式維度≥3)

最小支持度設置辨證論治模式支持度/% 單一{舌苔質薄,舌苔色白,舌色淡紅}49 minSup=20%{舌苔質薄,舌色淡紅,脈象滑}23 {舌苔質薄,舌苔色白,脈象滑}22 {舌苔色白,舌色淡紅,脈象滑}21 {舌苔質薄,舌色淡紅,脈象數}21 {舌苔質薄,舌色淡紅,痰白色}20 {舌苔質薄,舌苔色白,脈象數}20 多重{舌苔質薄,舌苔色白,舌色淡紅,脈象滑}19 minSup.睡眠=21%{舌苔質薄,舌苔色白,舌色淡紅,脈象數}17 minSup.舌苔質=14%{舌苔質薄,舌苔色白,脈象細}17 minSup.脈象=22%{舌苔質薄,舌苔色白,飲食納呆}16 minSup.其他=20%{舌苔質薄,舌苔色白,舌色淡紅,痰白色}15 {舌苔質薄,舌色淡紅,飲食納呆}20 {舌苔質薄,痰白色,脈象滑}14 {舌苔質薄,舌色淡紅,脈象細}14

可以看出,與采用單一最小支持度的原始算法相比,擴展挖掘算法根據病案中不同癥狀屬性的特征分布設置多重最小支持度參數,挖掘結果在模式的維度、數量方面均有所提升。具體表現在三方面:第一,發現更高維度的新模式,如模式r:陽證←{舌苔質薄,舌苔色黃,舌色紅,脈象滑}、r:陰證←{舌苔質薄,舌苔色白,舌色淡紅,飲食納呆}等都是在原有三維模式的基礎上經設置多重最小支持度參數而發現的更高維度的新模式;第二,發現癥狀特征間新的關聯組合方式,如模式r:實證←{舌苔質薄,痰白色,脈象滑}、r:熱證←{舌苔色黃,舌色紅,脈象滑}等;第三,發現新的癥狀特征及其模式,如模式r:寒證←{舌苔色白,舌色淡紅,脈象弦}中的“脈象弦”、r:里證←{舌苔質薄,舌苔色白,飲食納呆}中的“飲食納呆”都是設置多重最小支持度參數后發現的新的癥狀特征。可見,采用擴展算法設置多重最小支持度后,挖掘的辨證論治模式在完備性方面較原始算法有明顯提升。

將挖掘的辨證論治模式與《中醫診斷學》[16]所述八綱辨證進行比較可以看出,模式中包含的癥狀特征基本符合《中醫診斷學》相應證型的臨床癥狀描述。以陽證為例,《中醫診斷學》有“陽證臨床表現面赤……喘促痰鳴……舌紅絳……苔黃黑生芒刺……脈浮數、洪大、滑實”,結合陽證辨證論治模式挖掘結果(見表8):一方面,證實“舌色紅”“舌苔色黃”“飲食納呆”“脈象滑”“脈象數”等癥狀特征確是“陽證”的關鍵特征,所挖掘的“陽證”辨證論治模式中包含上述癥狀特征是準確的,并且采用擴展算法更有效地發現了“飲食納呆”這一陽證辨證的關鍵癥狀特征;另一方面,說明“舌色”“舌苔色”“脈象”等是慢性阻塞性肺疾病(急性加重期)的典型辨證屬性,其中,在“陽證”諸多“脈象”表現中,“脈象滑”和“脈象數”是該病“陽證”的典型癥狀表現。

4 討論

本研究將擴展的頻繁子圖挖掘算法應用于中醫病案挖掘,旨在解決原始算法中單一最小支持度在挖掘過程中可能產生的關鍵癥狀缺失問題,通過改善最小支持度參數設置方式,基于各癥狀屬性的值域范圍和數據分布特征設置多重最小支持度參數,發現和挖掘低頻關鍵癥狀特征,進而提高辨證論治模式的完備性。挖掘得到的辨證論治模式的支持度即該模式在整個病案集中出現的頻率,能夠有效反映模式中包含的各癥狀特征在相應證型病案中共現的概率,是衡量模式有效性的重要指標。另外,考慮到算法應用的醫療背景,模式的“特異性”也是衡量模式價值的一個關鍵因素。臨床中存在許多常見但對疾病或證型辨識度并不高的非特異性癥狀,如發熱、乏力等,通過計算癥狀對某個疾病或證型的“特異性指數”可以得出整個辨證論治模式的“特異性指數”,從而有效識別支持度雖高但對疾病或證型辨識度并不高的辨證模式。此外,如果將挖掘得到的辨證論治模式應用于癥狀間的關聯分析和影響力分析,置信度、不平衡比等指標也是評價模式有效性的重要指標。對辨證論治模式的評價是一個綜合、復雜的過程,且與實際應用場景密切相關。本研究重點解決辨證論治模式挖掘的完備性問題,旨在發現更多具有辨證能力的關鍵癥狀特征,今后將繼續研究和探討模式的綜合評價。

探究中醫辨證論治模式是大數據、數據挖掘在中醫學科研究中的重要內容。本研究通過擴展經典的圖挖掘算法,改善了原始算法對現有數據集的挖掘效果,挖掘得到的辨證論治模式能夠包含更多的關鍵癥狀特征,提高了挖掘結果的完備性。除算法外,挖掘結果在很大程度上依賴數據集的質量。更大量級的數據集能夠使癥狀特征的分布更趨近其在相關疾病或證型上的自然分布,從而更有利于挖掘出更為真實、準確的辨證模式。另外,數據的標準化程度也在很大程度上影響模式挖掘的效果,未經標準化或標準化不足的癥狀特征描述會導致更加分散的特征分布,使關鍵癥狀的提取更加困難,進而影響挖掘效果。因此,在改進算法的基礎上,逐步豐富病案數據集、提高數據標準化程度是進一步改善辨證論治模式挖掘效果的重要工作內容。

[1] 崔景洋.圖數據挖掘研究[J].太原師范學院學報(自然科學版),2018, 17(1):38-40,46.

[2] WANG K, LIU H Q. Discovering typical structures of documents:a road map approach[C]//Proceedings of the 21st Annual International ACM Conference on Research and Development in Information Retrieval.New York:ACM,1998:146-154.

[3] KRIEGEL H, SCHONAUER S. Similarity search in structured data[C]//Proceedings of the 5th International Conference on Data Warehousing and Knowledge Discovery.Berlin:Springer-Verlag, 2003:309-319.

[4] FISCHER A, RIESEN K, BUNKE H. An experimental study of graph classification using prototype selection[C]//Proceedings of the 19th International Conference on Pattern Recognition.Washington, DC:IEEE Computer Society,2008:1-4.

[5] HUANG J B, SUN H L, HAN J W, et al. SHRINK:a structuralclustering algorithm for detecting hierarchical communities in networks[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management.New York:ACM,2010:219-228.

[6] HUANG J B, SUN H L, SONG Q B, et al. Revealing density-based clustering from the core-connected tree of a network[J]. IEEE Transactions on Knowledge and Data Engineering,2013,25(8):1876- 1889.

[7] YAN X F, YU P, HAN J W. Graph indexing:a frequent structure-based approach[C]//Proceedings of the 2004 ACMSIGMOD International Conference on Management of Data. New York:ACM,2004:335-346.

[8] WILLIAMS D W, HUAN J, WANG W. Graph database indexing using structured graph decomposition[C]//Proceedings of the 23rd IEEE International Conference on Data Engineering. Washington,DC:IEEE Computer Society,2007:231-235.

[9] 孫鶴立,陳強,劉瑋,等.利用MapReduce平臺實現高效并行的頻繁子圖挖掘[J].計算機科學與探索,2014,8(7):790-801.

[10] 嚴玉良,董一鴻,何賢芒,等.FSMBUS:一種基于Spark的大規模頻繁子圖挖掘算法[J].計算機研究與發展,2015,52(8):1768-1783.

[11] 王海榮.基于加權頻繁子圖挖掘的圖模型在文本分類中的應用[J].科學技術與工程,2014,14(22):80-85.

[12] YAN X F, HAN J W. gSpan:graph-based substructure patterns mining[C]//Proceedings of the 2002 IEEE International Conference on Data Mining.Washington,DC:IEEE Computer Society,2002:721- 724.

[13] 徐衛方,哈木拉提?吾甫爾,李風森,等.烏魯木齊地區375例慢性阻塞型肺疾病急性加重期中醫證候及證素特點臨床研究[J].中華中醫藥雜志,2011,26(6):1401-1404.

[14] 葉玲.慢性阻塞性肺疾病急性加重期103例中醫證型聚類分析[J].廣西中醫學院學報,2011,14(4):9-11.

[15] 林琳,胡旭貞.慢性阻塞性肺疾病急性加重期中醫證候規律的初步探討[J].廣州中醫藥大學學報,2008,25(1):1-4.

[16] 李燦東,陳家旭.中醫診斷學[M].北京:中國中醫藥出版社,2019:174.

Study on Pattern Mining of TCM Syndrome Differentiation and Treatment Based on Improved gSpan Algorithm

REN Jinyu1, BAI Lin1, ZHOU Zhiyang1, FENG Ruizhi2, ZHONG Hua1

To extend the classic frequent subgraph mining algorithm to obtain a data mining method that performs better in TCM; To obtain the patterns of TCM syndrome differentiation and treatment implicit in the TCM medical records.Combining with the characteristics of TCM medical records data and extending the classic frequent subgraph mining algorithm, data mining algorithm which set different minimum support threshold parameters for different symptom attributes was used to discover the patterns of TCM syndrome differentiation and treatment contained in the data set.The extended frequent subgraph mining algorithm was applied to the 3319 real medical records of chronic obstructive pulmonary disease (acute exacerbation period), and a series of patterns of syndrome differentiation of eight principles related to the disease were obtained. Compared with the classic algorithm, the patterns of TCM syndrome differentiation obtained by the extended algorithm had a significant improvement in the dimension and quantity of patterns.The expanded frequent subgraph mining algorithm can be used in the TCM syndrome differentiation and treatment pattern mining as well as find the implicit syndrome differentiation rules in medical records, and it has a better effect than the original algorithm in the completeness of the patterns.

pattern mining; frequent subgraph; multiple minimum supports; patterns of syndrome differentiation and treatment

R229;R2-05

A

1005-5304(2021)10-0022-07

10.19879/j.cnki.1005-5304.202003457

國家重點研發計劃(2017YFB1002303)

白琳,E-mail:bailin@otcaix.iscas.ac.cn

(收稿日期:2020-03-17)

(修回日期:2020-08-18;編輯:陳靜)

猜你喜歡
脈象特征癥狀
Don’t Be Addicted To The Internet
有癥狀立即治療,別“梗”了再搶救
保健醫苑(2022年1期)2022-08-30 08:39:40
基于時間序列和時序卷積網絡的脈象信號識別研究
可改善咳嗽癥狀的兩款藥膳
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
瞬時波強技術對人迎、寸口脈象研究的意義探討
抓住特征巧觀察
夏季豬高熱病的癥狀與防治
獸醫導刊(2016年6期)2016-05-17 03:50:35
105例弦脈的“計算機脈象儀”脈圖參數分析
主站蜘蛛池模板: 亚洲高清中文字幕在线看不卡| 91成人精品视频| 伦伦影院精品一区| 亚洲综合色吧| 久久精品国产免费观看频道| 欧美日韩国产精品综合| 国产精品美乳| 国产成人精品在线| 久久国产精品电影| 免费看a毛片| 狼友视频一区二区三区| 日本久久网站| 亚洲综合中文字幕国产精品欧美| 久久一本精品久久久ー99| 制服丝袜无码每日更新| 色综合五月| 国产99视频在线| 亚洲欧美人成电影在线观看| 毛片最新网址| 国产日韩欧美在线视频免费观看 | 国产综合网站| 亚洲国产精品一区二区第一页免| 91原创视频在线| 国产农村妇女精品一二区| 国产成人精品亚洲77美色| 国产午夜小视频| 日本亚洲国产一区二区三区| 欧美性爱精品一区二区三区| 深夜福利视频一区二区| 少妇精品网站| 欧洲欧美人成免费全部视频| 精品一区国产精品| 黄色网页在线观看| 狠狠做深爱婷婷综合一区| 亚洲第一黄片大全| 日本午夜影院| 欧美综合中文字幕久久| 欧美日韩第三页| 尤物在线观看乱码| 亚洲国产看片基地久久1024 | 欧美在线伊人| 国产成人在线小视频| 久久黄色小视频| 毛片在线播放网址| 日韩精品专区免费无码aⅴ| 无码又爽又刺激的高潮视频| 亚洲综合二区| 国产美女自慰在线观看| 亚国产欧美在线人成| 久久不卡国产精品无码| 波多野吉衣一区二区三区av| 国产成人在线无码免费视频| 欧美a级完整在线观看| 亚洲精品卡2卡3卡4卡5卡区| 亚洲视频免费播放| 午夜老司机永久免费看片 | 任我操在线视频| 日本手机在线视频| 久久a毛片| 国产福利拍拍拍| 国产高清又黄又嫩的免费视频网站| 全免费a级毛片免费看不卡| 国产精品性| 国产福利在线免费| 国产福利一区在线| 欧美精品在线看| 狠狠色婷婷丁香综合久久韩国| 极品国产在线| 亚洲国产91人成在线| www.亚洲国产| 国产日本一区二区三区| 看国产一级毛片| 国产精品亚洲一区二区三区z | 国产呦视频免费视频在线观看| 亚洲精品在线91| av无码久久精品| 99久久精品久久久久久婷婷| 欧美黄网站免费观看| 色综合五月| 午夜性刺激在线观看免费| 91久久夜色精品| 97成人在线视频|