趙壯 王一帆 楊濤
摘 要: 建立心系病證量化診斷模型。將心系疾病(以冠心病為例)常見證型相關的癥狀映射到多維癥狀空間,將辨證問題轉化為相似度計算問題,建立量化診斷模型,并對700條樣本進行測試,分別計算Cosine、Tanimoto、Euclidean、Manhattan四種相似度,分析模型診斷準確率。四種相似度計算模型對冠心病常見證型的診斷準確率均在90%以上,能夠滿足診斷需求;權值選擇主癥1.00,次癥0.8-0.95,兼癥0.6-0.9,模型的效果較好。加權相似度計算可以用于常見病證的診斷。在今后的研究中,探索復雜證型的量化診斷問題,為中醫的數據化和智能化進行有益探索。
關鍵詞: 相似度計算; 冠心病; 中醫辨證; 量化診斷
中圖分類號:TP399 文獻標志碼:A 文章編號:1006-8228(2018)11-64-03
Abstract: To establish a quantitative diagnosis model of heart disease syndrome. This method maps the heart disease symptoms (taking coronary heart disease as an example) associated with common syndromes to the multidimensional symptom space, and the problem of syndromes differentiation is transform into similarity calculation to establish the quantitative diagnosis models. 700 samples were tested in the models, in which Tanimoto coefficient, Euclidean distance, Manhattan distance and Cosine similarity were calculated respectively to analyze the diagnostic accuracy. The results show that the accuracy of above models is all over 90%, which could meet the need of clinical diagnosis. The best weight of the main symptoms, secondary symptoms and accompanied symptom were set as 1.00, 0.8-0.95 and 0.6-0.9 separately. Therefore the weighted similarity calculation can be used for the diagnosis of common diseases. In the future research, the quantitative diagnosis of complex syndromes will be explored and the beneficial explorations will be conducted for the digitization and intelligence of traditional Chinese medicine.
Key words: similarity calculation; coronary heart disease; syndrome differentiation of Chinese medicine; quantitative diagnosis
0 引言
辨證論治是中醫認識疾病和治療疾病的基本原則,是中醫學對疾病的一種特殊的研究和處理方法。辨證論治包括辨證和論治兩個環節,其中辨證是論治(立法、處方、用藥)的前提和基礎[1]。中醫辨證的過程是在中醫理論的指導下,通過望、聞、問、切采集四診信息,分析疾病的病因、性質、部位,以及邪正之間的關系,總結歸納證名的思維認知過程。辨證結論指導論治方案,是影響臨床療效的關鍵因素之一,如何準確有效的辨證已成為中醫臨床和教學的關注焦點。近年來,隨著信息技術的發展,特別是人工智能技術的興起,越來越多的學者開始關注中醫診斷數字化研究[2],利用計算機強大的計算和存儲能力,有望實現中醫辨證過程的數字化和智能化。
相似度計算是數據挖掘和機器學習中常用的基礎性計算,通過計算事物特征之間的距離或夾角等,衡量兩個事物相似性[3]。相似度計算在生物信息學[4-5]、醫學診斷[6]方面有著廣泛應用。本文以冠心病常見證型診斷為切入點,將中醫辨證轉化為相似度計算問題,建立冠心病常見證型診斷的相似度計算模型,通過比較不同模型下的診斷效果,最終形成有效的辨證量化診斷方法。
1 中醫辨證問題的相似度計算模型轉化
假設在n維空間中建立以n個癥狀為坐標的多維癥狀空間,出現某癥狀時,對應坐標為1,否則為0。那么,一組癥狀可以對應空間中的一個點[6]。“證”是對疾病當前狀態的高度概括,而概括的依據恰恰是患者表現出的癥狀和體征。因此,“證”也可以映射到多維癥狀空間的點。對于給定的一組癥狀,要判斷其為何種證型,這一問題可以轉化為n維癥狀空間中兩個點的相似性問題,即相似度計算。
在相似度計算過程中,首先需要建立多維癥狀空間,然后進行癥狀對齊,最后選擇合適的相似度計算方法進行計算,具體過程如下。
⑴ 多維癥狀空間構建。假設證型S對應的癥狀組A={x1,x2,…,xm-1,xm},患者的癥狀組B={x2,x4,…, xn-1,xn},進行兩個癥狀組的“并”操作A∪B,得到共同的癥狀空間{x1,x2,…,xk,xk-1}。
⑵ 癥狀對齊。分別在癥狀空間中找到A、B的映射,含有某癥狀,則對應癥狀為1,否則為0。A轉化為特征向量M=[m1,m2,,…,mk-1,mk],B轉化為特征向量N=[n1,n2,…,nk-1,nk]。
⑶ 癥狀加權。根據癥狀重要程度設定加權值,分別得到A、B加權向量W1=[s1,s2,…,sk-1,sk],W2=[t1,t2,…,tk-1,tk],對A和B特征矩陣中的各個癥狀進行加權運算,得到加權后的向量V1=M*W1T、V2=N*W2T。
相似度計算。計算V1和V2的相似度,以“歐氏距離”為例,計算
下面以案例來說明。
首先,假設氣虛證的癥狀組A={胸悶,氣短,動則氣喘},而待辨證的癥狀組B={五心煩熱,盜汗,潮熱,胸悶},得到多維癥狀空間為:A∪B ={胸悶,氣短,動則氣喘,五心煩熱,盜汗,潮熱}。
其次,進行癥狀對齊,得到A、B的特征向量分別為:
M=[1,1,1,0,0,0], N=[1,0,0,1,1,1]
然后,設定權值,假設A、B對應權值分別為{1,0.5,0.5,0,0,0}、{0.5,0,0,1,0.5,0.5},則加權后的向量為V1={1,0.5,0.5,0,0,0},V2={0.5,0,0,1,0.5,0.5}。
最后,計算相似度Dist(V1,V2)=2.5。
2 心系病證加權相似度計算模型比較
2.1 實驗數據
⑴ 證型數據
胸痹是中醫病名,指以胸膺部窒塞疼痛為主的病證,與現代醫學“冠心病”癥狀類同。普通高等教育“十五”國家級規劃教材《中醫內科學》[8]中將胸痹分為心血瘀阻證、氣滯心胸證、痰濁閉阻證、寒凝心脈證、氣陰兩虛證、心腎陰虛證、心腎陽虛證7個證型。采用這一分類方法,結合專家經驗,整理冠心病(胸痹)的常見證型(見表1)。
⑵ 測試數據
圍繞各個證型自動生成測試樣本,具體如下:
① 將表1中各證型對應的癥狀進行統一,形成“癥狀條目池”;
② 選擇某一證型Y,將其癥狀組與“癥狀條目池”進行“差”運算,得到新的癥狀集合S;
③ 設定隨機種子n,從S中隨機抽取0~n個癥狀,形成附加癥狀組F;
④ 將證型Y對應的原始癥狀X與附加癥狀F進行“或”運算,得到新的癥狀組N;
⑤ 將N隨機分成3份,分別對應主癥、次癥、兼癥,形成一條測試樣本;
⑥ 重復②-⑤的過程,圍繞每個證型生成100條測試樣本,共700條。
2.2 實驗過程
⑴ 設定不同的權值,分別計算Cosine、Tanimoto、Euclidean、Manhattan相似度[8],并按照相似度降序排列,其中Cosine、Tanimoto值越大,相似度越大,而Euclidean、Manhattan值越小,相似度越大。
⑵ 選擇相似度最高的證型作為模型診斷結果,比較其與原始診斷的差異,若一致則判斷診斷正確,否則,診斷錯誤。
⑶ 分析比較各個模型的診斷正確率。
2.3 實驗結果
表2是不同證型相似度模型的計算結果(權值:主癥=1.0,次癥=1.0,兼癥=1.0)。
3 分析及討論
從表2可以看出:Cosine、Tanimoto、Euclidean、Manhattan四種相似度計算方法的相似度最高的診斷結果與標準證型一致;Cosine、Tanimoto相似度為0-1的數值,避免了多病證計算時的歸一化問題。
從表3可以看出:相似度計算方法在測試樣本表現效果較好,準確率均在90%以上,能夠滿足辨證需求;權值選擇主癥1.00,次癥0.8-0.95,兼癥0.6-0.9,模型的效果較好;Cosine、Tanimoto相較Euclidean、Manhattan,對權值的敏感性更好;
證型相似度計算模型辨證過程中需要與各個證型計算相似度,然后按照相似度降序排列,選擇相似度最高的證型作為診斷結果。針對冠心病常見證型這類少量病證數據的診斷效率較高,但當病證較多,需要計算與所有證型的相似度,運算效率較低。
建立合理規范的證型定義是相似度計算模型的前提和基礎,然后在證型的定義中往往出現“或有癥”,如何有效的進行上述癥狀的表達直接影響模型診斷效果。理論上,可以通過建立同一證型的不同癥狀組,或者通過權值來平衡“或有癥”的影響。
4 結束語
中醫辨證數字化和智能化研究是中醫診斷研究的重點和難點。如何將中醫辨證轉化為數學問題,從數據模型角度模擬中醫辨證過程,將是中醫辨證智能化研究的關鍵。本文將常見證型映射到多維癥狀空間中的點,將辨證問題轉化為多維癥狀空間中不同點之間的相似度計算問題,并以冠心病常見證型診斷為例進行有效性驗證,模擬實驗證實這一方法的準確性和有效性。臨床癥情千變萬化,證型異同難辨,患者往往表現出證型間夾或復合的復雜證型,常見證型的相似度計算無法解決復雜證型的辨證問題。在接下來的研究中,進一步探索復雜證型的量化診斷問題,為中醫的數據化和智能化進行有益探索。
參考文獻(References):
[1] 朱文鋒.證素辨證學[M].人民衛生出版社,2008.
[2] 徐瑋斐,劉國萍,王憶勤等.近5年中醫證候診斷客觀化研究述評[J].中醫雜志,2016.57(5):442-445
[3] 陳曦,成韻姿.一種優化組合相似度的協同過濾推薦算法[J].計算機工程與科學,2017.39(1):180-187
[4] 張書欣.生物信息學中運用的計算智能技術[J].中國科技信息,2014.1(18):39-40
[5] 施曉秋,孔繁勝.計算機科學在生物信息學中的應用[J].浙江工業大學學報,2001.29(2):69-73
[6] 李鋒剛,倪志偉,郜巒.基于案例推理和多策略相似性檢索的中醫處方自動生成[J].計算機應用研究,27(1):544-547
[7] 楊濤,吳承玉.心系證素模糊識別數學模型初探[J].時珍國醫國藥,2013.24(8):2047-2048
[8] 周仲英.中醫內科學[M].中國中醫藥出版社,2003.