李 穎,唐廣發(fā),陳 立,盧子忱,許金森
[1.東莞中科云計(jì)算研究院,廣東 東莞 523000;2.臉萌技術(shù)(深圳)有限公司,廣東 深圳 518000;3.福建省中醫(yī)藥科學(xué)院,福建 福州 350000]
中醫(yī)學(xué)是我國(guó)歷代傳承并創(chuàng)新發(fā)展的原創(chuàng)性醫(yī)學(xué)理論體系。中醫(yī)的診療過(guò)程主要包括四診、辨證分析、制定和調(diào)整治療方案、鞏固療效4 個(gè)步驟。醫(yī)生先根據(jù)望診、聞診、問(wèn)診、切診所得的信息,結(jié)合患者的具體情況進(jìn)行辨證分析,確定疾病的病因、病機(jī)、病位等。醫(yī)生根據(jù)辨證分析的結(jié)果,制定針對(duì)性的治療方案,包括藥物治療、針灸治療、推拿治療、拔火罐治療、正骨治療等。辨證論治這種模糊的、經(jīng)驗(yàn)型的思辨模式,造成中醫(yī)學(xué)的傳承難以批量、標(biāo)準(zhǔn)化地進(jìn)行。因此,需要將傳統(tǒng)的中醫(yī)理論和方法與現(xiàn)代科學(xué)技術(shù)相結(jié)合。
人工智能是一種研究、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人的智能的一門(mén)新的技術(shù)科學(xué)。人工智能包括自然語(yǔ)言處理、圖像識(shí)別與計(jì)算機(jī)視覺(jué)等多種技術(shù),應(yīng)用范圍非常廣泛。人工智能技術(shù)在醫(yī)學(xué)影像診斷、疾病監(jiān)測(cè)和藥物研發(fā)取得了較大進(jìn)展,提高了醫(yī)療水平和效率[1-2]。在中醫(yī)藥領(lǐng)域[3],人工智能的應(yīng)用主要體現(xiàn)在數(shù)據(jù)挖掘與分析、智能診療和醫(yī)學(xué)影像智能識(shí)別等方面。表示學(xué)習(xí)作為一種新興的人工智能方法,其目的是從原始數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的表示方式,以便于后續(xù)的分類(lèi)、聚類(lèi)、回歸等任務(wù)的完成[4]。表示學(xué)習(xí)在從海量數(shù)據(jù)中提取有用信息、促進(jìn)中醫(yī)證候的量化與標(biāo)準(zhǔn)化方面具有巨大潛力。
中醫(yī)證候?qū)W是中醫(yī)學(xué)的重要組成部分,它涉及對(duì)疾病癥狀的觀察、分析和診斷。為了使中醫(yī)的診斷和治療更加科學(xué)、客觀、準(zhǔn)確,證候的量化是重要內(nèi)容。鄭淑美等[5]提出條件概率指數(shù)轉(zhuǎn)化法,通過(guò)統(tǒng)計(jì)已知某病(或證)存在,某癥狀出現(xiàn)的條件概率,計(jì)算該癥狀的量化值。梁茂新等[6]提出主觀離散賦分法,通過(guò)各癥狀按顯著程度記分的總和,計(jì)算該病癥的總體癥狀水平積分值。余江維等[7]通過(guò)TFIDF 相對(duì)熵函數(shù)進(jìn)行癥狀信息的量化。
中醫(yī)證候的表示學(xué)習(xí)涉及利用無(wú)監(jiān)督學(xué)習(xí)或監(jiān)督學(xué)習(xí)等技術(shù),將中醫(yī)證候的描述性語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可理解的向量表示。將表示學(xué)習(xí)應(yīng)用于中醫(yī)證候?qū)W,可以幫助我們從大量的中醫(yī)證候數(shù)據(jù)中學(xué)習(xí)到更準(zhǔn)確、更有效的表示方式,提高中醫(yī)證候的分類(lèi)和診斷精度。
本文利用人工智能技術(shù),將中醫(yī)證候的描述性語(yǔ)言轉(zhuǎn)化為計(jì)算機(jī)可理解的向量表示,以便于進(jìn)行機(jī)器學(xué)習(xí)和數(shù)據(jù)分析,提高研究的準(zhǔn)確性和效率。
本文的中醫(yī)經(jīng)驗(yàn)傳承輔助診療系統(tǒng)(圖1)主要包括在線癥狀輸入、癥狀表示、癥狀推薦和輔助論治4 個(gè)模塊。

圖1 基于人工智能的中醫(yī)經(jīng)驗(yàn)傳承輔助診療系統(tǒng)
在線癥狀輸入模塊輸入用戶(hù)的當(dāng)前癥狀;癥狀提取與表示模塊構(gòu)建癥狀病例數(shù)據(jù)集;問(wèn)診提示模塊計(jì)算與輸入癥狀相關(guān)聯(lián)的前k 個(gè)癥狀;輔助論治模塊輸出根據(jù)推薦的病型和治療方案。
原始病例數(shù)據(jù)是描述患者信息的自然語(yǔ)言文本,而基于人工智能的中醫(yī)經(jīng)驗(yàn)傳承輔助診療系統(tǒng)的數(shù)據(jù)處理需使用癥狀向量,因此,需要對(duì)病例數(shù)據(jù)進(jìn)行癥狀提取與表示操作。
本文提出了一種使用高維向量表示癥狀作為輔助論治的輸入,預(yù)測(cè)病型和治療方案的模型。該模型將主訴、現(xiàn)病史中的癥狀文本轉(zhuǎn)換為高維向量,并將這些向量作為輸入,用于預(yù)測(cè)病型和治療方案,連續(xù)詞袋模型架構(gòu)如圖2 所示。

圖2 連續(xù)詞袋模型架構(gòu)
連續(xù)詞袋模型的架構(gòu)包括輸入層、隱藏層和輸出層。在輸入層A,對(duì)于給定一個(gè)詞的上下文(即窗口內(nèi)的其他詞),連續(xù)詞袋模型會(huì)接收這些上下文詞作為輸入,并將它們映射到神經(jīng)網(wǎng)絡(luò)的隱藏層。在隱藏層B,上下文詞會(huì)被處理成一個(gè)固定長(zhǎng)度的向量,這個(gè)向量的長(zhǎng)度和訓(xùn)練樣本的數(shù)量有關(guān)。在輸出層,連續(xù)詞袋模型會(huì)計(jì)算出目標(biāo)詞的概率分布。
連續(xù)詞袋模型的訓(xùn)練過(guò)程是基于重構(gòu)語(yǔ)言的詞袋模型假設(shè)進(jìn)行的,它假設(shè)詞的順序是不重要的。在訓(xùn)練過(guò)程中,神經(jīng)網(wǎng)絡(luò)需要重新構(gòu)造輸入的上下文詞,以便學(xué)習(xí)上下文詞和目標(biāo)詞之間的關(guān)系。具體來(lái)說(shuō),連續(xù)詞袋模型首先會(huì)將每個(gè)詞映射到一個(gè)固定長(zhǎng)度的向量,然后將這些向量輸入神經(jīng)網(wǎng)絡(luò)中。神經(jīng)網(wǎng)絡(luò)會(huì)根據(jù)這些向量的值來(lái)預(yù)測(cè)目標(biāo)詞的概率分布。本文建立了將4個(gè)未來(lái)詞和4 個(gè)歷史詞的向量作為輸入的分類(lèi)器,訓(xùn)練標(biāo)準(zhǔn)是正確預(yù)測(cè)當(dāng)前詞。
在訓(xùn)練好連續(xù)詞袋模型后,可以使用該模型獲取每個(gè)癥狀詞語(yǔ)的向量表示,即詞向量。這些詞向量構(gòu)成了高維向量空間中的一組向量。對(duì)于主訴、現(xiàn)病史中的癥狀文本,可以將其中的每個(gè)癥狀詞語(yǔ)替換為其對(duì)應(yīng)的詞向量,從而將該文本轉(zhuǎn)換為高維向量的癥狀文本表示。
通過(guò)癥狀關(guān)聯(lián)度計(jì)算得到癥狀病例數(shù)據(jù)集的互信息矩陣后,新的在線輸入癥狀可利用該互信息矩陣計(jì)算當(dāng)前癥狀與數(shù)據(jù)集中其他癥狀的互信息值,最后選取前k 個(gè)互信息值高的癥狀作為當(dāng)前癥狀的推薦癥狀。
根據(jù)癥狀提取和表示的結(jié)果,從診療模型中得到初步的診斷結(jié)果和建議,供醫(yī)生參考。同時(shí),模塊還可以根據(jù)醫(yī)案庫(kù)的歷史病例數(shù)據(jù),為醫(yī)生提供更加全面和客觀的診斷依據(jù)和治療方案。
本文采用的病例數(shù)據(jù)來(lái)自某醫(yī)院臨床門(mén)診病例數(shù)據(jù)共2383 條,訓(xùn)練集數(shù)據(jù)1906 條,測(cè)試集數(shù)據(jù)477 條。
首先,使用預(yù)處理過(guò)的主訴、現(xiàn)病史中的癥狀文本訓(xùn)練詞向量模型。其次,訓(xùn)練好詞向量模型后,用它來(lái)將主訴、現(xiàn)病史中的癥狀文本轉(zhuǎn)換為向量。最后,將轉(zhuǎn)換后的癥狀文本向量用于后續(xù)分類(lèi)任務(wù),對(duì)主訴、現(xiàn)病史進(jìn)行分類(lèi),預(yù)測(cè)病型。其中,在計(jì)算距離時(shí)采用了余弦相似度,準(zhǔn)確率如表1 所示。

表1 癥狀提取病型預(yù)測(cè)準(zhǔn)確率
由表1 可知,隨著向量維度的增加,癥狀表示病型預(yù)測(cè)的準(zhǔn)確率呈現(xiàn)出一種波動(dòng)上升的趨勢(shì)。當(dāng)向量維度為150 時(shí),準(zhǔn)確率最高,達(dá)到了87%。然而,當(dāng)向量維度增加到200 時(shí),準(zhǔn)確率下降到了85%。這表明在癥狀表示病型預(yù)測(cè)任務(wù)中,過(guò)高的向量維度并不一定能帶來(lái)準(zhǔn)確率的持續(xù)提升。癥狀表示病型預(yù)測(cè)的準(zhǔn)確率均優(yōu)于或與癥狀提取病型預(yù)測(cè)相同,這表明使用癥狀表示的方法進(jìn)行分類(lèi),預(yù)測(cè)病型更為有效。
使用癥狀表示的方法按疾病分類(lèi)病型預(yù)測(cè)準(zhǔn)確率如表2 所示。

表2 疾病分類(lèi)病型預(yù)測(cè)準(zhǔn)確率
以上實(shí)驗(yàn)結(jié)果反映的是模型在預(yù)測(cè)給定疾病類(lèi)型的病例時(shí)的準(zhǔn)確性。在測(cè)試病例數(shù)較多的疾病中,郁證、癌、咳嗽、消渴、痹癥的準(zhǔn)確率為80%以上,表現(xiàn)出良好的性能。相比之下,一些疾病的準(zhǔn)確率較低,如不寐、心悸、眩暈、少陽(yáng)病、癭瘤,需要在未來(lái)的研究中進(jìn)一步改進(jìn)和優(yōu)化。胸痹、乳癖、頭痛、口瘡、月經(jīng)病、心悸的測(cè)試病例數(shù)較少(少于10 例),可能存在數(shù)據(jù)偏倚或統(tǒng)計(jì)誤差,需要更多的數(shù)據(jù)來(lái)驗(yàn)證其準(zhǔn)確率。
本文主要研究了從臨床病例數(shù)據(jù)的癥狀提取和表示到輔助論治的病型預(yù)測(cè),實(shí)驗(yàn)結(jié)果表明本文方法可有效的對(duì)當(dāng)前癥狀進(jìn)行提取和表示,可在醫(yī)生論治過(guò)程中給予輔助,減輕年輕醫(yī)生辯證論治或?qū)W生在學(xué)習(xí)過(guò)程中經(jīng)驗(yàn)不足導(dǎo)致的困難。后續(xù)工作中可不斷補(bǔ)充完善病例數(shù)據(jù)庫(kù)資源,進(jìn)一步提高算法的穩(wěn)定性和可靠性。