文志華,肖 莉,劉青萍,蘇祥飛,陳佑邦,晏峻峰,*,彭清華*
1.湖南中醫(yī)藥大學(xué)信息科學(xué)與工程學(xué)院,湖南 長沙 410208;2.湖南工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,湖南 株洲 412000;3.湖南中醫(yī)藥大學(xué)中醫(yī)診斷研究所,湖南 長沙 410208;4.中華中醫(yī)藥學(xué)會(huì),北京 100029
中醫(yī)癥狀(體征)是臨床診療信息的重要載體,是中醫(yī)辨證論治的主要依據(jù)。 在中醫(yī)歷代發(fā)展過程中,由于環(huán)境、流派、語言等多方面影響,臨床上存在醫(yī)者針對患者同一臨床表現(xiàn)表述不一等情況, 致使中醫(yī)沒有統(tǒng)一的、規(guī)范的癥狀表述。中醫(yī)癥狀的規(guī)劃化、標(biāo)準(zhǔn)化是一項(xiàng)高難度、繁任務(wù)的工作,雖然有一些學(xué)者多次呼吁對此展開深入研究[1],但中醫(yī)各方暫未達(dá)成統(tǒng)一認(rèn)識,也暫無頒布中醫(yī)癥狀相關(guān)的國家標(biāo)準(zhǔn)。 中醫(yī)癥狀標(biāo)準(zhǔn)化、規(guī)范化的缺失,阻礙了中醫(yī)診斷學(xué)癥狀規(guī)范化的深入研究,也制約了中醫(yī)診斷智能化的進(jìn)程。 國家《“十四五”中醫(yī)藥發(fā)展規(guī)劃》[2]《中醫(yī)藥振興發(fā)展重大工程實(shí)施方案》[3]中強(qiáng)調(diào)要加快中醫(yī)藥信息化、智能化診療技術(shù)研究,因此,規(guī)范、標(biāo)準(zhǔn)的中醫(yī)癥狀信息是中醫(yī)信息化、智能化研究的必要基礎(chǔ),亟待展開深入研究。
本文以“中醫(yī)癥狀規(guī)范化”“中醫(yī)癥狀標(biāo)準(zhǔn)化”為主題在中國知網(wǎng)全文數(shù)據(jù)庫中檢索自2000 年1 月1 日至今的文獻(xiàn),從搜索結(jié)果中篩選中醫(yī)學(xué)、計(jì)算機(jī)軟件及計(jì)算機(jī)應(yīng)用、圖書情報(bào)與數(shù)字圖書館科目類,去除實(shí)驗(yàn)、臨床研究文獻(xiàn),對獲取的82 篇文獻(xiàn)進(jìn)行研究,發(fā)現(xiàn)中醫(yī)數(shù)字化、智能化,中醫(yī)藥國際化傳播,中醫(yī)信息化系統(tǒng)等對中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化研究有積極推動(dòng)作用。 同時(shí),本文對中醫(yī)標(biāo)準(zhǔn)癥狀命名、癥狀客觀性、癥狀粒度選擇等問題展開探討,并從信息化視角對中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化研究進(jìn)行了思考。
中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化旨在為中醫(yī)診斷提供統(tǒng)一的標(biāo)準(zhǔn),以確保醫(yī)生對同一癥狀的理解和處理方式保持一致,同時(shí)為中醫(yī)信息處理提供統(tǒng)一規(guī)范。通過對相關(guān)文獻(xiàn)研究發(fā)現(xiàn),推動(dòng)中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化研究的主要因素是中醫(yī)現(xiàn)代化、數(shù)字化、智能化研究的不斷前進(jìn),其中包括中醫(yī)信息化系統(tǒng)的普遍使用、中醫(yī)數(shù)字辨證、中醫(yī)智能診療等相關(guān)研究的興起。同時(shí),中醫(yī)癥狀標(biāo)準(zhǔn)化工作還受到中醫(yī)診斷學(xué)自身發(fā)展以及中醫(yī)藥國際化傳播的影響。
早期進(jìn)行中醫(yī)診療系統(tǒng)研發(fā)時(shí),需要對癥狀進(jìn)行數(shù)字化處理,專家雖認(rèn)識到規(guī)范癥狀的重要性,囿于當(dāng)時(shí)信息化水平的限制,癥狀標(biāo)準(zhǔn)化、規(guī)范化工作推進(jìn)較為緩慢。 隨著中醫(yī)數(shù)字辨證、計(jì)量診斷、智能診療的不斷推進(jìn),研究者們進(jìn)一步認(rèn)識到癥狀規(guī)范化、標(biāo)準(zhǔn)化工作的迫切性,提出了癥狀規(guī)范方案并呼吁建立中醫(yī)癥狀標(biāo)準(zhǔn)[4-7]。 同時(shí),中醫(yī)醫(yī)院信息化系統(tǒng)、電子病歷的發(fā)展與普遍使用,對癥狀規(guī)范化有了進(jìn)一步的需求[8]。 中醫(yī)四診信息化、客觀化研究需要有規(guī)范的四診信息作為基礎(chǔ),也進(jìn)一步推動(dòng)了中醫(yī)癥狀標(biāo)準(zhǔn)化工作的發(fā)展[9]。
癥狀是中醫(yī)診斷學(xué)中最基本的內(nèi)容,是中醫(yī)診斷體系中最具體的要素,規(guī)范的中醫(yī)癥狀是中醫(yī)辨證論治的基礎(chǔ)和必要條件[10]。同時(shí),癥狀規(guī)范是制訂診斷標(biāo)準(zhǔn)、觀察療效等的首要條件,通過癥狀的規(guī)范化有助于提高診病、辨證的準(zhǔn)確性[11],這種內(nèi)在需求促進(jìn)了癥狀規(guī)范化的研究。與中醫(yī)診斷相關(guān)的歷代著作中,癥狀多存在概念模糊、內(nèi)涵外延不準(zhǔn)確、表述不精確、癥狀術(shù)語含義不一等[12]問題,中醫(yī)診斷學(xué)的研究者們在解決這些問題的同時(shí),客觀地推進(jìn)了中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化工作的發(fā)展。
在中醫(yī)藥國際化傳播過程中,首先需要中醫(yī)類的外文教材與典籍對其中大量中醫(yī)術(shù)語提供準(zhǔn)確的翻譯,然而中醫(yī)學(xué)自身存在的概念模糊、一詞多義、一義多詞、詞義演變等問題是中醫(yī)術(shù)語翻譯的難題,此類問題的解決都有賴于包括中醫(yī)癥狀規(guī)范在內(nèi)的中醫(yī)諸多標(biāo)準(zhǔn)的支持,這種需求一定程度上加快了中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化工作的制定進(jìn)程[13-14]。
朱文鋒教授在研制中醫(yī)數(shù)字辨證機(jī)、WF 文鋒-Ⅲ-中醫(yī)診療系統(tǒng)[15]過程中,發(fā)現(xiàn)中醫(yī)癥狀、體征規(guī)范化的重要性與必要性,并在主持制定國家《中醫(yī)臨床診療術(shù)語》標(biāo)準(zhǔn)(GB/T 16751.1—1997)時(shí)力推納入中醫(yī)癥狀標(biāo)準(zhǔn)[16],其后出版的《證素辨證學(xué)》中包含癥狀、體征等信息637 項(xiàng)[17],涵蓋了內(nèi)、外、婦、兒科的常見病理信息,基本能滿足中醫(yī)全病域疾病的辨證,事實(shí)上已成為了早期中醫(yī)癥狀的參考標(biāo)準(zhǔn)。此后,有學(xué)者再次提出建立“癥狀體征”國家診療標(biāo)準(zhǔn),認(rèn)為《中醫(yī)臨床診療術(shù)語·癥狀體征部分》國家標(biāo)準(zhǔn)的頒布有助于解決中醫(yī)癥狀體征不規(guī)范的問題,能為相關(guān)數(shù)據(jù)庫的建設(shè)、標(biāo)準(zhǔn)化電子病歷的推廣奠定基礎(chǔ)[7]。
隨著中醫(yī)數(shù)據(jù)挖掘、中醫(yī)智能化等研究的發(fā)展,學(xué)者們在中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化領(lǐng)域展開了深入研究。 在中醫(yī)癥狀標(biāo)準(zhǔn)數(shù)據(jù)庫構(gòu)建上,以《中醫(yī)臨床常見癥狀術(shù)語規(guī)范》、《常見癥狀中醫(yī)鑒別診斷學(xué)》、國家標(biāo)準(zhǔn)《中醫(yī)臨床診療術(shù)語·證候部分、疾病部分》中癥狀術(shù)語為數(shù)據(jù)源,經(jīng)數(shù)據(jù)變換、數(shù)據(jù)集成操作后建立了包含3061 條癥狀術(shù)語記錄的中醫(yī)癥狀術(shù)語體系數(shù)據(jù)庫[18];或從“六異識候”癥狀標(biāo)準(zhǔn)化理論體系出發(fā),提出癥狀標(biāo)準(zhǔn)化路徑,采用LFText 與TextCNN 模型進(jìn)行癥狀自動(dòng)分類,并構(gòu)建了標(biāo)準(zhǔn)化癥狀數(shù)據(jù)庫以及各類標(biāo)準(zhǔn)化癥狀描述公式數(shù)據(jù)庫[19-20];為了梳理中醫(yī)癥狀本體知識分類體系,另有學(xué)者在《中醫(yī)診斷學(xué)》教材基礎(chǔ)上建立了包含24 個(gè)屬性的癥狀表示模型,將該模型在電子病歷中進(jìn)行關(guān)聯(lián)分析且取得了良好效果[21]。 除了相關(guān)的書籍外,病案、方劑主治條文也是構(gòu)建中醫(yī)癥狀詞庫常選取的資源,或在癥狀學(xué)相關(guān)書籍基礎(chǔ)上,同時(shí)利用12 萬首歷代方劑的主治原文,通過構(gòu)建中醫(yī)癥狀詞庫、中文分詞、人工標(biāo)記、解析復(fù)合中醫(yī)癥狀、整理同義詞等方法,構(gòu)建了中醫(yī)癥狀術(shù)語標(biāo)準(zhǔn)及其分類體系[22]。
癥狀同義詞在癥狀規(guī)范處理中具有重要意義。 比如不同醫(yī)家的醫(yī)案里描述同一個(gè)癥狀時(shí)的詞匯不一,在進(jìn)行醫(yī)案知識提取過程中,需要將同義詞癥狀映射到統(tǒng)一的標(biāo)準(zhǔn)癥狀上,以方便后期知識加工與應(yīng)用。 為了擴(kuò)充中醫(yī)癥狀詞表,有研究者利用Word2vec和FastText 技術(shù),在超90 萬的中醫(yī)藥分詞詞典基礎(chǔ)上,對700 本網(wǎng)上開源中醫(yī)古籍進(jìn)行分詞,較大地?cái)U(kuò)充了中醫(yī)癥狀詞詞表,為中醫(yī)臨床決策支持系統(tǒng)提升性能[23]。 癥狀同義關(guān)系預(yù)測是癥狀標(biāo)準(zhǔn)化處理過程中的關(guān)鍵一環(huán),研究者們運(yùn)用多種不同的技術(shù)與方法對此展開了研究。 如在利用《中醫(yī)癥狀鑒別診斷學(xué)》《中醫(yī)癥狀學(xué)研究》《中醫(yī)藥學(xué)名詞》3 部中醫(yī)專著構(gòu)建癥狀概念名稱、來源信息表以及癥狀同義關(guān)系標(biāo)準(zhǔn)數(shù)據(jù)集后,提出了基于癥狀特征相似度的癥狀同義關(guān)系預(yù)測方法[24];基于BERT 模型提出了一種癥狀詞的向量表示及其歐氏距離相似度計(jì)算方法,并進(jìn)行同義詞合并處理,為中醫(yī)疾病輔助診斷以及處方推薦研究奠定基礎(chǔ)[25]。 為了解決癥狀標(biāo)準(zhǔn)化過程的異名同義問題,有學(xué)者提出了一種基于預(yù)訓(xùn)練語言模型的2 階段癥狀標(biāo)準(zhǔn)化框架,利用多標(biāo)簽分類對原始癥狀詞進(jìn)行語義劃分后得到相應(yīng)語義標(biāo)簽下的候選標(biāo)準(zhǔn)癥狀詞,并對候選標(biāo)準(zhǔn)癥狀詞采用策略進(jìn)行二次召回以提升性能,較好地解決了中醫(yī)癥狀標(biāo)準(zhǔn)化過程中的描述詞異名同義、一對多的問題[26-27]。
中醫(yī)研究者們認(rèn)識到中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化的重要性與迫切性,對癥狀標(biāo)準(zhǔn)的制定發(fā)表了許多有見地的看法,中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化是一項(xiàng)具有挑戰(zhàn)性的復(fù)雜工程,其面臨的主要挑戰(zhàn)包括命名標(biāo)準(zhǔn)癥狀、癥狀客觀性、癥狀粒度如何選取、癥狀量化方式等。
標(biāo)準(zhǔn)癥狀名的確立是中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化的基礎(chǔ)。受醫(yī)者所處朝代、地域、流派等因素影響,同一個(gè)內(nèi)涵的癥狀往往有多個(gè)癥狀名稱。 如“小便不利”在歷代中醫(yī)醫(yī)案中有642 種不同的描述,“腹瀉”有1864 種不同的表述方式[28-29]。 因此,解決中醫(yī)癥狀一義多詞是癥狀標(biāo)準(zhǔn)化工作的一項(xiàng)主要內(nèi)容。 如何確定某癥狀名為其標(biāo)準(zhǔn)癥狀名稱,不同學(xué)者持不同看法,目前,主要分為2 種:第一種觀念是以劉保延等[29]為代表提出的,認(rèn)為標(biāo)準(zhǔn)選擇癥狀應(yīng)該遵循內(nèi)涵最小獨(dú)立癥狀原則,將中醫(yī)癥狀劃分為概念詞組、描述詞組和派生詞組3 種類型;另一種觀念則是以劉旺華、黎敬波等[30-31]為代表提出的,認(rèn)為中醫(yī)標(biāo)準(zhǔn)癥狀應(yīng)該滿足中醫(yī)癥狀鑒別診斷以及辨證、診斷疾病的需要,應(yīng)從實(shí)際含義相同的癥狀名中選定最恰當(dāng)、最符合語言習(xí)慣的作為其標(biāo)準(zhǔn)癥狀名。通過內(nèi)涵最小獨(dú)立癥狀組合方式命名癥狀的優(yōu)勢在于通過派生詞可以涵蓋幾乎人體所有癥狀和體征,且癥狀邏輯關(guān)系清晰,能有效避免冗余信息,但此種分類方式容易造成癥狀分類深度較深,標(biāo)準(zhǔn)癥狀數(shù)量過多,進(jìn)而使得智能診療模型訓(xùn)練中癥狀特征數(shù)過大。 第二種中醫(yī)標(biāo)準(zhǔn)癥狀命名方式利用了已有臨床癥狀名稱優(yōu)勢,比較符合醫(yī)者習(xí)慣用語,但其邏輯關(guān)系方面不如第一種方式。本研究認(rèn)為,可以在第二種方式上對癥狀名稱梳理出一級分類,在小分類中結(jié)合內(nèi)涵最小獨(dú)立癥狀進(jìn)行組合,比如在舌象上,可以按照最小獨(dú)立癥狀,即舌的顏色、質(zhì)地等信息進(jìn)行劃分。
中醫(yī)癥狀的客觀性是指癥狀僅表達(dá)患者客觀存在的癥狀及體征,不應(yīng)該包含診斷、證型、疾病等信息在內(nèi)。 由于歷史的原因,許多中醫(yī)癥狀命名既有人體的癥狀信息,還包含了病機(jī)、診斷的信息。 比如陰虛盜汗,陰虛是病機(jī),是由盜汗反推的一種結(jié)果,不應(yīng)該出現(xiàn)在癥狀名稱中。 對于盜汗的定義,應(yīng)該只給予客觀癥狀的描述,如“盜汗是睡眠中不自主的異常出汗現(xiàn)象,通常在深夜及黎明前明顯,而睡醒后就會(huì)停止出汗”。 所以,盡量保證癥狀的客觀性,讓癥狀如實(shí)地、準(zhǔn)確地反映出患者的身體狀態(tài)信息,是癥狀標(biāo)準(zhǔn)化的一個(gè)基本原則。
癥狀粒度是指癥狀的不同層級或癥狀的不同派生級別,比如疼痛、手痛、手指痛、小手指痛、手指關(guān)節(jié)痛就屬于癥狀的不同粒度,其中“疼痛”癥狀粒度最粗,“手指痛”的癥狀粒度較細(xì),“小手指痛”的癥狀粒度最細(xì)。 張啟明等[32]認(rèn)為對于區(qū)分不同疾病狀態(tài)具有借鑒作用的生命現(xiàn)象稱為癥狀,提出內(nèi)涵最小獨(dú)立癥狀概念,其內(nèi)涵最小是指癥狀部位或癥狀性質(zhì)的內(nèi)涵最小,但不一定是粒度最小,其提出462 個(gè)獨(dú)立最小癥狀單元,如腹痛是其中一個(gè)最小癥狀單元,但是臍腹、小腹、少腹的刺痛、絞痛、攻沖痛、劇痛、隱痛都是發(fā)生于腹內(nèi)的疼痛,習(xí)慣上統(tǒng)稱為腹痛。 對于中醫(yī)智能診療模型構(gòu)建來說,若只采用“腹痛”作為癥狀,那么將失去如少腹痛、小腹痛等癥狀的內(nèi)涵。 因此,標(biāo)準(zhǔn)癥狀粒度的選擇不能太粗,太粗則會(huì)丟失診斷內(nèi)涵;標(biāo)準(zhǔn)癥狀粒度選擇也不能太細(xì),太細(xì)則導(dǎo)致癥狀詞表太大,不利于后續(xù)智能診療模型訓(xùn)練。
癥狀量化是指同一個(gè)概念下的癥狀可以表現(xiàn)出不同的程度,比如疼痛可以有不一樣的程度,不同程度量化的癥狀,往往對鑒別診斷具有重要意義。 中醫(yī)癥狀本身有一些名稱具有量化區(qū)分度,如口渴有微渴、大渴之別,發(fā)熱有微熱、壯熱之別,但是這種描述方式比較模糊,不符合計(jì)算機(jī)對精確性的要求。朱文鋒教授在《證素辨證學(xué)》中曾進(jìn)行過輕、中、重的簡單量化,也有研究者將癥狀分為輕度、中度、重度和嚴(yán)重4 級[17,28]。 此外,癥狀還有時(shí)間維度的量化,如對疼痛緩急的描述,有長期疼痛、急性疼痛之別,時(shí)間維度的量化對鑒別診斷有重要意義。 當(dāng)然,并不是所有癥狀都適合此種方法進(jìn)行量化,一些心理、精神類癥狀主觀性較強(qiáng)而往往無法進(jìn)行精確量化,此類主觀性較強(qiáng)的癥狀多采用量表法進(jìn)行量化[33]。 中醫(yī)癥狀的量化有助于中醫(yī)辨證論治的精確化, 對臨床實(shí)際也有積極意義。中醫(yī)癥狀的量化工作,應(yīng)該在大量中醫(yī)癥狀樣本的基礎(chǔ)上進(jìn)行分析,充分利用信息技術(shù)手段和中醫(yī)專家的智慧,建立統(tǒng)一的符合臨床的癥狀量化標(biāo)準(zhǔn)。
中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化研究常基于中醫(yī)醫(yī)案而開展,從醫(yī)案中篩選出海量癥狀詞匯,根據(jù)中醫(yī)診斷學(xué)知識及專家經(jīng)驗(yàn),確定標(biāo)準(zhǔn)癥狀詞匯,歸納癥狀同義詞詞庫,后期可以繼續(xù)深入挖掘癥狀與證候、病機(jī)等之間的關(guān)聯(lián)關(guān)系。 在上述從醫(yī)案中提取癥狀和同義詞歸納2 個(gè)步驟中,有人工和自動(dòng)處理2 種方式,目前,大多數(shù)同時(shí)采用自動(dòng)輔助與人工審核相結(jié)合的方式來開展研究工作。
從海量的醫(yī)案數(shù)據(jù)中提取中醫(yī)癥狀,主要采用的是自然語言處理領(lǐng)域的命名實(shí)體識別技術(shù)。 中醫(yī)癥狀命名實(shí)體識別是指從包含中醫(yī)癥狀的醫(yī)案、方劑條文等文本數(shù)據(jù)中識別出癥狀實(shí)體,并進(jìn)行類別判斷,常用的技術(shù)主要有條件隨機(jī)場、隱馬爾可夫模型、 支持向量機(jī)以及深度學(xué)習(xí)類技術(shù)如雙向循環(huán)神經(jīng)網(wǎng)絡(luò)、基于Transformer 的Bertology 系列模型[34-36]。提取到海量癥狀詞匯后,需要對癥狀詞匯進(jìn)行規(guī)范化處理,將其以同義詞的方式納入到標(biāo)準(zhǔn)癥狀詞中,由于提取癥狀詞匯數(shù)量巨大,難以采用人工處理方式完成,需要借助計(jì)算機(jī)算法進(jìn)行同義詞歸納的自動(dòng)化處理。在同義詞歸納自動(dòng)化處理中,主要有基于相似度計(jì)算和預(yù)測模型2 類方法。其中,利用歐氏距離計(jì)算癥狀詞向量之間的相似度是最常用的方法,亦有在癥狀關(guān)系網(wǎng)絡(luò)基礎(chǔ)上再進(jìn)行相似度預(yù)測的方法[24-25]。 基于預(yù)測模型的方法首先需要進(jìn)行部分癥狀數(shù)據(jù)標(biāo)注,在預(yù)訓(xùn)練模型的基礎(chǔ)上進(jìn)一步訓(xùn)練,得到癥狀同義關(guān)系預(yù)測模型進(jìn)而進(jìn)行癥狀同義關(guān)系判別[26-27]。
中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化的核心在于構(gòu)建標(biāo)準(zhǔn)癥狀詞庫。本研究認(rèn)為,標(biāo)準(zhǔn)癥狀詞庫應(yīng)該包含如下幾個(gè)部分:標(biāo)準(zhǔn)癥狀、標(biāo)準(zhǔn)派生癥狀、同義癥狀、標(biāo)準(zhǔn)癥狀描述。 其中標(biāo)準(zhǔn)癥狀指的是多個(gè)同義癥狀中最符合臨床語言習(xí)慣而被選為標(biāo)準(zhǔn)的癥狀名稱,比如失眠、不寐、不眠等同義癥狀中選取“失眠”作為其標(biāo)準(zhǔn)癥狀,如腰痛、腰疼、腰疼痛、腰脊痛、腰痛楚等同義癥狀選取“腰痛”作為其標(biāo)準(zhǔn)癥狀。 標(biāo)準(zhǔn)派生癥狀指的是當(dāng)前標(biāo)準(zhǔn)癥狀的下一級或被包含的標(biāo)準(zhǔn)癥狀,比如腹痛包含有少腹痛、小腹痛等癥狀,那么少腹痛、小腹痛是腹痛的派生癥狀。 如汗出包含有自汗、盜汗、冷汗等癥狀,那么自汗、盜汗、冷汗是汗出的派生癥狀。 同義癥狀是指與標(biāo)準(zhǔn)癥狀含義相同的癥狀,通常指別名癥狀,如不寐、不眠是失眠的同義癥狀;脈來數(shù)、脈息數(shù)、脈象數(shù)是脈數(shù)的同義癥狀。肋痛、兩脅疼、膺肋痛、脅痛楚是脅痛的同義癥狀。標(biāo)準(zhǔn)癥狀描述是指對當(dāng)前癥狀的文本定義或描述,如盜汗的描述為“盜汗是睡眠中不自主的異常出汗現(xiàn)象,通常在深夜及黎明前明顯,而睡醒后就會(huì)停止出汗”;如頭暈的描述為“頭暈是指視物昏花旋轉(zhuǎn),如坐舟車之狀,嚴(yán)重者張目即覺天旋地轉(zhuǎn),不能站立,胸中上泛嘔惡,甚或仆倒”。 因癥狀描述的書籍來源不一樣,標(biāo)準(zhǔn)癥狀的定義可能也會(huì)存在文字描述差異,可以考慮在庫中保存多個(gè)定義文本。
標(biāo)準(zhǔn)化癥狀詞庫的構(gòu)建需要確定標(biāo)準(zhǔn)癥狀及標(biāo)準(zhǔn)派生癥狀詞表,然后采集標(biāo)準(zhǔn)描述,同時(shí)擴(kuò)充同義癥狀詞表,對中醫(yī)智能化研究來說,其中同義癥狀的擴(kuò)充最為關(guān)鍵。 以下是本文提出的面向中醫(yī)智能化研究的癥狀規(guī)范實(shí)現(xiàn)化思路。
第一,根據(jù)最小內(nèi)涵獨(dú)立癥狀等標(biāo)準(zhǔn)癥狀命名原則,邀請多名中醫(yī)診斷學(xué)專家確定標(biāo)準(zhǔn)癥狀及標(biāo)準(zhǔn)派生癥狀詞表,既保證標(biāo)準(zhǔn)癥狀詞表中的癥狀能滿足基本臨床診斷需求,又需保證標(biāo)準(zhǔn)癥狀詞表不能過大而影響智能診療模型構(gòu)建。體征的概念表述,比如舌象、脈象的內(nèi)涵界定情況,舌苔的厚度通過大量的臨床數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,規(guī)定正常舌苔的厚度是在什么范圍內(nèi),薄苔是多少,厚苔又是多少。
第二,依據(jù)已經(jīng)確立的標(biāo)準(zhǔn)癥狀詞表及標(biāo)準(zhǔn)派生癥狀詞表,采集并錄入其對應(yīng)的癥狀定義等描述信息,對不同來源的定義描述給予標(biāo)識,并請中醫(yī)診斷學(xué)學(xué)者進(jìn)行審核,審核通過后入庫保存,比如腹痛、小腹痛、少腹痛的不同來源定義描述如表1 所示。

表1 腹痛及少腹痛、小腹痛癥狀定義描述示例
第三,標(biāo)準(zhǔn)癥狀詞表及標(biāo)準(zhǔn)派生癥狀詞表基礎(chǔ)上,參考《中醫(yī)診斷學(xué)》教材以及《中醫(yī)臨床常見癥狀術(shù)語規(guī)范(修訂版)》《中醫(yī)癥狀學(xué)研究》《中醫(yī)癥狀鑒別診斷學(xué)》《常見癥狀中醫(yī)鑒別診療學(xué)》等中醫(yī)癥狀學(xué)專著,采集標(biāo)準(zhǔn)癥狀對應(yīng)的同義癥狀,并請中醫(yī)診斷學(xué)學(xué)者進(jìn)行審核,審核通過后入庫保存。比如標(biāo)準(zhǔn)癥狀“汗出偏沮”的同義癥狀有上半身汗出偏沮、半邊汗出、半身汗出、汗出半體、汗出偏左、身半汗出、身半以上汗出、身左半出汗、身左半汗出、右半身有汗、左半身出汗、左側(cè)半身汗出等。
第四,進(jìn)行同義癥狀詞表擴(kuò)充。采集多來源病案信息并抽取出癥狀實(shí)體,對癥狀文本進(jìn)行相似度計(jì)算,選取相似度高的癥狀作為其對應(yīng)的同義癥狀參考詞,再經(jīng)過中醫(yī)診斷學(xué)學(xué)者進(jìn)行審核,審核通過后將其正式納入同義癥狀詞表中。
第五,收集足夠同義癥狀詞樣本后,建立癥狀標(biāo)準(zhǔn)化預(yù)測模型,對開放環(huán)境下癥狀進(jìn)行同義詞標(biāo)準(zhǔn)癥狀預(yù)測,并優(yōu)化預(yù)測模型。
以此建立的標(biāo)準(zhǔn)化癥狀詞庫可以為中醫(yī)診斷提供一套標(biāo)準(zhǔn)的癥狀詞典,為中醫(yī)診斷的進(jìn)一步研究奠定基礎(chǔ),也可以為中醫(yī)臨床電子病案數(shù)據(jù)挖掘提供基礎(chǔ)標(biāo)準(zhǔn),在中醫(yī)智能診療系統(tǒng)構(gòu)建的前期提供數(shù)據(jù)預(yù)處理標(biāo)準(zhǔn),構(gòu)建的癥狀標(biāo)準(zhǔn)化預(yù)測模型,為中醫(yī)數(shù)字化、智能化診療研究提供了數(shù)據(jù)預(yù)處理工具。
《中醫(yī)臨床診療術(shù)語》國家標(biāo)準(zhǔn)的1997 版以及2021 修訂版未將癥狀納入其中,導(dǎo)致目前中醫(yī)研究領(lǐng)域缺乏統(tǒng)一的癥狀標(biāo)準(zhǔn)。中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化是中醫(yī)現(xiàn)代化、智能化的關(guān)鍵基礎(chǔ)問題,研究者們?yōu)榱私鉀Q行業(yè)內(nèi)難題進(jìn)而對癥狀標(biāo)準(zhǔn)化問題進(jìn)行了深入研究,提出了許多富有成效的方法。 但研究者們多限于自身領(lǐng)域視角來研究中醫(yī)癥狀規(guī)范化、標(biāo)準(zhǔn)化的問題,還存在諸多不足。 本文亦僅從信息化應(yīng)用的角度來探討相關(guān)工作,在癥狀規(guī)范化實(shí)現(xiàn)思路中,亦有未考慮的問題,如未納入癥狀量化標(biāo)準(zhǔn)、未構(gòu)建癥狀關(guān)聯(lián)庫等。 因此,呼吁中醫(yī)行業(yè)研究者們會(huì)同信息、語言等其他行業(yè)學(xué)者一道,研究中醫(yī)癥狀標(biāo)準(zhǔn)化問題,制定中醫(yī)癥狀的國家標(biāo)準(zhǔn),切實(shí)解決目前無標(biāo)準(zhǔn)的實(shí)際問題,為中醫(yī)診斷學(xué)的深入研究、中醫(yī)電子病歷數(shù)據(jù)挖掘、中醫(yī)現(xiàn)代化、智能化奠定基礎(chǔ)。