張妮楠,曹馨宇,林睿凡,王 斌,史華新,周洪偉**,謝 琪**
(1. 中國中醫科學院中醫臨床基礎醫學研究所 北京 100700;2. 中國標準化研究院基礎標準化研究所 北京 100191;3. 中國中醫科學院醫院管理處 北京 100700)
癲癇是一種以具有持久性的致癇傾向為特征的腦部疾病,有著不同病因基礎、臨床表現各異但以反復癲癇發作為共同特征的慢性腦部疾病狀態,是神經內科最常見的疾病之一,我國患病率在4‰-7‰之間[1]。系統評價與meta 分析顯示,中西醫結合治療癲癇療效優于單純西藥治療,中藥發揮了減少西藥毒副作用增強療效的作用[2-4]。中醫常采用自然語言描述疾病癥狀,各學者及臨床人員對本病的描述各異,中醫癥狀缺乏統一的標準,導致癥狀命名不統一,定義不嚴謹,影響數據挖掘分析和臨床療效評價結果。臨床診療數據向科研數據轉化是目前研究趨勢,臨床診療數據的價值得到了越來越多的關注,術語的規范化是這一轉化過程的基礎和步驟,而顯得尤為重要。
語料(corpus),即語言材料;用于分析和研究語言數據的集合體為語料庫;遵循語料庫適用性、忠實性、一致性原則[5],本研究通過文獻調研、專家咨詢,得到癲癇相關標準、教材共24部,其中有明確定義、診斷和辨證分型的共6 部,摘取其中相關部分合成同一個文本,以逗號為標識符對原始語料進行分詞。
本研究所選語料來源有如下特征:《中藥新藥臨床研究指導原則》針對76 個病證,采用現行通用的中西醫病、證名,對于癲癇中醫的各個證型做了詳細的解釋。《臨床診療指南-癲癇分冊》分別介紹癲癇的定義、分類、診斷、預后等,本研究主要選取癲癇中醫藥診療部分。《癇病顳葉癲癇中醫診療方案》為顳葉癲癇的疾病診斷、證候診斷、中醫藥治療和調護以及療效評價提供了系統的診療方案。《中醫病癥診斷療效標準》規定了中醫內科57個病證,介紹了癲癇的病證名、診斷依據、證候分類、療效評定,適用于中醫臨床醫療質量評定,中醫科研和教學。《中醫內科常見病診療指南-西醫疾病部分》共86 種疾病,采用西醫病名,提供西醫診斷依據,適應病證結合診療模式,本研究選取中醫藥治療癲癇部分。《中醫內科學》作為代表教材,納入54個病證,其中對癲癇的病因病機、診治原則、證治分類、病癥鑒別、辨證要點進行詳細描述,具體見(表1)。

表1 語料來源、特點及語料數量
將文本數據,以逗號為標識符對原始語料分詞,采用雙人錄入模式,基于Microsoft Excel 2013 構建語料庫,對語料進行檢查核實,確保語料的準確性、完整性。
本研究以《術語工作原則與方法》《中醫藥學名詞審定原則與方法》為依據,以《WHO 西太平洋地區傳統醫學名詞術語國際標準》[6]《中醫藥學名詞》[7]《中醫藥常用名詞術語詞典》[8]《中醫大辭典》[9]《中醫癥狀鑒別診斷學》[10]《中醫臨床常見癥狀術語規范》[11]等為藍本,提取癲癇中醫癥狀術語的具體方法如下。
癲癇語料中存在癥狀如“或有吼叫”,以副詞加動詞形式出現,其中動詞“吼叫”是該癥狀的核心詞,副詞“或有”是其修飾成份,對于此類術語提取其核心癥狀,去掉其修飾成份。通過核心癥狀提取,獲取了癲癇癥狀術語3條(表2)。

表2 提取核心癥狀術語
癲癇語料中存在癥狀以動詞或名詞加形容詞形式出現,沒有修飾副詞,如“精神萎靡”“手足蠕動”,本身即為核心癥狀術語,可直接提取,由此獲癲癇癥狀術語34條(表3)。
術語間存在一些有描述性邏輯關系[12]的術語,保留其邏輯關系。例如“局限性抽搐”中的“局限性”來修飾限定“抽搐”的范圍,而癲癇發作時依據抽搐的部位往往能夠反映腦部的病灶起源,對臨床診斷具有價值。疼痛是常見自覺癥狀之一,疼痛的性質特點有助于分析疼痛的病因病機,如術語“頭部刺痛”指疼痛尖銳如針刺之感,主因瘀血所致,疼痛位置較多固定;頭竄通指疼痛游走不定,多因風邪所致;疼痛性質不同用藥也不同,因此保留癥狀間邏輯關系。由此獲癲癇癥狀術語3條(表4)。
復合癥狀多由兩個癥狀組成,臨床上這些癥狀涉及多個病性或病位且多不同時出現,因此這部分癥狀應予以拆分,拆分后的癥狀,既可以單獨統計癥狀-藥物的關聯性,也可通過術語關系統計挖掘癥狀間-藥物的關聯性。本研究拆解了不同病位或相同病位不同性質的復合癥狀19 條,形成癥狀術語38 條見(表5)。如“抽搐吐涎”,實際應用中有很多患者僅出現“抽搐”癥狀,并不伴有“吐涎”,兩者不同時出現頻率較大,因此對其進行拆分。對復合的舌診、脈診本文以《中醫診斷學》中脈象和舌象為依據,以內涵最小單元[13]為原則進行拆解,例如“脈滑數”,滑脈主痰飲、食滯、實熱,脈數主熱證。每一脈象都有其特殊的臨床意義。因此可將其拆解為最小單元。“苔白膩”拆解成“苔白”和“苔膩”,白苔主寒證、表證,膩苔主濕濁、痰飲、食積,本研究拆解了復合舌診脈診13條,去重形成術語14條。

表3 直接提取癲癇癥狀術語

表4 含邏輯關系術語

表5 拆解復合癥狀術語
癥狀規范化過程會遇到癥狀名稱不統一,一癥多名的現象。本研究引入首選術語(preferred terms)的概念,首選術語是指通過規則從語料庫中提取的某一概念作為第一選擇的術語,亦指當一個概念出現正名和別名時,根據臨床用語習慣或使用頻率,選其一為首選術語。同義術語(synonym term)為與首選術語概念相同的其它術語[14-15]。同義術語的存在豐富了疾病的語言表達但卻不利于學科之間、學術之間的交流,不利于數據的統計與分析,影響了辨證論治和潛方用藥的判斷,所以有必要厘清同義術語和首選術語。對同義術語的處理,分別查其內涵與外延,并將其映射到相應的首選術語。例如,《中醫藥學名詞》載錄的不寐(insomnia)指經常性的睡眠減少,或不易入睡,或睡眠短淺而易醒,甚或徹夜不眠的表現,又稱失眠。失眠(insomnia)是指由于各種原因引起的睡眠不足。一般包括睡眠時間、深度及恢復體力的不足,可有入睡困難、頻繁醒轉和早醒等形式。失眠患者白天出現精神不振、疲乏、易激惹、困倦和情緒不佳等表現。又如牙關緊閉(trismus)指完全不能自行張口,向下用力不能使口張開的臨床征象,咀嚼肌僵硬感。見于癲癇、破傷風、顳頜關節等病。口噤(lockjaw)指牙關緊閉,張口困難,口合不來癥狀。還有一類術語查閱了北京大學中國語言學研究中心、術語在線、wordnet 等均沒有釋義,按照文獻等級、使用頻次、用語習慣等,選其一為首選術語,如卒然撲倒、突然跌倒、突然昏倒、突然昏仆,其中突然昏仆在國標《中醫臨床診療術語國家標準(疾病部分)》中被提及,其他三個詞均出自行標,則以國標為準則選其為首選術語。在本研究中,首選術語和同義術語有14對見(表6)。
首選術語和同義術語的映射可分為以下兩種類型:(1)語義完全一致的古今術語,選取尿黃、大便干燥、牙關緊閉、失眠、胸悶,現今表達為首選術語。(2)語義接近,不影響臨床挖掘分析應用的術語,選取喉中痰鳴、吼叫、兩目凝視、兩目上視、突然昏仆、神疲、頭暈、煩躁、精神恍惚,其在參考藍本中出現頻率高的作為首選術語。

表6 首選術語及同義術語

表7 癥狀術語分類
經過對癲癇中醫癥狀術語的規范化處理,得到了120 條癥狀術語,參照癥狀體征分類框架[16]對其進行分類見(表7)。
中醫癥狀術語是中醫辨病論治和辨證論治過程中重要的和主要的依據,其準確性和規范性尤為重要。中醫癥狀規范化歷程中,有學者[17-18]提出從中醫癥狀學角度出發明確癥狀的內涵和外延,對癥狀進行量化分級等。有學者[19-20]提出從語法學知識,構建中醫癥狀基本詞匯表和中醫癥狀術語表達類型。有學者[14,21]依據文獻梳理的方法以正名和別名的形式,溯源癥狀名詞的演變。信息學的興起加速了中醫信息化的步伐,有學者[22-24]通過計算技術基于CRFs 模型、LSTM-CRF 模型和模式自動獲取等技術方法,對現病史文本癥狀術語、中醫醫案癥狀術語、中醫臨床癥狀術語進行識別和抽提。諸多探索促進了中醫癥狀術語規范化的研究進展,但是當進行具體實施操作時,則是仁者見仁智者見智。計算機模型的介入加速了規范化的步伐,但是計算機模型一般僅對單一的文本格式,能獲得一個滿意的準確率和召回率,當該模型應用于其他文本數據,例如從呼吸科的文本挖掘換到腦病科的文本挖掘,其準確率和召回率未必達標,為了能讓計算機技術真正普及到中醫術語的規范化應用中,應該在提取原則上達成共識,有統一的標準。
本研究進行癲癇癥狀術語的整理,其一,現存的幾部癲癇規范均為診療指南或標準,涉及癲癇癥狀的術語量少,因各標準發布單位不同、應用目的不一,標準與標準之間存在表達多樣性,無法進行數據挖掘分析;其二,現行出版或發布的術語書籍或標準多為診療術語,即為癥狀術語也多涉及各系統、各科的癥狀,不能準確、成簇、詳實的刻畫癲癇專病的臨床表現;其三,中醫癥狀術語缺乏統一的標準,不能指導癲癇中醫癥狀術語直接進行數據挖掘分析,因此本研究欲從已發布的規范文件入手,構建癲癇中醫癥狀術語字典,通過分析術語的內涵和外延來比較癥狀術語間的異同,引入首選術語和同義術語的概念,為豐富術語字典提供理論基礎,為中醫癥狀規范化從數據挖掘角度提供可借鑒的方法,以期挖掘數據的共性規律與差異性規律;其四,從學科建設角度出發,中醫學對癲癇的認識從古至今日趨完善,關于癲癇的現代研究也逐漸增多,但在癲癇專病術語表達應用上卻未能實現統一,導致從理論證據向數字證據轉化形成障礙,因此癲癇癥狀術語規范化不僅能為行業內提供通行的術語,也能為術語字典的構建提供良好的開端。其五,癲癇中醫癥狀術語相對于西醫癥狀術語有它獨特的特點,國際抗癲癇聯盟[25]在2001 年給出了癲癇發作時的癥狀術語,例如“認知損傷”他們定義為認知性操作減低,包括知覺、注意力、情緒、記憶、執行能力、操作和語言等其中一項或多項,而中醫將其描述為“不省人事、昏不識人、意識喪失”等諸如此類的術語來描述。兩者之間的差別在于中醫善于更形象化,具體化的刻畫發作這一過程,西醫則在于總結性的概括一系列癥狀。癥狀是千變萬化的,促就了中醫獨特的望聞問切和病證結合的診療模式,但是臨床癥狀的多樣性和復雜性也束縛了中醫藥的國際化和數量化。故癲癇中醫癥狀術語規范化整理勢在必行。
本研究的規范癥狀術語的語料來源于規范性指南、標準可信度高。按照科技術語命名原則,通過4個術語抽取原則整理癲癇中醫癥狀術語,參照癥狀體征分類框架[16],從醫生客觀觀察和患者主觀感受出發按照望、聞、問、切,將術語框架分為四大類,再按照其中小類對術語進行歸類,最終形成癲癇癥狀術語120條,通過定義每條術語的內涵和外延,從語義關系上辨析得到癲癇癥狀首選術語106 條,癲癇癥狀同義術語14條,并建立了首選術語和同義術語之間的映射關系。
臨床病歷中癥狀術語更加豐富多樣,涉及癥狀較復雜,多涉及癥狀屬性的描述如,疼痛性質、程度、持續時間、加重緩解因素等,門診病歷數據不僅涉及癲癇的主癥、兼癥、伴隨癥狀,還涉及其他診斷,這些術語在概念和層次上較標準文件中術語復雜,本研究為使研究結果更加豐富和適用,欲在后期研究中以癲癇病歷為語料庫在驗證本次研究結果的同時增補癲癇癥狀術語,形成癲癇專病中醫癥狀術語字典,為癲癇數據挖掘分析做好術語標準化的工作。