厐絪,鄭建立
(上海理工大學醫(yī)療器械與食品學院,上海 200093)
隨著我國人口老齡化進程的不斷加速,社會對老年康復醫(yī)療的需求持續(xù)增長。然而我國康復產(chǎn)業(yè)起步較晚,康復資源十分緊缺,且存在康復信息化不足的問題。康復量表是康復信息的重要部分,是目前評估患者功能狀況的主要手段,但數(shù)據(jù)種類繁雜。2001年5月22日,世界衛(wèi)生組織(World Health Organization,WHO)在第54屆世界衛(wèi)生大會上頒布了國際功能、殘疾和健康分類(International Classification of Functioning,Disability and Health,ICF),其是用于人類健康功能分類的標準化框架,可與康復量表聯(lián)合應用。2017年,WHO在“康復2030”國際大會上呼吁各國運用ICF收集康復服務信息,加強健康信息系統(tǒng)建設。2020年,我國康復領域?qū)<姨岢鰳嫿↖CF的康復大數(shù)據(jù)平臺,利用平臺記錄、存儲、統(tǒng)計和呈現(xiàn)被評定者的功能數(shù)據(jù)。可見,康復信息管理正在得到重視,利用ICF構建康復信息平臺是未來趨勢。
目前,關于ICF的應用已有許多相關研究。例如,Cieza等首次提出將康復量表與ICF進行鏈接,并提出基于量表概念提取的手動鏈接方法;Prodinger等將健康功能信息轉(zhuǎn)化為ICF編碼的標準化報告,運用Cieza提出的鏈接方法實現(xiàn)概念等價,運用Rasch模型實現(xiàn)評分等價;Tuechler等利用448個研究樣本,開發(fā)了基于機器學習的隨機森林學習模型的翻譯工具,旨在由患者報告結(jié)局測量工具(Patient-Reported Outcome Measures,PROM)中收集的健康信息自動鏈接到ICF分類;林楓等以ICF為框架,運用ASP.NET、JavaScript、CSS和HTML等技術開發(fā)了基于康復科業(yè)務流程的康復信息化管理平臺。此外,為解決ICF因類目繁多(1 495條類目)而應用困難的問題,WHO、國際物理醫(yī)學與康復醫(yī)學學會(International Society of Physical and Rehabilitation Medicine,ISPRM)、德國慕尼黑大學健康與康復科學研究所的ICF研究分中心等共同開發(fā)了ICF核心分類組合(ICFCore Sets)。
目前多數(shù)研究是基于一定規(guī)則在信息平臺應用ICF,鮮有根據(jù)康復量表的文本語義將其自動映射為ICF分類的研究。因此,本文以康復量表與標準ICF分類聯(lián)合應用為思路,運用文本相似度算法—詞移距離算法(Word Mover’s Distance,WMD),將腦卒中相關的康復量表映射為相應的ICF編碼組合,并以ICF核心分類組合中的腦卒中綜合版作為標準進行評價,以期為康復師使用康復量表時推薦合適的ICF編碼。
ICF提供了有關人類健康功能及其受限情況的描述,其將健康功能分為6個類別:身體功能(Body Functions)、身體結(jié)構(Body Structures)、活動和參與(Activities and Participation)、環(huán)境因素(Environment Factors)以及個人因素(Personal Factors)。ICF描述了類別之間的聯(lián)系與鑒別要素,使得人類健康功能之間的關系得以清晰表達。
ICF運用字母、數(shù)字編碼系統(tǒng)表示各類目(Categories),字母b、s、d、e分別代表身體功能、身體結(jié)構、活動和參與、環(huán)境因素。字母之后的數(shù)字從左到右分別代表一級(1位數(shù)字)、二級(3位數(shù)字)、三級(4位數(shù)字)和四級水平類目(5位數(shù)字),具體示例如表1所示。此外,ICF需要限定值才算完整,限定值類似于量表評分,表示健康水平或出現(xiàn)問題的嚴重程度,如b7302.1表示單側(cè)身體肌肉力量輕度損傷。本文不考慮限定值,僅考慮編碼。
ICF共有1 495條類目,分類詳盡,應用起來十分繁瑣。ICF核心分類組合在一定程度上改善了上述問題,其運用嚴格的多維科學方法,按照人在不同時期(急性期、亞急性期以及慢性期)的特定健康狀況(如腦卒中、孤獨癥)對ICF進行分組。ICF核心分類組合共計86個,包括3個基本ICF組合:通用組合、功能障礙組合、環(huán)境因素的最小組合,以及4類疾病分組:肌肉骨骼系統(tǒng)疾病、心肺疾病、神經(jīng)系統(tǒng)疾病、其他疾病,每類疾病分組下包括具體疾病的綜合版和簡要版ICF核心分類組合。
Table 1 Examples of ICF category codes at different levels表1 不同水平ICF分類編碼示例
WMD是Kusner等于2015年提出的基于詞向量計算文本文檔之間距離的算法,是搬土距離(Earth Mover’s Distance,EMD)的一個應用實例。EMD是Rubner等于1998年提出的解決線性規(guī)劃中運輸問題的算法,被廣泛應用于圖像和語音信號處理領域。EMD反映了通過移動分布質(zhì)量將一個分布轉(zhuǎn)換為另一個分布所必須進行的最小工作量。相應的,WMD計算的即為一個詞轉(zhuǎn)換為另一個詞所必需的最小代價。
WMD的思想是求解兩個文本文檔之間的最短距離。在兩個文本文檔去除停用詞后,將其表示為加權詞向量的點云,其中權是通過最優(yōu)化算法得出。文本文檔A與B之間的距離為文檔A中所有詞與文檔B中所有詞完全匹配所需要移動的最小累積距離,即加權詞向量點云之間的最小距離。圖1為WMD算法的示意圖,粗體字為去除停用詞后剩下的詞。
Fig.1 Illustration of WMD圖1 WMD示意圖
WMD算法具有以下幾個特性:①沒有超參數(shù),易于理解和使用;②具有高度可解釋性,兩個文檔之間的距離可以分解并解釋為幾個單詞之間的稀疏距離;③包括Word2vec空間的詞向量編碼,具有較高的檢索準確性;④是一種基于文檔之間的非監(jiān)督算法。
WMD算法采用歸一化詞袋模型(Normalized Bag-ofwords,nBOW)的向量d∈R描述文檔。其中,詞i
在文檔中出現(xiàn)的次數(shù)表示為c
,刪除與類別無關的停用詞后,則向量d中的元素d
可表示為:i
與詞j
的歐式距離為:Fig.2 WMD algorithm diagram圖2 WMD算法示意圖
在中文環(huán)境下選取康復量表中的描述性文字以及ICF類目的相關中文文本,對這兩部分文本分別進行預處理,運用WMD算法進行量表條目文本與ICF類目文本之間的匹配,其中量表文本為被匹配對象,ICF編碼為匹配結(jié)果。進行文本匹配時,選取WMD距離最小的ICF類目文本對應的編碼作為單項量表條目的匹配項,并以ICF核心分類組合中的腦卒中綜合版為標準,對匹配結(jié)果進行評估。康復量表映射為ICF的流程如圖3所示。
Fig.3 Process of mapping rehabilitation scales to ICF圖3 康復量表的ICF映射流程
ICF文本數(shù)據(jù)來自WHO發(fā)布的ICF瀏覽器中文版、Bioportal上的ICF本體文件。ICF核心分類組合的腦卒中綜合版編碼數(shù)據(jù)來自ICF Research Branch。康復量表文本數(shù)據(jù)來自《康復醫(yī)學》《康復評定常用量表》中關于腦卒中的6個康復量表,分別為格拉斯哥昏迷量表、美國國立衛(wèi)生研究院卒中量表(NIHSS量表)、Brunnstrom運動功能評定量表、簡化Fugl-Meyer評定量表、Berg平衡量表以及改良Barthel指數(shù)評分量表。停用詞表來自于GitHub上的公開項目。中文詞向量來自于Li等訓練的SGNS(Skip-Gram with Negative Sampling)中文詞向量。
(1)文本獲取。ICF文本以及ICF核心分類組合編碼數(shù)據(jù)來自網(wǎng)頁,存在不需要的HTML標簽。采用網(wǎng)絡爬蟲技術,使用Python語言編寫的Requests請求庫、Beautiful Soup、Pyquery解析庫提取文本和編碼數(shù)據(jù)。
(2)構建擴展詞、停用詞表。向擴展詞表中加入康復醫(yī)學領域的專業(yè)詞匯,如“腦白質(zhì)”“腘繩肌”等。向停用詞表中加入不影響文本匹配任務的詞語,如“確實”“缺少”“原因”等。
(3)中文分詞。在中文環(huán)境下,詞與詞之間沒有顯式分隔符,而WMD算法運用詞向量計算詞間距離,因此需要對文本進行中文分詞。支持Python語言的分詞工具包括HanLP、結(jié)巴(jieba)分詞、LTP等,本文選用jieba分詞。
(4)去停用詞。停用詞是自然語言中最常見的詞,但這些詞可能不會為文本含義增加太多價值。停用詞一般是標點符號、連詞或代詞等,本文采用“3.2”項提及的停用詞表去停用詞。
(5)詞向量L范數(shù)正則化(L-Normalization)。Wilson等認為詞嵌入的應用本質(zhì)是得到詞嵌入之間的關系,如詞嵌入之間的余弦值或距離。詞嵌入的大多數(shù)應用是以探索詞嵌入之間關系的方式解決詞與詞之間相似度計算和其他關系的問題,而使用正則化的詞向量可以提高算法解決這些問題的性能。因此,本文對中文詞向量進行L范數(shù)正則化。
采用Python 3.6編寫實驗代碼,使用Gensim模塊實現(xiàn)WMD算法;硬件環(huán)境為Intel Xeon Gold 6132,操作系統(tǒng)為Red Hat 4.8.5-16。
運用準確率(Accuracy)評估方法性能,計算公式為:
A
為準確率;n
為匹配正確的量表條目數(shù)量,表示量表中有n
個條目映射的ICF編碼是腦卒中綜合版編碼組合的成員;N
為該量表的條目總數(shù)。腦卒中綜合版的類目數(shù)量為130,精確匹配難度較大,因此分別進行top-1與top-5的準確率評價。其中,top-1準確率為距離最小候選答案為正確答案的比率,top-5準確率為距離最小的前5個候選答案包含正確答案的條目所占的比率。為更直觀地體現(xiàn)top-5的評價性能,增加top-5的平均準確數(shù)這一指標,用于檢驗量表中平均每個條目的正確答案數(shù)量,表示為:
此外,文本匹配時需忽略定義過于寬泛的一級類目,只匹配ICF二級及以上類目,并將二級以上類目歸為對應的二級類目,如b1100歸為b110。在實際應用中,二級水平的精度已經(jīng)足夠。
采用WMD算法對康復量表條目和ICF類目中的中文文本進行匹配,檢驗匹配的ICF類目編碼是否為腦卒中綜合版編碼組合的成員。映射結(jié)果如表2所示,實驗性能參數(shù)如表3所示。
Table2 Experimental results of rehabilitation scales mapping to ICF表2 康復量表ICF映射的實驗結(jié)果
由表2-表3可以看出,各個量表top-1準確率均大于0.6,平均值為0.9;top-5準確率均為1,平均準確數(shù)均≥3,即前5個候選編碼中,平均有3個為正確答案。實驗結(jié)果表明,top-1需要精準匹配,top-5范圍較top-1廣,更符合本文推薦ICF編碼的需求。
Table3 Experimental performance表3 實驗性能
表4展示了top-5文本匹配的示例,即1個量表條目對應5個候選ICF編碼。從語義來看,該條目評估的是患者能否在一定時間內(nèi)自主持續(xù)站立。詞移距離在前3位的b740、b730和b735描述的是肌肉耐力、肌肉力量、肌張力等內(nèi)容,與該條目的語義和主旨相關,說明本文方法在top-5模式下具有較好的語義相關性。
Table 4 Examples of top-5 text matching表4 top-5文本匹配示例
本文提出運用非監(jiān)督的文本相似度算法WMD,以公開的6個腦卒中康復量表和ICF中文文本數(shù)據(jù)為研究對象,結(jié)合詞向量對康復量表條目和ICF類目進行文本匹配。在匹配結(jié)果中選取詞移距離最小的top-1和top-5編碼,并以ICF核心分類組合的腦卒中綜合版為標準,進行準確率與準確數(shù)的評價。實驗結(jié)果顯示,腦卒中綜合版的top-5準確率較高,表明利用文本相似度推薦編碼的方法能夠有效運用于ICF編碼的映射問題中。該方法為康復師在臨床上便捷高效地利用ICF編碼提供了新思路。然而,本研究存在一定的局限性,由于缺乏ICF實際應用數(shù)據(jù),該方法僅適用于輔助篩選ICF編碼,尚不能精準運用于實際臨床。在后續(xù)研究中,可以嘗試引入專業(yè)人士的標注數(shù)據(jù)作為參考依據(jù),以提高ICF映射的準確性。