邰楊芳, 昝 彭, 華國旻
(山西醫科大學, 山西 太原, 030001)
血友病是一種由凝血因子缺乏引起的遺傳性出血性疾病,其主要特征為反復的自發性或外傷性出血[1]。由于血友病的特殊性,患者治療過程中極易發生其他疾病,且血友病還會大大增加患者其他疾病的治療難度[2-3]。血友病引起的長期反復性出血和多種并發癥已成為嚴重的醫療問題和社會問題,而積極探尋血友病診治方法、研發血友病特效藥、早期防治血友病并發癥具有重要的臨床意義。目前,臨床預測并發癥大多基于常規疾病檢查和醫師臨床經驗,但可能導致時效延誤,故及時準確地預測疾病的潛在并發癥尤為重要[4]。疾病并發癥的挖掘與分析是醫學臨床研究的重要方向之一,其中數據挖掘方法是當前并發癥研究中的最關鍵技術。曹馨瑞等[5]基于文獻熱點分析研究沙庫巴曲纈沙坦在心力衰竭、高血壓及相關合并癥中的應用,并將社會網絡分析方法應用于并發癥挖掘中。雷鳴等[6]構建社會網絡用于分析并發癥之間的潛在關聯,并將機器學習算法用于并發癥挖掘。該類方法可從大量數據中學習模式和規律,構建預測模型評估患者的并發癥風險。潘建鵬等[7]基于D-S證據融合算法,實現了“高血壓并發癥-抗高血壓藥物”的知識推薦。本研究借鑒上述方法和思路探討血友病并發癥的一般性規律,以期準確預測血友病患者的并發癥,現報告如下。
1.1.1 數據來源: 在PubMed數據庫中構建主題檢索式("Hemophilia A"[Mesh] OR"Hemophilia B"[Mesh] OR"Factor XI Deficiency"[Mesh]),并將Mesh詞表中的入口詞以邏輯關系詞“OR”連接,以“[Title/Abstract]”為限制條件,構建高級檢索表達式。將2個檢索式以邏輯關系詞“OR”連接,以確保文獻檢索全面,并去掉其中的綜述類文獻,最終共檢索到16 930條文獻,通過NE等軟件導出文獻的PMID號、題目及摘要,以備后續研究。
1.1.2 疾病與癥狀實體的抽取: 抽取文獻的標題、摘要文本中的疾病與癥狀實體,是進行血友病并發癥分析與挖掘的基礎。本研究采用在線的自然語義處理系統語義知識表達(SKR)的核心組件MetaMap[8]從血友病文獻的標題、摘要文本中提取代表疾病和癥狀概念的實體名稱。MetaMap擁有一體化醫學語言系統(UMLS)的超級敘詞表和專家詞典,不僅可專業與全面地抽取出疾病和癥狀實體,而且可自動實現對實體的標準化轉換。
1.1.3 疾病網絡構建: 利用python程序對上述命名實體抽取得到的原始數據進行整理和結構化存儲,1條記錄代表1條文獻,由文獻PMID號和抽取出的疾病實體構成。利用COOC數據分析軟件生成共病矩陣,通過VOSviewer軟件形成可視化網絡圖譜,該可視化網絡可以反映疾病的并發癥狀況,具體構建流程見圖1。

表1 疾病命名實體抽取及頻次結果(頻次前10位)

圖1 并發癥疾病網絡構建流程
1.2.1 社會網絡分析法: 社會網絡分析法是對由多個實體間相互聯系構成的社會關系結構及其屬性進行分析的一套規范與方法的集合。本研究采用社會網絡分析法分析血友病并發癥構成的關系網絡整體屬性、個體屬性,以期明確血友病并發癥的總體狀況和對血友病影響突出或關系密切的其他疾病、癥狀,挖掘出網絡中深層次的信息并采用可視化技術直觀展示網絡內部結構和節點間的關聯規律。
1.2.2 關聯規則挖掘: 關聯規則挖掘是指在大規模數據集中尋找頻繁項集并推導出項集之間的關聯規則,該方法能夠挖掘出數據集中的隱藏關系,用于支持決策。本研究采用Apriori算法對血友病及其并發癥進行關聯規則分析。首先,從數據集中挖掘頻繁項集即經常同時出現的疾病組合,根據頻繁項生成頻繁關聯規則。頻繁項表示某一項的頻次達到或超過一定水平,該頻次被稱為支持度(Support), 其定義如下:
Support(A=>B)=P(A∩B)
(1)
當{A, B}的支持度≥最小支持度時,則將{A, B}放入高頻項集。
然后,生成關聯規則,根據第1步得到的頻繁項集,如果某條規則滿足最小置信度,則該規則為關聯規則。置信度(Confidence)定義如下:
Confidence(A=>B)=P(B|A)
(2)
除支持度、置信度以外,提升度也是常用的評價關聯規則的指標,為了尋找疾病之間的潛在關聯,本研究將提升度作為確定疾病關聯的相關系數。提升度(Lift)被定義為: 如果P(A∩B)=P(A)·P(B), 則項集A的出現與項集B無關; 反之,項集A和項集B是相互依存、相互關聯的。A、B的提升度可由下式計算:
(3)
如果公式(3)的結果>1, 那么A與B呈正相關,即如果有1個存在,那么另1個很可能也存在。
1.2.3 鏈路預測: 鏈路預測擬解決的關鍵問題是根據觀測到的鏈路預測給定網絡中2個節點間存在鏈路的可能性[9]。本研究采用鏈路預測方法預測血友病并發癥網絡中未來可能出現的關聯,即預測血友病潛在的共病關系。① 鏈路預測指標選取。本研究選取分別基于節點和路徑的12種指標[10], 通過基于相似性的多項指標分析含權和不含權網絡,并將數據分成訓練集和測試集,使用訓練集計算精度,選擇最佳指標用于計算未鏈接節點之間出現鏈接的可能性。② 評價指標選取。應用上述指標對網絡進行測度,可以計算出兩兩節點間的相似度,不同指標計算結果不同,故還需評估指標的測度準確性。本研究選取常用評估指標曲線下面積(AUC)作為評價標準,在鏈路預測方面,AUC是指隨機選擇的實際邊緣得分的概率高于隨機選擇的不存在的邊緣得分的概率[11]。AUC的計算方法如下所示:
(4)
其中n為獨立比較的次數,n′表示實際的邊的分數比不存在的邊的分數高多少倍,n″表示實際的和不存在的邊的分數相等的次數。將AUC值最大指標的計算結果作為疾病間相似度值。
通過MetaMap工具進行實體抽取,在實體抽取過程中,將實體語義類型設置為[dsyn](Disease or Syndrome), 抽取出的疾病及癥狀實體示例見圖2。圖2中,“Processing "18652280.ti.1′: [Secondary … Case report]”表示這些字段來源于編號為18652280(PMID)的文獻ti(標題)字段的第1句內容中。“Meta Mapping”后顯示抽取結果,例如在“1000 AMYLOIDOSIS, SECONDARY (Reactive systemic amyloidosis) [Disease or Syndrome]”中, “AMYLOIDOSIS,SECONDARY”是罕見病次級淀粉樣變性病在文獻中的具體表達,括號內的“Reactive systemic amyloidosis”是該疾病的規范化表述。

圖2 MetaMap疾病抽取結果示例(部分)
經上述步驟,通過對結果編程處理,本研究共抽取得到514種疾病實體,其中出現頻次排名前10位的疾病實體見表1。
為避免網絡中出現的偶然疾病節點影響分析結果的可靠性,呈現較為理想的網絡,研究者需多次調試以確定出現在網絡中的節點頻次閾值[12]。本研究發現,當節點出現頻次≥3時,血友病并發癥實體構建成的并發癥共現關聯網絡結構較為清晰,先用社會網絡分析工具UCINET分析網絡的整體特征和節點特征,再用VOSviewer軟件[13]對網絡中的節點基于關聯強度進行聚類分析,揭示血友病并發癥網絡的結構特征和語義關聯特征。
2.2.1 網絡整體特征分析: ① 網絡密度。網絡密度指網絡中疾病節點間聯系的疏密程度,通過疾病或癥狀間的聯系程度表示網絡的連通與分散程度[14]。應用UCINET軟件讀取所構建的血友病并發癥網絡,統計數據顯示該網絡由205個節點和21 115條無向邊構成。經計算,該網絡密度值為0.273 8(偏小),但網絡密度標準差為3.591 8(相對較高)。由此說明,雖然網絡中疾病節點間可能存在局部聚集,但疾病之間的連接分布整體上較為稀疏,這是由不同疾病節點之間的特定關系或特殊因素引起的,因此進一步研究和分析整個網絡的結構和功能非常重要。② 小世界理論分析。小世界網絡具有小的平均路徑、大的聚類系數這2個基本特征[15], UCINET軟件分析結果顯示,該疾病網絡的平均路徑為2.027,聚類系數為18.953,符合復雜網絡理論的“小世界現象”特征。上述數據表明,此疾病網絡的傳播速度快且傳播效率高,疾病間關聯性較強; 網絡密度偏小,平均聚類系數偏高,說明此并發癥網絡中存在多個密集連接的疾病子群,但這些疾病子群之間的連接較少。
2.2.2 網絡節點特征分析: ① 點度中心度分析。通過UCINET軟件得出疾病網絡點度中心度排名結果(前10位),見表2。點度中心度衡量了疾病節點在網絡中的重要程度,其中血友病A、凝血功能障礙、丙型肝炎等疾病節點在網絡中的重要性較高,對疾病的傳播和擴散具有較大的影響。② 接近中心度分析。疾病網絡接近中心度排名結果(前10位)見表3, 其中血友病A是血友病眾多類型中最為常見的一種,且大多伴隨傳染性疾病和遺傳性疾病一同出現。③ 中介中心度分析。該疾病網絡的中介中心度排名結果(前10位)見表4, 結果顯示,血友病A、凝血功能障礙、人類免疫缺陷病毒(HIV)感染等10種疾病的中介中心度較高,其中血友病A、凝血功能障礙等屬于血液系統疾病,另一部分疾病具有傳染性,還有極少部分疾病直接與患者日常生活息息相關。

表2 點度中心度排名結果(前10位)

表3 接近中心度排名結果(前10位)

表4 中介中心度排名結果(前10位)
2.2.3 網絡主題聚類分析: 應用VOSviewer軟件對共現矩陣進行聚類,分析結果的可視化圖譜見圖3。結果顯示,整個血友病共病網絡可劃分為4個類團(相同顏色的疾病節點構成1個類團),每個類團代表1個研究主題。節點面積越大,說明節點的度數越高; 節點間連線越粗,表示節點間的聯系越緊密。① 主題1為遺傳性疾病類群,用紅色表示,主要節點為血友病A、血友病B、馬爾方氏綜合征等73個實體節點。血友病A作為整個網絡中心性排名最高的節點,在子群1中也連接著大多數其他疾病節點,這些疾病多數為遺傳性疾病,會伴隨患者終身,提示血友病A是目前臨床血友病研究的主要方向,且開展血友病A相關研究時大多會與其他遺傳疾病進行比較分析。② 主題2為血液系統疾病類群,用綠色表示,包含缺血性貧血、血小板增多癥、凝血功能障礙等62個實體節點,其多與血液系統相關,血液系統疾病嚴重甚至會出現內臟出血,患者會出現貧血和感染等癥狀,進而影響免疫系統功能,影響患者整體健康。③ 主題3為傳染性疾病類群,用藍色表示,包含HIV感染、乙型肝炎、丙型肝炎等46個實體節點。這些疾病大多具有傳染性,與一般出血性疾病不同,傳播渠道大多為血液傳播。在現有醫療環境下,與其他傳染性疾病相比,血友病可能并未被列為醫療保健重點[16],但血友病對患者的傷害同樣不容忽視。④ 主題4為慢性疾病類群,用黃色表示,包含糖尿病、高脂血癥、獲得性因子8缺乏癥等24個實體節點。慢性疾病患者的并發癥發生率極高,且具有經常發病、治療效果不顯著等特點,這與血友病患者的癥狀相似,因此在血友病相關研究文獻中會出現多種慢性疾病。

圖3 關聯強度聚類結果
本研究基于關聯規則指標分析,設置最小置信度≥0.8、最小支持度>0.01、最小提升度≥1,計算后總計生成133條關聯規則,關聯規則存在3種關聯類型,即基礎關系、進階關系和同級關系[17]。根據關聯計算結果得到的關聯規則包括3種情況: ① 若疾病對{A, B}只存在1條關聯規則,即A→B,置信度為x, 說明疾病A影響疾病B的出現,因此定義A為B的基礎疾病, B為A的進階疾病,即在發生疾病A的基礎上,更傾向于產生疾病B。② 若疾病對{A, B}存在2條關聯規則,既存在A→B, 置信度為x, 又存在B→A, 置信度為y, 且x>y, 則說明疾病A對疾病B出現的影響大于疾病B對疾病A出現的影響,因此舍棄B→A這條規則,定義A為B的基礎疾病, B為A的進階疾病; 反之若x 表5 關聯規則同級關系對 根據鏈路預測各項指標,分別計算其AUC值,見圖4。綜合各指標AUC均值結果發現,在含權網絡中,資源分配(RA)指標的效果最佳。因此,本研究選用含權的RA算法進行鏈路預測,以預測該網絡節點未來產生關聯的機會與可能性。 Katz指標的含權算法參數取值0.05,不含權算法參數取值0.01。 鏈路預測得分結果(前10位)見表6, 疾病對得分越高,2種疾病產生關聯的可能性越大。臨床上,不同類型的血友病大多伴發其他血液系統疾病及凝血功能障礙等癥狀,例如SILOI I等[23]已證實關節病變和丙型肝炎的并發性關系,腹水和肝膽疾病的并發關系[24]、缺血性卒中和心肌梗死的并發關系[25]也已被驗證,但血友病研究領域的相關研究極少,早發性骨關節炎和前列腺增生這2種疾病在臨床上雖無直接相關性,但鏈路預測得分卻很高,查閱相關資料后發現,2種疾病在病理角度上雖無相關性,但從遺傳因素角度分析,均多發于有家族疾病史者,若家族中有人患病,則2種疾病的發病率均會顯著提升。預測所得的大部分結果在現有文獻數據庫中均能找到相應研究成果,證明利用鏈路預測方式預測臨床患者的并發癥切實可行。 表6 鏈路預測得分結果(前10位) 臨床并發癥一般包括2種情形,一種情形是疾病在發展過程中引發另一種疾病或癥狀,后者即前者的并發癥;另一種情形是在診療護理過程中,患者合并發生與這種疾病相關的另一種或幾種疾病。并發癥對血友病患者的治療和康復效果存在非常明顯的影響。一些潛在的并發癥若未被及時發現,可影響患者的日常活動,如對患者的關節或神經系統造成損傷,嚴重時甚至會造成反復出血和神經系統受損,直接導致關節畸形、運動障礙、癲癇和癱瘓等癥狀[26-27]。臨床治療血友病常需使用價格昂貴的凝血因子替代治療劑,而血友病易出血的特點使得患者需要更頻繁的醫療服務,此外血友病患者還需接受一系列物理療法、康復訓練等措施,這些醫療費用超出了大多數患者的經濟承受能力[28-30]。因此,減輕血友病患者與并發癥相關的身心痛苦和沉重經濟負擔具有非常重要的臨床意義。 本研究結合數據挖掘與社會網絡分析方法,基于聚類分析、關聯算法、鏈路預測等方法分析和挖掘血友病并發癥的現狀及規律,并預測未來可能發生的血友病并發癥。本研究首先通過社會網絡分析得到血友病研究領域主要的疾病及并發癥,該網絡在整體結構上滿足小世界網絡特征,根據凝聚子群特征,該疾病網絡分為4大聚類,再聯合關聯規則挖掘疾病與并發癥之間的一般性規律,并通過鏈路預測方式發現了部分在現有血友病相關研究中未被體現的潛在并發癥,進一步通過發病機制及外部因素分析等進行驗證,證實了這一方法的可行性,為血友病診療過程中潛在并發癥的預防和治療提供了部分參考依據。 綜上所述,本研究基于疾病網絡進行血友病并發癥關聯分析和鏈路預測,可實現對疾病潛在并發癥的有效預測,為血友病的臨床診療提供決策支持。但本研究存在一些不足之處,例如僅通過現有開放資料驗證了部分預測結果的準確性,尚未能通過臨床病例信息和醫學實驗對現有預測結果進行驗證,未來有待進一步深入研究。
2.4 基于疾病網絡的鏈路預測


3 討 論