姚其超,熊科宇,李 睿
(重慶市巴蜀中學校,重慶 400013)
重癥肌無力是一種神經-肌肉接頭傳遞障礙的自身免疫性疾病。病理為受累骨骼肌纖維間小靜脈周圍有淋巴細胞浸潤。急性期患者與晚期患者分別有特殊病變。75%至85%的重癥肌無力患者同時伴隨胸腺異常,60%至70%為胸腺增生,10%為胸腺瘤。
同時重癥肌無力的發病與臨床類型與年齡與性別呈統計相關。女性患病率略高于男性,且胸腺異常的具體發展概率分布也有區別。在臨床上,重癥肌無力也因為患病者年齡分為:成人重癥肌無力、兒童重癥肌無力與新生兒重癥肌無力。不同年齡患者在癥狀和病情發展上也有明顯不同。[1]基于重癥肌無力的基本病理可知,重癥肌無力的具體受累肌肉部分與病情發展有著本質性的聯系,胸腺異常和患者性別與重癥肌無力存在一定的聯系,且重癥肌無力的發病年齡與病情發展有著直接或間接的聯系。
重癥肌無力危象,是指由于疾病的發展,藥物應用不當、感染、分娩、手術等諸多因素所致的呼吸肌無力而不能維持正常通氣功能的危急狀態。[1]也就是說,重癥肌無力的危象,嚴重關系者患者的生命體征。而重癥肌無力發展到危象的時間,嚴重影響著患者的康復、存活過程。且重癥肌無力治療,仍然受患者病情發展因素的制約。
同時,重癥肌無力作為一種罕見病,在地方缺乏專業有效的診斷,且重癥肌無力的病情發展多由經驗與統計得出。關于重癥肌無力的治療方法的統計學意義與重癥肌無力危象預測模型的構建上,吉林大學的田升軍醫生和廣州中醫藥大學的劉琴醫生做了極有意義的研究和創新探索,他們證明了重癥肌無力的若干因素與肌無力危象的發生具有統計學關系。[2][3]但是重癥肌無力雖然是目前病理理解最為清楚的自身免疫病之一,仍然缺乏實用的病情預測機制和更好的治療策略。此時,在關聯患者病情癥狀與病情發展之間,作為新興技術的大數據分析,便是一個重要的解決思路。
目前,在中央政府的大力倡導下,中國開始發展多個醫療大數據數據庫,其中本文使用國家人口與健康科學數據共享服務平臺的重癥肌無力診療數據庫。[4]截止本文寫作,數據庫更新數據96條,大多有效。導出數據進行分析制表,可發現發病自危象時間與發病年齡的點狀圖分布呈三角形分布,即中間高,左右低。因至危象受各種隨機因素的影響,故使用假說演繹法,大膽預測至危象時間與發病年齡呈正態分布的加權關系,并以此建模,驗證此假說是否具有合理性。同時,提取數據庫有效數據,病癥大多為是或否,其余病癥出現太過分散,無法驗證其統計學意義。本探索作為重癥肌無力危象時間預測的可行性研究,將病癥的出現與至危象時間假設為簡單線形關系進行研究。

首先,模型架構如下:
其中設定患者有關變量為性別、發病年齡(age)、是否受累眼肌、是否受累頸肌、是否受累肢肌、是否受累呼吸肌。各變量各設置權重值pi(i=1,2,3…),又以發病年齡的正態分布的期望值為l,為方便計算使用發病年齡的加權期望值的減半周期為r來近似計算l。
設權重計算函數:f(r,l)
該函數自動就加權數計算結果

(該病人pi為出現病癥的對應權重)對比真實至危象時長,對于權重值進行修正。自優化函數自動調整(r,l)參數重復觸發權重計算函數,并分別記錄下允許一年誤差的正確率、允許半年誤差的正確率、允許兩月誤差的正確率與其權重與參數變化情況。最末為精度最高時的參數。將其代入

(該病人pi為出現病癥的對應權重),即為重癥肌無力的簡單預測模型。

最終經過約75000組有效的訓練與優化,選出測試組綜合正確率最高的一組模型,最終得到的重癥肌無力據最終病情癥狀進行發病至危象的時間預測計算模型如下:

(p1=0.931,p2=9.96,p3=0.469,p4=-6.317,p5=8.801,p6=2.616)(該病人pi為出現病癥的對應權重)
同時本模型訓練組和測試組相互獨立互不重合。進行交叉檢驗很能說明所構建模型的普適性。由測試組得出的正確率相較訓練組的正確率雖然有一定的下滑,但是測試組六月正確率仍然為50.0%。說明大數據數據挖掘在肌無力危象預測中具有研究價值和實用意義。初步探索了數據挖掘在重癥肌無力甚至是罕見病診斷治療中的巨大實用價值。

同時,對具體數據進行分析,我們發現重癥肌無力至危象時間多為0至48月之間。模型所有正確數據均取于此中。也就是說,如果將排除超過48月的為異常樣本,本模型的正確率將提高更多,這樣的排除在如安排手術治療等實踐中仍然有應用價值。
經過統計,我們發現無論是在測試組還是訓練組,誤差六月內正確樣本與誤差二月內正確樣本大多集中于18個月內出現重癥肌無力危象的樣本。訓練組中24月內危象樣本的一年正確率為100%,六月正確率為75.6%。且在測試組中24月內危象樣本的預測六月正確率也高于平均水平,為66.7%。同時,樣本病情至危象時間一旦超過24月,預測正確率就急劇降低。
根據危象時間超過24月的樣本修正參數與權重之后,在超過24月危象樣本的預測正確率將提高,超過100月發生危象的樣本雖然少有一年正確者,但預測值誤差相比其發生危象時間減少很多。但是值得注意的是這樣的修正明顯降低了24月內危象樣本的正確率。
以上的實際問題有一個重要的解決思路:引入新變量。
本文使用患者數據因為數據處理與數據庫局限原因,種類較少,樣本數量較少。如果借助引入新變量,如:胸腺異常情況、激素水平等,有希望能統一各種時長危象樣本的預測模型。
本模型以各變量間存在線形關系或正態分布作為假設,目的是為此領域提供可行性探索。在實際使用方面,應當使用更加精密的算法以進一步增強模型的普適性和準確性。
值得注意的是,目前公開可靠的臨床數據較少,不利于進行大數據研究。本次使用的數據雖然得到了數據主管單位,北京協和醫院數據中心的大力支持,但是數據中仍有不少缺失數據與無效數據。要盡快發展大數據醫療,就應當注意數據的收集與保存。對于罕見病的病情應當分階段,分別進行具體的統計,才能使中國盡快擁有大量珍貴的罕見病數據進行科學研究。
建模得到的相關數據和算法在大量樣本驗證的情況下會存在其內部的科學聯系,并且這樣的具體聯系在模型中會有提示。如該癥狀加重或是減輕了病情或其他癥狀。重癥肌無力乃至罕見病作為科研難關的攻克,不僅需要大數據支撐,焚膏繼晷的科研攻關,同時也需要一些諸如數據挖掘模型帶來的提示。利用這樣的提示進行科學的假設,將會較之漫無目的的統計與猜測更加接近真理。
本文在選取研究對象時著重注意了研究數據在病理學上是否有明顯的相關性,并在此基礎上進行了大膽的數學假設。這應當為后來研究者所注意:大數據在研究相關數據時往往更能發現其中規律,也能使大數據結論除了統計學依據以外增加更多的可解釋、可研究的科學的內在聯系。
大數據醫療,往往需要跨學科的醫療合作。往往醫療、生物科研從業者無法擁有專業大數據從業人員的數學、大數據技術水平。同樣,大數據工程師也往往無法在生物科研與醫療領域做到精通。要充分發揮社會科研資源,使大數據醫療科研項目能夠保證準確性的同時又保證專業性,就需要更多制度性的保障來促進科研信息的充分交流,充分利用。