陸 震 劉 艷 李婧惟
哈爾濱醫科大學衛生統計學教研室,150081 黑龍江 哈爾濱
生物實驗受到許多噪聲因素的影響,其產生的數據帶有噪聲,但這些噪聲一般被控制在某個范圍之內,即實驗往往不僅產生數據,而且還附帶著對所產生數據不確定性大小的度量。目前對于高維基因表達數據中噪聲的優化處理,基于網絡方法應對噪聲的影響是當前研究的一種主要思路[1-3],也有研究提出貝葉斯SBC、聚類等方法對高維基因表達數據進行穩健降噪[4-5]。在生存風險基因的篩選中,已有研究將類似的基因網絡方法用于生存分析[6-9]。本研究重點關注帶有噪聲的高維基因表達數據生存風險基因篩選問題,分別利用模擬數據和真實數據,對基于降噪風險基因網絡的生存風險基因篩選算法CoxLASSO-ISIS-N的表現作出評價,并與其他5種算法進行比較,分析算法的優劣,以期為高維基因表達數據的生存風險基因篩選提供一種新的思路,旨在更精確地研究終點事件(疾病的發生、某種處理的反應、疾病的復發或死亡等結局)發生與高維基因表達數據之間的關系,為臨床診斷以及預后管理提供依據。
當前,無論是芯片還是測序研究,所接觸到基因的數量級往往是上萬的大小,即帶來了極高維度下的低樣本問題。本文在檢索并查閱了相關文獻中模擬實驗的設置情況后,將模擬數據設置如下[1,10]:
分別設置基因數p為1 000、2 000和5 000,樣本量n為50和100的6種組合。其中,在全部6種組合下,均設置真實生存相關基因的個數僅為5個,二者最大比例為1∶1 000,以求接近真實的基因量級,以評估全部6種算法的性能表現。6種組合均滿足基因數遠大于樣本量的條件,符合本研究的高維基因表達數據的前提假設。其中,6種組合下,基因數據設置為服從多元正態分布,邊際分布為N(0, 1),且均添加隨機擾動,因而滿足帶有噪聲的高維基因表達數據的模擬要求。由于生存數據中刪失數據十分常見,故本研究的模擬實驗中,6種組合下的刪失率均設置為50%。每種算法在6種組合下的模擬實驗分別重復100次,模擬實驗結果給出100次重復的均數與標準差。
對于真實數據,數據來源于GEO公共數據庫平臺(https://www.ncbi.nlm.nih.gov/geo/)的GSE4475數據集[11-12]。該數據集的表達數據由原數據貢獻者Michael Hummel等整理好原始數據后提交至GEO數據庫平臺。該數據集收集220例Burkitt淋巴瘤患者的基因表達數據以及臨床資料信息。進行數據整理后,選取擁有完整資料的155例患者的基因表達數據以及臨床信息,其中包含21 156個基因位點。
1.2.1基于網絡的降噪方法
1.2.2高維基因表達數據變量篩選方法
Fan和Li提出評判變量篩選模型優劣的標準[13]: (1)稀疏性,模型選擇中對參數的估計應自動實現系數的稀疏性,將一些不重要變量的系數壓縮為零;(2)無偏性,估計的參數值應該是無偏的或者近似無偏的;(3)連續性,參數估計與對應的數據應該是連續的,從而避免模型擬合的偏差與預測的不穩定性。套索算法(least absolute shrinkage and selection operator, LASSO)就是將接近于零的系數壓縮為零,實現模型的稀疏性指定[14]。由于傳統的cox比例風險模型只適用于變量數小于樣本量且變量間相互獨立或至少不能存在強相關的情況,將cox模型與LASSO方法結合起來,有助于拓展變量篩選時的數據維度。
對于安全獨立篩選算法(sure independence screening, SIS),它的思想主要是根據預測變量與因變量的相關強弱篩選重要變量[15]。SIS方法把每個特征獨立作為預測變量來決定其對因變量的預測作用大小,同時按照特征與因變量的邊際相關進行特征重要性的大小排序,選擇過濾掉與因變量的邊際相關弱的變量,從而實現對高維數據的降維與變量的篩選。SIS方法有安全篩選性質,能對超高維數據降維,且選擇的模型能夠保證以較高的概率包含真模型。在SIS方法的基礎上,演變出了迭代式安全獨立篩選算法(iterative sure independence screening, ISIS)[15]。ISIS更多地考慮關注自變量間的聯合信息,相比于SIS方法,ISIS的本質是迭代地使用一個大規模的變量篩選,隨后采用一個中等規模的成熟變量選擇方法篩選出重要自變量。
1.2.3評價指標
對于算法表現的評價,本研究選用了在以往研究中廣泛使用的4個指標:LR(likelihood ratio)、R2、CI(C-Index)和CS(log-rank chi-square statistic)[8,16]。4個指標作為算法模型估計效果的評價標準,均描述了模型的估計誤差。其中,LR與CS描述了模型的整體估計效果,越大模型的估計效果就越好;R2反映了模型能夠解釋變異信息的比例,R2越大,表示模型中自變量的解釋能力越強;CI表示模型的一致性,CI越大模型的一致性越好。本研究中,每個模擬試驗重復100次,以利用均值與標準差度量算法各自的性能表現。所有算法的網絡構建及性能評價均由R 4.0.0軟件實現。
3種未結合基于網絡降噪方法的算法CoxLASSO[17]、CoxLASSO-SIS和CoxLASSO-ISIS,在對帶有噪聲的高維基因表達數據進行生存風險基因篩選時,在模擬實驗的6種設置下,CoxLASSO-ISIS算法在模型的整體估計效果(LR和CS)、解釋信息的比例(R2)以及一致性(CI)上均表現最好,其次是CoxLASSO-SIS算法;當結合基于網絡的降噪方法后,3種算法CoxLASSO-N、CoxLASSO-SIS-N和CoxLASSO-ISIS-N的表現優劣順序保持不變,仍然是CoxLASSO-ISIS-N算法表現最優,其次是CoxLASSO-SIS-N算法;同時,與未結合基于網絡降噪方法的3種算法相比,模擬結果顯示,在對帶有噪聲的高維基因表達數據進行生存風險基因篩選時,結合基于網絡降噪方法的3種算法的表現更好且更可靠,且在模擬實驗的6種設置下,CoxLASSO-ISIS-N算法在所有6種算法中均表現最優,見表1。此外,將模擬實驗中所構建的降噪風險基因網絡可視化,見圖1。
圖1 降噪風險基因網絡的可視化
表1 6種算法各自性能的100次重復模擬實驗結果
為了進一步驗證以上模擬實驗結果,本研究進行了真實數據的實例分析。在對基因數為21 156,樣本量為155的Burkitt淋巴瘤患者的基因表達數據進行生存風險基因篩選時,結果顯示算法CoxLASSO-ISIS-N在模型的整體估計效果(LR和CS)、解釋信息的比例(R2)以及一致性(CI)上,均優于算法CoxLASSO-ISIS、CoxLASSO-SIS-N以及CoxLASSO-SIS,這與模擬實驗結果一致;同時,CoxLASSO與CoxLASSO-N算法出現了異常于模擬實驗的結果,這2種算法均出現了在4種評價指標上優于其余4種算法的反常表現。見表2。由于所使用的真實數據的維度遠超模擬實驗中設置的數據維度,CoxLASSO與CoxLASSO-N算法已經無法實現在超高維基因數據下的生存風險基因篩選。
表2 6種算法各自性能真實數據結果
在基因表達數據的獲取以及處理應用中,噪聲不可避免。噪聲的存在,影響了基因表達數據的可靠分析,特別地,對于數據驅動型研究而言,歪曲了基因與基因甚至相關表型之間的真實生物學關系,對后續基因篩選和基因網絡的構建造成嚴重干擾。
本研究側重于盡可能評估在6種不同場景下,6種算法對極高維低樣本的基因表達數據分析時性能的全面表現。本研究的結果初步表明,基于降噪風險基因網絡的生存風險基因篩選算法CoxLASSO-ISIS-N可以對帶有噪聲的高維基因表達數據實現降噪,從而更精確地篩選生存風險基因,較好地反映死亡或其他結局發生與高維基因表達數據之間的關系,為臨床診斷以及預后管理提供初步的依據。后續研究會積極擴大實例分析的表達數據種類,以求盡可能全面地了解6種算法的性能及可靠性。
此外,本研究模擬實驗與真實數據的實例分析結果均表明,構建無標度網絡可以較好地模擬基因網絡結構,可以用來有效地分析解釋基因之間的相互作用以及推斷生物學機制,這與以往的研究結論保持一致[18-20]。在降噪風險基因網絡的構建中,本研究假定網絡的層間結構為因果性質,即網絡兩層之間的連接為一般線性結構。雖然基因網絡兩層之間的聯系并非總是線性的,但是由于線性結構假定在數學運算分析上的可行、可及性,且已有研究顯示線性結構能夠有效地反映實際的生物學功能,因而,本研究依然采用了帶有線性結構關系的降噪風險基因網絡構建方式[21-24]。
本研究中真實數據的實例分析結果顯示,在對基因數為21 156、樣本量為155的Burkitt淋巴瘤患者的基因表達數據進行生存風險基因篩選時,CoxLASSO與CoxLASSO-N算法出現了異常于模擬實驗的結果。本研究分析出現這種現象的原因為:盡管CoxLASSO算法可以處理高維數據,但當數據呈現超高維情形時,即變量數遠遠大于樣本量,甚至出現變量數是樣本量的指數級別時,正如本研究所采用的真實數據一樣(基因數21 156遠遠大于樣本量155),此時,CoxLASSO算法由于計算的復雜性等原因而使得算法的有效性大大降低,并且由于CoxLASSO算法強制把某些變量系數設置為0,而實際上在未被選中的基因中很有可能還存在與生存結局相關的基因,這就會導致出現假陰性問題;同時,隨著維數的急劇增加,一些重要的變量可能與不重要的變量之間高度相關,從而使得變量選擇變得極其困難,CoxLASSO算法幾乎無法正確穩定地對超高維基因表達數據進行基因篩選。而這也與已有研究的結論一致[15,25]。
本研究存在的不足:由于本研究假定基因網絡兩層之間的聯系為線性連接,造成可能會低估真實世界中基因網絡的復雜程度;同時,本研究模擬實驗應該納入更多基因數、樣本量組合設置下的算法比較場景,以全面細致地評價基因表達數據各種維度下的算法表現;此外,后續研究有待分析更多真實數據,為疾病的診斷和治療提供依據。