黃玲莉
(上海理工大學健康科學與工程學院,上海 200093)
肌少癥是一種隨著年齡增長而導致進行性肌肉量減少、肌肉力量下降或軀體功能減退的老年綜合征。患有肌少癥的個體會因骨骼肌衰退、骨—肌單位萎縮,容易發生跌倒造成骨折,并且該癥狀與認知障礙、呼吸系統疾病和心血管疾病相關,會導致患者生活質量下降。研究表明,從40歲至80歲,人體的骨骼肌總量將下降30%~50%;60歲后,肌肉功能每年將下降3%;80歲后,患肌少癥的概率高達67.1%。
隨著中國進入老齡化社會,肌少癥的預防和治療已受到了人們的廣泛關注,但目前人們對肌少癥的認識仍然較少,發病機理尚不明晰。因此,迫切需要挖掘肌少癥的相關基因用于研究其發病機理,并為預防、診斷和治療該疾病提供參考。
隨著步入大數據時代,高通量測序技術、網絡方法和計算機技術快速發展,從計算角度挖掘疾病的生物標志物或治療靶點已成為目前的研究熱點。王莉華等通過差異基因分析法對肌少癥進行分析,但該方法忽略了基因間的內部相關性,即具有相同或相似表達的基因可能具有相似功能。Shin等利用TargetScan算法從Dlk1-Dio3 miRNA中挖掘有關肌少癥的靶點基因,但該算法的處理對象為單個miRNA,無法同時考慮全基因組信息。為此,Zillikens等提出了全基因組關聯分析方法(Genome-wide Association Study,GWAS)以解決TargetScan算法中存在的問題,該方法從基因HSD17B11、VCAN、ADAMTSL3、IRS1、FTO中發現了有關肌少癥的5個新位點,但GWAS會隨著測序數據量的增加,影響計算速度。同時,GWAS存在多重檢驗問題,會導致篩選的基因不完全是致病基因。
然而,加權基因共表達網絡分析(Weighted Gene Coexpression Network Analysis,WGCNA)的提出為解決以往研究存在的問題提供了新的思路。該方法是一種基于拓撲矩陣所構建的共表達網絡,使用無監督聚類法確定簇的數據挖掘方法。相較于上述方法,WGCNA可從整體基因組進行研究,通過確定基因表達水平間的關聯及生物功能的相似性,將基因集分為一個個模塊以挖掘關鍵基因,這樣既能縮小篩選范圍,減少計算量,又能較好地控制多重檢驗的假陽性率,提高識別準確率。
目前,WGCNA已被廣泛應用于腫瘤、帕金森、糖尿病等疾病的研究當中,其穩定性和有效性已在多項研究中得以證實。例如,Su等使用WGCNA篩選卵巢癌的關鍵基因。Haase等將WGCNA應用于研究Rett綜合癥。而本文首次運用WGCNA分析肌少癥,以期為肌少癥的致病機制及治療研究提供新的生物標志物或候選靶點分子。
本文利用WGCNA篩選肌少癥基因,具體實驗過程包含以下6個部分:①對原始數據進行預處理;②依據基因間的關聯性構建共表達網絡;③利用共表達網絡對基因集進行模塊識別;④將劃分后的模塊與外部性狀進行關聯分析,以確定關鍵模塊;⑤在關鍵模塊中篩選肌少癥的樞紐基因;⑥對樞紐基因進行功能驗證。
本文使用的肌少癥相關基因表達數據和臨床信息(GSE111016)來源于美國國立生物信息中心的GEO(Gene Expression Omnibus)數據庫(https://www.ncbi.nlm.nih.gov/gds/),該數據庫是目前國際上最全面的高通量基因表達公共數據庫,其中包含了20例肌少癥患者和20例健康對照者,然而發現數據庫中的樣本3存在數據缺失問題,需要將其剔除。
圖1為通過類平均法計算樣本間的距離所得到的樣本聚類樹。由圖1可見,將聚類高度設為77時,樣本11、樣本13和樣本18為離群樣本,需要先將其剔除。然后,對剩余的基因表達數據進行log2轉換,并進行TMM歸一化處理,最終得到36例臨床信息的16 879個基因表達數據用于后續研究分析。
Fig.1 Sample hierarchical clustering tree圖1 樣本分層聚類樹
基因共表達網絡關系的構建通常由鄰接矩陣定義,該矩陣的元素大小表示兩個節點間的連接強度。本研究在構建鄰接矩陣前,先按式(1)、式(2)定義一個中間變量,即相似度矩陣S。
x
,x
表示任意兩個基因。然后,利用閾值化方法將相似度矩陣S轉化為鄰接矩陣A,傳統鄰接矩陣計算公式為:
其中,τ為所取閾值。
但由于該閾值法為硬閾值,無法反映共表達信息的連續性,易丟失部分信息,并且該方法只能表示基因間是否存在聯系,無法表示關系的強弱。為此,本文通過引入軟閾值β
對相似度進行冪運算,計算公式如式(5):β
≥1。接下來,使用R軟件的pick Soft Threshold()函數對軟閾值進行篩選,并對篩選出的軟閾值進行無尺度拓撲檢查。該操作決定了所構建網絡是否符合無尺度網絡,冪運算使得之前關系緊密的基因不受影響或者影響較小,而相關性較弱的基因相關性則會明顯下降,進而表示關系的強弱。
考慮到兩個基因間除直接影響外,還會受到其它基因的間接調控,本文根據拓撲重疊公式將鄰接矩陣A轉化為拓撲重疊矩陣Ω。該矩陣既能在網絡拓撲水平上體現基因間的強度大小,還能減少噪音和假陽性,使結果更穩健。計算公式如式(6)-式(8)所示:
I
表示引入第3個基因u
之后,第i
個基因和第j
個基因新的連通性大小。本文使用無監督聚類法確定基因模塊,具體通過層次聚類算法實現,如公式(9)所示:
同時,利用動態剪切樹法將層次聚類樹切分為若干模塊,每個模塊表示共表達程度較高的一類基因。
p
<0.05)的關鍵模塊進行后續樞紐基因的篩選。同時,提取關鍵模塊內每個基因的基因顯著性值(Gene Significance,GS)和模塊身份值(Module Membership,MM)以進一步驗證所選模塊的可靠性。通過分別計算GS和MM的相關系數,若其結果越顯著(p
<0.05),則表明所選模塊越穩健。P
<0.05為篩選條件。P
<0.05時表示基因組與對應的功能具有統計學意義,證明所選基因是合理、有效的。k
為連接度,橫坐標log10(k
)表示某基因連接數的對數,縱坐標表示該基因出現概率的對數,擬合系數R=0.84>0.8,斜率為-2.29,呈線性關系,表明所選軟閾值符合無尺度拓撲分布,所構建的網絡具有較強的魯棒性。如表1所示,WGCNA將過濾后的肌少癥公共數據集聚類為29個基因模塊。其中,不同顏色代表不同基因模塊,結果跟理論預期相一致,每個模塊都包含具有相似功能的多個基因。
Fig.2 Scale free topology check with soft threshold of 5圖2 軟閾值為5的無尺度拓撲檢查
Table 1 Number of module genes表1 模塊基因數
圖3為識別出的29個基因模塊與樣本表型(肌少癥和健康受試者對照性狀)關系的可視化圖(彩圖掃OSID碼可見)。其中,紅色表示正相關,藍色表示負相關,顏色越深則相關性越強,可見Skyblue模塊(r
=0.53,p
=9E-04)、Turquoise模塊(r
=0.38,p
=0.02)和Black模塊(r
=0.37,p
=0.02)與肌少癥具有顯著正相關性,而與對照組呈負相關。因此,可確定這3個模塊為肌少癥的關鍵模塊。此外,所選關鍵模塊的GS和MM值也表明了篩選結果的可靠性。實驗從3個關鍵模塊中共識別出了86個樞紐基因,并通過GO驗證了69個,該結果與當前文獻記載肌少癥是多基因參與的復雜疾病的結論相一致。實驗結果表明,WGCNA在識別樞紐基因時,準確率達到了80.2%。表2為關鍵模塊中的樞紐基因。其中,Skyblue模塊存在17個樞紐基因,驗證成功15個;Turquoise模塊存在68個樞紐基因,驗證成功53個;Black模塊只有1個樞紐基因并已成功驗證。
表3為驗證成功的基因,可發現大多數基因是由多個路徑共同作用,并且根據GO_ID從GO庫查找對應的功能發現,肌少癥的樞紐基因主要通過調節因子活性轉錄、肽基賴氨酸修飾、組蛋白修飾等生物學過程影響肌少癥。
Fig.3 Correlation analysis between key modules and sarcopenia圖3 關鍵模塊與肌少癥的關聯分析
Table2 Hub genes in key modules and their verification information表2 關鍵模塊中的樞紐基因及其驗證信息
p
=0.002)、OVOS2(GO:0010951,p
=0.03),準確率為40%。WGCNA識別出了86個肌少癥相關基因,準確率達到了80.2%,相較于差異基因分析法,該方法更高效,準確率約提高了40%。Table3 Results of genefun ction validation analysis表3 基因功能驗證分析結果
由于肌少癥是多基因參與的復雜疾病,對發病機制的探究造成了很大的困難,利用現代計算機技術發掘其致病基因是一種行之有效的方法。WGCNA分析算法是目前基因共表達網絡研究中最為常用的生物信息學分析方法,本文首次將該算法應用于分析肌少癥,成功篩選出86個與肌少癥相關的樞紐基因,并驗證了69個具有真實生物信息基因,相較于傳統方法,該方法考慮信息更全面,準確率約提高了40%。
驗證成功的基因為探索肌少癥的發病機制提供了新的思路,也為臨床診斷、治療靶點提供了參考。然而,實驗所用樣本數較少,后期將會尋找更合適的數據以進一步提高識別準確率。