孫 超,海 娜,趙勁民Δ
(廣西醫科大學 1.再生醫學研究中心重點實驗室;2.第一臨床醫學院創傷手外科,南寧 530021)
關鍵字 骨肉瘤;數據挖掘;SP6;預后
骨肉瘤是最常見的原發性骨癌,在兒童和青少年中的發病率為4.4%[1]。在20 世紀70 年代之前,絕大多數骨肉瘤僅通過簡單的手術切除來治療,5年生存率為10%至20%[2-3]。近代多學科多方式治療(新式輔助化療、改良手術和傳統輔助化療)已將5年生存率提高至約70%[3-4]。然而,在過去40年中,盡管更多的患者在臨床試驗內、外接受了聯合化療治療,但臨床上的生存率相較過去幾乎沒有進一步的改善。因此,尋找敏感度和特異性更強的預測性生物標志物及生物治療靶點具有重要的臨床意義。SP6屬于包含3個經典鋅指脫氧核糖核酸結合結構域的轉錄因子家族(SP/XKLF Family),又被稱為KLF-14 或Epiprofin[5]。基因定位于人染色體17q21.3-q22。目前研究發現SP6在核質中通過調節RNA 聚合酶Ⅱ啟動子的轉錄及一系列下游通路來促進細胞增殖[6]。本文通過挖掘公共數據庫數據,分析SP6 在骨肉瘤疾病中的表達情況,研究SP6 在臨床病理學的特征及與骨肉瘤預后的關系,旨在尋找敏感度更高的早期指標及探究其成為新的臨床治療靶點的可能性。
1.1 數據資料收集(1)人類蛋白質數據庫(HPA,https://www.proteinatlas.org/,2021年1月27日)中以“SP6”作為關鍵詞檢索,在“Cell”的選項卡中提取其蛋白質定位信息;(2)GEPIA 數據庫(https://www.proteinatlas.org/,2021 年1 月27 日)中對SP6 在各類腫瘤正常組織和癌癥組織中的表達進行分析;(3)在GEO 數據庫(https://www.ncbi.nlm.nih.gov/gds/,2021 年1 月27 日)中檢索“Osteosarcoma”,以“Series”和“Expression profiling by array”作為項目選擇條件,從檢索得到的數據集中挑選出一個樣本含量大于50,且具有完整隨訪時間的數據芯片,并下載相關的GSE和GPL數據,最后挑選出滿足條件的一個數據集GSE21257含完整臨床信息資料的骨肉瘤樣本47例,平臺注釋文件GPL10295。
1.2 數據篩選和處理 用R 軟件(版本3.6.3,https://www.r-project.org/)對GSE21257 進行基因名稱注釋,注釋文件采用GPL10295;對于基因名重復的,用R 的“limma”包求取平均值,得到一個基因芯片表達量的矩陣文件,然后用“normalizeBetweenArrays”函數對組間進行標準化校正,并提取SP6的表達量。
1.3 SP6 基因在骨肉瘤中的生存情況及評估 利用R 的“survival”包繪制SP6 在骨肉瘤中生存曲線,以SP6表達量的中位數作為高表達組(n=23)和低表達組(n=24)的分界值,高、低表達組的差異顯著性用log-rank 檢驗分析。受試者工作特征曲線(ROC曲線)具有識別SP6在骨肉瘤中的診斷價值的能力,利用R 的“survivalROC”包繪制出SP6 在骨肉瘤1年、3年和5年中的ROC曲線。
1.4 SP6 和臨床性狀與骨肉瘤的預后相關性分析 用R 的“survival”包對SP6 和臨床特征信息進行單因素Cox和多因素Cox分析,挑選出P<0.05的作為獨立預后的指標,這些指標能單獨作為預測骨肉瘤患者生存率的因素。SP6通過與這些因素之間的分層對比,可以展示SP6 在不同臨床性狀之間的差異。
1.5 差異分析 SP6 高表達組的23 個樣本與低表達組24個樣本之間的差異性通過R的“limma”包分析,結果篩選以P<0.05 和差異倍數對數的絕對值(|logFC|)大于1作為標準;使用R的“pheatmap”包對差異的結果進行聚類分析,直觀顯示出高、低表組中差異基因表達量的差異情況。
1.6 差異基因的GO 和KEGG 功能富集分析 為更進一步了解SP6 高、低表達組間差異基因的功能情況,利用R 的“org.Hs.eg.db”包對差異基因進行基因名注釋,然后用“clusterProfiler”包進行GO(http://www.geneontology.org)和 KEGG(https://www.genome.jp/kegg/pathway.html)代謝途徑的功能富集分析,富集過程中,只有同時滿足P值和FDR小于0.05才會被納入富集的結果,最后挑選出前10個進行展示。
1.7 基因集富集分析(GSEA)利用GSEA 軟件v4.0.3(http://www.broadinstitute.org/gsea)對SP6高、低表達組進行GSEA功能富集,以預測SP6在骨肉瘤中的機制功能。本研究使用了分子特征數據庫(MSigDB,http://www.broadinstitute.org/gsea/msigdb)中免疫相關的兩個分子集IMMUNE_RESPONSE.gmt 和IMMUNE_SYSTEM_PROCESS.gmt 進行富集分析,其中IMMUNE_RESPONSE.gmt 里面的基因是用GO:0006955 進行注釋的,IMMUNE_SYSTEM_PROCESS.gmt 里面的基因是用GO:0002376 注釋的,當FDR<0.05,P值小于0.05,以及標準化富集得分(NES)的FDR低于0.25 時被認為是該基因集存在顯著富集。
1.8 統計學方法 采用R 軟件(3.6.3)對實驗數據進行分析,計數資料以百分率(%)表示,組間比較采用χ2檢驗;采用Kaplan-Meier法進行繪制生存曲線,生存曲線的比較采用Log-Rank 法,SP6 在1 年、3 年和5 年生存率患者中的診斷價值采用基于時間的ROC 曲線評估;生存資料采用單因素和多因素Cox回歸分析;等級資料采用對數秩檢驗或Wilcoxon秩和檢驗,以P<0.05為差異有統計學意義。
2.1 SP6 在多種腫瘤中的表達及定位 經過GEPIA數據庫中的分析顯示,多種腫瘤中,SP6的表達在正常組織和腫瘤組織比較,差異有統計學意義(P<0.05),見圖1;HPA 數據庫中3 種正常細胞系(CACO-2、RT4 和U-2 OS)的免疫熒光圖提示SP6蛋白主要定位于核質,其次為中心體和有絲分裂紡錘體,見圖2。
2.2 SP6 在骨肉瘤中的生存分析 經過篩選,具有完整臨床信息(包括性別、腫瘤分期和轉移情況)的骨肉瘤樣本有47例,以SP6表達的中位數將樣本分為高表達組和低表達組;Kaplan-Meier 法繪制的生存曲線顯示,SP6 高表達組的生存率顯著低于低表達組,高表達組的中位生存期為2.25 年,低表達組為6.17 年,且Log-Rank 法比較兩組生存曲線,差異具有統計學意義(P=0.006),見圖3A;1 年、3 年和5年生存率的ROC曲線下面積分別為0.844、0.776和0.746,見圖3B。
2.3 SP6 與臨床性狀聯系 單因素Cox 和多因素Cox 回歸分析顯示SP6 的表達、骨肉瘤臨床分期和腫瘤是否轉移為3個獨立預后因子,見表1。為進一步探討SP6 與臨床性狀的相關性,將SP6 的表達在腫瘤分期4個亞組和轉移的3個亞組中進行差異分析發現,臨床分期與SP6的表達相關性較低,只有1期和2 期比較,差異有統計學意義(P=0.012),見圖4A;而在轉移的亞組中,發現未轉移組的SP6 表達量與轉移組和后發轉移組比較,差異均有統計學意義(P<0.05),且SP6 在腫瘤轉移中表達增高,見圖4B。

圖1 SP6在各種腫瘤中正常組織和腫瘤組織的表達情況

圖2 CACO-2、RT4和U-2 OS細胞系SP6蛋白免疫熒光染色及SP6蛋白主要分布示意圖(HPA數據庫)

圖3 SP6高、低表達組在骨肉瘤中的總體生存率及其1年、3年和5年生存率ROC曲線

表1 SP6和臨床特征值在骨肉瘤中的預后情況

圖4 SP6在各個亞組中的表達情況
2.4 SP6 高、低表達組差異分析及功能富集 為探索高、低表達組在生物學功能上的差異,篩選出|log-FC|>1 和P<0.05 的差異基因,并進行GO 和KEGG富集分析。最終通過差異分析共找到88 個滿足條件的差異基因,GO的富集結果顯示,這些基因主要富集于MHCⅡ類抗原的加工和呈遞、外源抗原的呈遞和細胞對干擾素γ 的反應等生物功能(BP)上,其次富集于MHCⅡ類蛋白復合物、高爾基體相關囊泡膜、網格蛋白包被的內吞囊泡膜和內質網膜腔側等細胞成分(CC)上,此外還富集到了分子功能(MF),如:MHCⅡ類受體活性、細胞外基質結構成分、肽抗原結合等(圖5A);KEGG 通路分析顯示,差異基因主要富集在抗原處理及呈遞、吞噬體、Th1和Th2細胞分化和類風濕性關節炎等通路上(圖5B)。
2.5 GSEA 高、低組差異基因的功能富集為探究SP6 高、低表達組在整體數據集中的富集情況與差異基因的富集結果是否一致,選取兩個免疫相關的分子集進行GSEA 分析,結果顯示GO富集和KEGG差異分析結果具有一致性,低表達組在IMMUNE_RESPONSE.gmt 和IMMUNE_SYSTEM_PROCESS.gmt的兩個分子集中且明顯富集,表明SP6 可能通過免疫反應參與骨肉瘤的發展,見圖6。

圖5 SP6高低組差異基因的功能富集分析

圖6 分子集在免疫通路上的GSEA富集情況
骨肉瘤作為骨科常見腫瘤,其造成患者死亡的主要原因是由于其高侵襲性和高轉移性[7],其轉移機制復雜多樣,可由多種原因共同影響,其中癌細胞的增殖能力尤為重要[8]。SP6主要定位于核質,經由調節來自RNA 聚合酶Ⅱ啟動子的轉錄及一系列下游通路,對于細胞的增殖起到重要作用。多項研究表明,SP6 基因在胃癌[9]、乳腺癌[10]及前列腺癌[11]中有高表達,且已作為免疫識別或治療位點。目前SP6基因尚未見有在骨肉瘤中的報道。本研究通過對網絡公開的大量測序數據分析發現SP6基因與骨肉瘤的預后密切相關。提示SP6基因有成為骨肉瘤早期識別和影響判斷預后的生物標志物的潛力。
本研究發現,SP6 對骨肉瘤患者的生存率具有明顯的影響,高表達組的生存率明顯低于低表達組且高表達組的中位生存期為2.25年,顯著低于低表達組的6.17年(P=0.006)。ROC曲線則顯示SP6的表達量在患者1年、3年和5年生存率上有很高的診斷價值。這說明SP6的表達量與骨肉瘤患者的生存率可能存在負相關。
在獨立預后分析中,SP6的表達量、腫瘤分期和腫瘤轉移對于骨肉瘤的預后是3 個獨立因素,提示SP6 在骨肉瘤的預后分析中有重要的研究意義;在臨床亞組和SP6 的相關性分析中,發現SP6 與腫瘤分期相關性低,而在未轉移、轉移和后發轉移的亞組研究中,未轉移組中的SP6 表達量在轉移組和后發轉移組中有明顯差異(P<0.05),提示SP6在骨肉瘤的轉移中可能起到一定的促進作用。差異基因的功能富集結果顯示SP6高低表達組在免疫反應過程中存在顯著差異,提示SP6 可能通過參與各類免疫反應來影響骨肉瘤的發展,且GSEA 的結果顯示出了與GO 和KEGG 富集結果的一致性,免疫反應通路都顯著富集到了SP6 低表達組上,說明SP6 低表組免疫反應強于高表達組(P<0.05)。有研究顯示,骨肉瘤細胞控制免疫滲透細胞的招募和分化,建立有利于腫瘤生長和轉移的微環境[12],有研究表明,T 細胞在骨肉瘤組織周邊浸潤的比例明顯高于其他肉瘤類型,且浸潤程度與患者的生存率呈現出正相關趨勢[13]。Mazzocco等[14]證明了野生型SP6小鼠對腫瘤的免疫能力相比起基因修飾后的SP6/B7小鼠降低,Sartoris等[15]也證明經B7-1編輯后的SP6小鼠對腫瘤的免疫力有所增強。而SP6在小鼠的骨肉瘤模型中可以誘導抑制性T 細胞(Ts)的產生[16],從而降低免疫反應的進展,這可能是SP6 高表達組免疫反應低于低表達組的原因之一。因此,SP6 在骨肉瘤的免疫進程中的具有十分重要的意義。
綜上所述,SP6 在骨肉瘤的早期識別和預后中顯示出明顯的診斷意義,但需要更加深入的研究來展現SP6 表達對細胞功能的影響,并揭示其中的分子相互作用方式和信號傳導途徑,以期尋找到敏感度、特異度更高的早期診斷指標以及新的臨床療效更好的治療靶點。