王 璇 賈洪誠 孫 正
口腔鱗狀細胞癌(oral squamouscell carcinoma,OSCC)占口腔癌90%以上,發病率和死亡率較高,全世界每年新發病例超過27.5萬,我國OSCC發病率也同樣很高,每年新發病例11900例,約5000人死于OSCC[1-4]。OSCC是一個多基因、多因子互相作用的復雜過程,目前還缺少有效的、微創的監測手段。長鏈非編碼RNA(long non-coding RNA,lncRNA)是一類轉錄本長度超過200nt的RNA分子,起初被認為是基因組轉錄的“噪音”[5]。然而,近年來的研究表明,lncRNAs參與了X染色體沉默、基因組印記以及染色質修飾、轉錄激活、轉錄干擾、核內運輸等多種重要的調控過程,可以在表觀遺傳學水平、轉錄及轉錄后水平等在多種層面上調控基因的表達[6]。轉錄譜分析顯示lncRNAs在人類腫瘤中的表達明顯異常,和腫瘤的分子病理機制有關,lncRNA具有腫瘤發生、發展的調節因子功能,有望成為腫瘤的潛在標志物和治療靶標。然而,OSCC患者血漿中lncRNA表達譜尚未見報道。本研究應用lncRNA芯片技術,比較OSCC患者和健康者血漿中lncRNA的差異表達情況,運用生物信息學方法分析靶基因的生物學效應,以探討OSCC相關lncRNAs與OSCC發生、發展的關系,以期為OSCC的早期診斷和預后判斷提供理論基礎。
1.1 研究樣本 于2013年12月至2015年5月間在首都醫科大學附屬北京口腔醫院黏膜科和口腔外科收集入組,簽署知情同意書,一般狀況見表1。所有受試者均未行放化療,無其他系統性病史,各重要器官功能無異常。本研究項目經首都醫科大學附屬北京口腔醫院倫理委員會批準。于清晨空腹采集血漿,用紫帽采血管(EDTA抗凝)采取靜脈血10ml,4℃、1000×g離心10min,分離血漿和細胞組分,將采集好的血漿轉移至單獨的EP凍存管,按照每400~500ul/管分裝好,于-80℃凍存、待檢。

表1 研究人群的一般狀況
1.2 芯片雜交實驗 研究所用芯片為Arraystar人類lncRNA芯片(v4.0),由上海康成生物技術有限公司協助完成。按照Arraystar LncRNA Array Protocol標準流程進行芯片雜交實驗。完成雜交的芯片采用Agilent Microarray Scanner(Agilent p/n G2565BA)進行掃描,使用Agilent Feature Extraction軟件(v11.0.1.1)獲得芯片圖,并讀值,得到原始數據。
1.3 數據處理 使用GeneSpring GX v12.1軟件(Agilent Technologies)對原始數據進行Quantile標準化和隨后的數據處理。原始數據標準化后經過篩選高質量探針(某探針在6個樣品中至少有3個被標記為Present或Marginal)進行進一步分析。差異表達lncRNAs或DEGs通過P-value/FDR篩選,P值利用t-test計算,并根據Benjamini Hochberg FDR方法進行修正(即FDR值),篩選標準為|Fold change|≥2.0且FDR<0.05。DEGs進行GO和KEGG分析,使用編寫腳本進行層次聚類和關聯分析。
1.4 Real-time PCR驗證 根據芯片結果,選取14條lncRNAs做芯片同源血漿樣本PCR驗證。Realtime PCR反應體系為:5μl 2×Master Mix、0.5μl 10uM的 PCR特異引物F、0.5μl 10uM 的PCR特異引物R、加水至總體積為8μl;將8ul混合液加到384-PCR板對應的每個孔中,再加入對應的2μl cDNA。PCR儀為ViiA 7 Real-time PCR System(Applied Biosystems),反應程序為:95℃10min;共40個PCR 循環(95℃10s,60℃60s,熒光檢測1次)。引物設計軟件為Primer 5.0。使用管家基因β-actin作為內參。組間比較采用t檢驗,檢驗水準α=0.05。
2.1 血漿總RNA放大和標記情況 血漿總RNA放大和標記結果見表2。

表2 血漿總RNA的熒光標記放大結果
2.2 芯片雜交圖像 芯片信號清晰,無邊緣化效應,證明芯片結果可用。具體見圖1~圖6。

圖1 (H5)

圖2 (X474)

圖3 (H8)

圖4 (X574)

圖5 (H13)

圖6 (X602)
2.3 箱體圖分析 由圖7、圖8可以觀察到芯片掃描后各個樣本熒光密度值標準化之后的分布,其平均值基本保持在同一水平,進一步驗證了芯片掃描讀數的穩定件。

圖8 Box Plot-mRNA

圖7 Box Plot-lncRNA
2.4 差異表達的lncRNAs和mRNAs OSCC組和健康對照組相比,有6606個lncRNAs表達有差異,其中上調3511個,下調3095個;同時檢測到有4196個mRNAs表達有差異,其中上調1766個,下調2430個。
2.5 聚類分析 聚類圖橫軸代表樣本聚類,縱軸代表基因聚類,紅色代表高的相對表達量,綠色代表低的相對表達量(圖9,圖10)。可見,這些差異表達的lncRNAs和mRNAs可以很好的將OSCC和健康組區分開來。


圖10 差異表達mRNAs的聚類分析
2.6 DEGs的GO分析 對差異lncRNAs的靶基因進行Gene Ontology的生物學的分類,可以獲得lncRNAs靶基因對應的顯著性功能,從而了解lncRNAs的功能。表達上調的mMRAs共富集到266條BP術語、33條CC術語、57條MF術語;表達下調的mRNAs共富集到266條BP術語、90條CC術語、55條MF術語。差異表達mRNAs富集的GO術語差異顯著性(按照P值排序)前十者見表3、4。

表3 表達上調mRNAs富集的GO生物學術語(前10個)

續表
2.7 DEGs的KEGG生物學通路分析 京都大學基因和基因組百科全書數據庫(Kyoto Encyclopedia of Genesand Genomes,KEGG),是系統分析基因功能的數據庫。對差異表達mRNAs數據進行KEGG生物學通路分析(Pathway analysis)分析,上調的mRNAs在8條基因通路中富集程度比較高(表5),下調的mRNAs在14條基因通路中富集程度比較高(表6)。
2.8 待測基因以內參校正后的相對表達量比較與對照組相比,OSCC組14個lncRNAs均呈差異表達,除了NR_024050下調(無統計學意義)外,其余13個lncRNAs均上調,有9個lncRNAs的差異倍數具有統計學意義(表7)。這與lncRNA芯片結果基本一致。

表4 表達下調mRNAs富集的GO生物學術語(前10個)

續表

表5 表達上調mRNAs富集的生物學通路

表6 表達下調mRNAs富集的生物學通路

表7 14個lncRNAs相對表達量及差異表達倍數(OSCC/H)

續表
雖然lncRNA芯片檢測信息量大,但篩選出來的lncRNA質量并不很穩定,缺乏可重復性,芯片上所有探針雜交條件的一致性限定了雜交的特異度,導致結果的假陽性率較高。血清/血漿中RNA含量低于分光光度計測量的下限,無法準確測量,因此無法通過測量OD值或比值來判斷純度或濃度,同時無細胞的血清/血漿中RNA主要是小RNA,傳統的凝膠電泳檢測RNA完整性也不適于血清/血漿中RNA。為了避免芯片篩選出現假陽性,驗證芯片結果的可信度,作為芯片實驗反向質控步驟,本研究利用PCR方法對芯片同源血漿樣本做了驗證。結果證明,血漿樣本質量完好,lncRNA量充足。基因表達的差異方向與芯片實驗結果一致,進一步確認這些基因在OSCC血漿中差異表達,同時也說明芯片實驗結果可信。
大量研究證明lncRNA表達失調可以作為腫瘤診斷和預后判斷的生物標志物。比如MALAT1可作為前列腺癌早期診斷的標志物[7],HOTAIR表達上調提示結腸癌和乳腺癌預后差[8],GAS5表達下調提示胃癌預后差[9],HULC在肝癌中表達異常[10]等。本研究發現,OSCC血漿中有6606個lncRNAs和4196個mRNAs表達有顯著性差異。聚類分析表明,這些DEGs對樣本有很好的聚類作用。
GO分析顯示,有532個DEGs在生物學進程方面富集程度較高,123個DEGs在細胞組件方面富集度較高,112個DEGs在分子功能方面富集度較高。這些功能涉及到腫瘤細胞的生長、分化、代謝、凋亡、信號傳導等整個細胞周期過程,由此可見機體調控機制的復雜性,這些DEGs可能通過調節細胞周期的各個環節來參與細胞的轉化和惡變過程,而這些DEGs以及它們參與調控的路徑均有可能成為OSCC分子診斷和基因干預治療的新靶點。
我們進一步對DEGs進行KEGG Pathway分析,獲得了DEGs所參與的細胞生命活動調節通路。上調mRNAs參與了8條通路,下調mRNAs參與了14條通路。這些通路大部分都包含有炎癥、免疫、代謝等相關因子和路徑。比如,RIG-I樣受體信號通路中包含了泛素介導的蛋白水解、MAPK信號通路等。HIF-1信號通路包含mTOR、MAPK、VEGF和PI3K-Akt信號通路,亨廷頓病通路中包含p53信號通路。諸多證據表明PI3KAkt信號通路在腫瘤的進展中起著重要的作用[11-13],這條通路在原發性腫瘤和繼發性腫瘤中表達均明顯增高[12,14]。維甲酸誘導基因I樣受體(Retinoic acidinduciblegene I,RIG-I)是機體識別病毒的主要模式識別受體之一,RIG-I基因可能具有腫瘤抑制劑作用[15],RIG-I信號通路異常可導致炎癥、免疫疾病和腫瘤發生,RIG-I可以通過下調基質金屬蛋白酶(matrix metalloproteinase 9,MMP9)來抑制肝癌細胞的轉移和侵襲[16],RIG-I也可通過調節Akt激活,對鱗癌細胞產生雙重作用:低劑量的病毒雙鏈RNA活化RIG-I,促進了細胞的生長,而高劑量的病毒活化RIG-I導致細胞凋亡,這些發現提示雙鏈RNA介導的RIG-I激活在頭頸部鱗癌的發生發展中具有潛在的關鍵作用[17]。促分裂素原活化蛋白激酶(mitogen-activated protein kinase,MAPK)通路調節細胞增殖、分化、生存、凋亡等,與腫瘤的增殖、遷移、侵襲等生物學行為密切相關[18]。
總之,OSCC患者血漿lncRNA表達譜發生了顯著變化,DEGs功能涉及細胞的生長、分化、凋亡、信號傳導等整個細胞周期過程,涉及到的通路包括:信號傳導通路、炎癥相關通路、代謝相關通路、細胞周期等。眾多基因及通路組成復雜的調控網絡參與細胞的轉化和惡變過程。LncRNA是當代表觀遺傳學中最有潛力的基因表達調控模式[19],對lncRNA表達譜的研究及相關生物信息學分析有助于OSCC治療靶點的鑒定和生物標志物的發現。在后續研究中需要進一步擴大樣本,深入研究證實結論的可靠性并篩選出在OSCC中具有進一步研究價值的lncRNAs。