李 霞, 于 逸, 左海維, 周鳳娟, 辛 勇
(1.徐州醫科大學附屬醫院放療科,江蘇 徐州 221000;2.徐州醫科大學生命科學學院,江蘇 徐州 221000;3.徐州醫科大學醫學信息與工程學院,江蘇 徐州 221000;4.徐州醫科大學第二附屬醫院放療科,江蘇 徐州 221000)
結直腸癌是消化系統中最常見的惡性腫瘤之一, 其 發 病 率 在 多 種 癌 癥 中 排 第4 位[1]。 環 狀RNA (circular RNA, circRNA) 是一類廣泛表達于真核細胞的環形RNA, 多起源于蛋白編碼基因[2]。 近 年 研 究[3]顯 示: circRNA 可 通 過 微 小RNA (microRNA,miRNA)“海綿” 等作用模式在基因表達中發揮重要的調控作用,且越來越多的證 據[4]表 明:circRNA 可 能 是 一 種 潛 在 的 疾 病 標志物和治療靶點。高通量測序技術[5]發現:在結直腸癌患者腫瘤細胞和血漿中circRNA-VAPA 水平均明顯升高,并且可以通過與miRNA-101 結合,呈現原癌基因活性,促進腫瘤發展。circFAT1 在結直腸癌組織中表達高于癌旁正常腸黏膜組織,體外細胞實驗[5]顯示:下調circFAT1 表達可明顯降低腸癌細胞株遷移和侵襲能力。has_circ_0079656在結直腸癌組織中呈低表達,且隨著結直腸癌病情的進展其表達水平逐步降低,其可能通過作用于HINFP 基因調控細胞周期中G1/S 期的轉錄過程,進而影響結直腸癌的進展[6]。與已經報道的研究不同,本課題組采用表達譜數據與生物信息分析方法發現:hsa_circ_0043278 的表達水平在結直腸癌樣本中明顯降低, 通過統計分析得到了與hsa_circ_0043278 結合的miRNA, 結合基因本體論(Gene Ontology,GO) 生物學功能富集分析與京都基因與基因組大百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG) 信號通路富集分析的方法,闡明hsa_circ_0043278 對Wnt 介導的細胞信號轉導與PI3K-AKT 信號通路的影響, 為揭示hsa_circ_0043278 對結直腸癌發生發展的抑制作用提供依據。
1.1 GEO數據庫數據篩選基因表達數據庫(Gene Expression Omnibus,GEO) 由美國國立生物 技 術 信 息 中 心 (National Center for Biotechnology Information,NCBI) 創建并維護[7]。以“ 結直腸癌” 為關鍵詞進行搜索, 可獲得GSE126094 芯片數據,該芯片包含10 例結直腸癌組織樣本與10 例癌旁組織樣本。首先,采用Perl語言將circRNA 的名稱轉換為標準的circRNA ID,同時采用R 語言讀取GSE126094 芯片的數據,對circRNA 的 表 達 值 進 行 以2 為 底 數 的 對 數 變 換[8],對相同的circRNA 有多個表達值數據,采用 “取平均值” 的方法合并; 使用R 語言對處理后的GSE126094 芯片數據進一步分析,得到結直腸癌組織樣本與癌旁組織樣本中差異表達的circRNA,界 定 條 件: |log2FC| >2 且P<0.05。 并 繪 制GSE126094 數據中差異表達circRNA 熱圖和GSE126094 芯片數據中差異表達circRNA 火山圖。
1.2候選circRNA的生物信息學分析采用circBase 數據庫(http://www.circbase.org) 確定差異表達circRNA 所在染色體的位置信息[9];采用癌癥特異性circRNA 數據庫(Cancer-Specific circRNA Database, CSCD) 得 到 與 差 異 表 達circRNA 結 合 的miRNA[10]; 采 用Perl 語 言 檢 索miRDB 數據庫(http://mirdb.org/)、miRTarBase數 據 庫(http://mirtarbase.mbc.nctu.edu.tw/php/index.php) 與TargetScan 數 據 庫(http://www.targetscan.org/vert_72/),得到miRNA 的靶基因,用于進一步研究。采用R 語言對預測的靶基因進行GO 富集分析與KEGG 富集分析。GO 富集分析包括分子功能(molecular function,MF)、生物學過程(biological process, BP) 與細胞成分(cellular component, CC)[11]。 KEGG 富集分析包括系統信息、 基因組信息、 化學信息和健康信息[12]。以P<0.05 判定為有統計學意義的富集。
1.3統計學分析采用RStudio 0.94.102 和ActivePerl v5.26 統計軟件進行統計學分析。同一個circRNA 在結直腸癌組織與癌旁組織中表達水平的差異倍數以log2FC 表示,組間樣本均數比較采用兩獨立樣本t檢驗。以P<0.05 為差異有統計學意義。
2.1結直腸癌組織與癌旁組織中差異表達的circRNA 結直腸癌組織與癌旁組織均有10 個樣本。差異表達circRNA 的認定條件:|log2FC|>2 且P<0.05,見圖1 (插頁八)。對GSE126094 中數據進行聚類分析, 結果表明存在差異表達的circRNAs (|log2FC|>2 且P<0.05), 見 圖2 (插頁八)。通過對比結直腸癌組織樣本與癌旁組織樣本,共篩選出59 個差異表達circRNAs (|log2FC|>2 且P<0.05)。與癌旁組織樣本比較,在結直腸癌組織樣本中, 表達水平升高的circRNAs 有23 個(logFC>2 且P<0.05), 表 達 水 平 下 降 的circRNAs 有36 個(logFC<-2 且P<0.05)。結直腸癌組織樣本與癌旁組織樣本表達差異倍數最大的是 hsa_circ_0043278 (logFC=-7.481 且P<0.05),見表1。
2.2靶基因的預測結果對hsa_circ_0043278 進一步分析。采用circBase 數據庫,檢索得到hsa_circ_0043278 所在染色體位置信息。利用CSCD 數據庫確定與hsa_circ_0043278 結合的miRNA,結果得到66 個與hsa_circ_0043278 結合的miRNAs。具體包括hsa-miR-1207-3p、 hsa-miR-1197 和hsa-miR-561-5p 等。 編 寫Perl 程 序, 對miRDB 數 據 庫、miRTarBase 數據庫和TargetScan 數據庫分別檢索,得到這66 個miRNAs 的靶基因。 10 個代表性miRNAs 與其對應的靶基因見表2。
2.3靶基因GO富集分析結果在生物學功能方面,靶基因主要參與Wnt 介導的細胞信號轉導、脫磷與對肽的反應等(P<0.05);在細胞成分方面,靶基因主要定位于染色質與核染色體等(P<0.05);在分子功能方面,靶基因主要參與近端啟動子序列特異性DNA 結合和染色質結合與轉錄輔調節活性等(P<0.05)。見圖3 (封三)。

表1 結直腸癌組織和癌旁組織中部分circRNAs 表達水平差異倍數Tab.1 Difference multiples of some circRNAs expression levels in colorectal cancer tissue and adjacent cancer tissue
2.4靶基因KEGG富集分析結果利用R 語言對與hsa_circ_0043278 結合的miRNA 靶基因進行KEGG 富集分析。 共得到19 條KEGG 統計結果,靶基因主要與PI3K-AKT 信號通路、 MAPK 信號通路與調節干細胞多能性的信號通路等有關聯(P<0.05)。見圖4 (封三)。

表2 部分與hsa_circ_0043278 結合的miRNAs 和miRNAs 的靶基因Tab.2 Part of miRNAs combined with hsa_circ_0043278 and target genes of miRNAs
結直腸癌的發病率和死亡率普遍較高。盡管許多學者與科研機構對結直腸癌的研究非常深入,但仍有超過50% 的結直腸癌患者最終死于該疾病[13]。因此, 研究結直腸癌發生發展的機制非常必要。circRNA 作為非編碼RNA 的一種,因其高穩定性和組織特異性已成為近年的研究熱點[14]。circRNA 作為內源性RNA 可以與其他內源性RNA 競爭結合miRNA 從而影響靶基因的表達[15]。本研究從circRNA 的角度研究結直腸癌發生發展的機制。
芯片技術具有高通量與高效率的特點,與傳統生物學方法相比優勢明顯[16]。本研究選取了GEO數據庫中結直腸癌基因芯片表達譜數據, 包括10 例結直腸癌組織樣本與10 例癌旁組織樣本。通過比較2 組circRNAs 表達水平,共發現59 個有統計學意義的差異表達circRNAs,其中表達水平上升的circRNAs 有23 個,表達水平下降的circRNAs有36 個。與癌旁組織樣本比較,在結直腸癌組織樣本中hsa_circ_0043278 表達水平降低最明顯,提示hsa_circ_0043278 可能在結直腸癌中具有一定特異性。
采用Perl 語言分別檢索miRDB 數據庫、miRTarBase 數據庫與TargetScan 數據庫,得到與hsa_circ_0043278 結 合 的miRNA 的 靶 基 因。 使 用R 語言對miRNA 的靶基因進行GO 富集分析與KEGG 富集分析。GO 富集分析包括3 個層面:BP、CC 和MF[17]。GO 富 集 分 析 結 果 表 明:靶 基 因 主要參與Wnt 介導的細胞信號轉導、脫磷與對肽的反應等BP。已有研究[18-19]表明:Wnt 蛋白是調節分泌的生長因子,在胚胎發育過程中能調節干細胞的增殖和分化,細胞間Wnt 信號轉導表達異常與癌癥的發生有密切關系。脫磷是與hsa_circ_0043278 結合的miRNA 的靶基因主要參與的BP。 因此,hsa_circ_0043278 在結直腸癌組織樣本中表達水平的異常降低可能會間接影響Wnt 介導的細胞信號轉導與脫磷過程, 進而減弱了對結直腸癌的抑制作用。
KEGG 富集分析表明:與Hsa_circ_0043278 結合的miRNA 的靶基因富集的通路有PI3K-AKT 信號通路、MAPK 信號通路與調節干細胞多能性的信號通路等。PI3K-AKT 信號通路作為細胞中重要的信號轉導通路之一,通過影響下游多種效應分子的活化狀態,發揮著促進細胞增殖和抑制凋亡的作用[20]。 已 有 研 究[21]表 明: 組 成 性 活 化 的PI3KAKT 信號通路在廣泛的人類腫瘤譜中失調,原因是AKT 被過度活化以及PI3K-AKT 通路的部分調控成分突變。因此,hsa_circ_0043278 在結直腸癌組織樣本中表達水平的異常降低可能會間接影響其對PI3K-AKT 信號通路的調控作用,進而減弱了對結直腸癌的抑制作用。
本研究采用生物信息學方法確定了hsa_circ_0043278 在結直腸癌組織樣本中表達水平異常降低(logFC=-7.481 且 P<0.05), 提 示 hsa_circ_0043278 的正常表達或提升其表達水平可能會抑制結直腸癌的發生發展。通過GO 富集分析與KEGG富集分析闡明了hsa_circ_0043278 的作用機制:其間接影響靶基因UTP18、 CLIP4 與STC2 等的功能,進而影響對Wnt 介導的細胞信號轉導與PI3KAKT 信號通路的調控作用,最終降低了對結直腸癌的抑制作用。由于樣本的局限性,本研究并未對結直腸癌的發生發展機制進行進一步探索。未來,本課題組將整合更多臨床樣本數據,并開展相應的生物實驗,進一步揭示circRNA 對結直腸癌的作用機制。