■文/田曉雪
H i-C 技術自2009年由美國馬薩諸塞大學醫學院教授喬布·德克爾(Job Dekker)研究團隊首次提出以來,發展得如火如荼。這把揭秘三維基因組的鑰匙將會在哪些方面助力科研、造福人類呢?
眾所周知,一顆受精卵經過不斷增殖、分化,可以生長發育為一個由種類高達200 余種、數目以萬億計的細胞組成的復雜機體。然而,共享一套遺傳系統的細胞是如何發育成為形態、功能各異的組織器官的呢?作為主要的遺傳物質,脫氧核糖核酸(Deoxyribonucleic acid,DNA)的展開長度可以達到2 米,這些DNA 是如何被放置在一個直徑只有10 微米左右的細胞核中的呢?在這種極度壓縮的環境下,它們又是如何精確調控細胞功能,維持機體穩態的呢?
長期以來,這些難題像一把“枷鎖”,嚴重阻礙了生命科學的發展進程。高通量染色質構象捕獲(High-throughput/resolution chromosome conformation capture,Hi-C)技術的出現,幫助我們深入探究基因組三維結構之謎,為基因研究提供了強大的推動力,是一把名副其實的基因鑰匙。
以我們自身為例,人類體細胞的核內存在著彼此獨立又相互聯系的46 條染色體,它們主要由遺傳物質DNA 和組蛋白組成。其中,DNA 一般以染色質絲的形式存在,染色質絲纏繞在組蛋白復合物上,形成串珠樣結構。串珠樣的染色質會進一步像電話線一樣纏繞折疊,形成極度壓縮而又高度有序的狀態,分布在細胞核的特定位置,稱為染色質疆域(Chromosome territories,CT)。簡單來講,染色質疆域指的是不同染色體占據的不同空間。一直以來,我們主要通過X 射線、顯微鏡等傳統方式觀察染色質和其折疊狀態。受限于分辨率低、通量小等因素,我們對其折疊的具體機制知之甚少。作為基因組密鑰,Hi-C 技術的出現為我們提供了新的視角。
Hi-C 技術源于染色體構象捕獲(Chromosome conformation capture,3C)技術,以整個細胞核為研究對象,利用高通量測序技術,結合生物信息分析方法,研究全基因組范圍內整個染色質DNA 在空間位置上的關系,通過對染色質內全部DNA 相互作用模式進行捕獲,獲得高分辨率的染色質三維結構。實驗流程并不復雜,主要包括細胞交聯(Crosslink)、酶切(Digestion)、環化連接(Ligation)、純化建庫(Purification and Library preparation)和測序分析(Sequencing)等步驟(見圖1)。

圖1 Hi-C 實驗流程
染色質疆域是我們對染色質空間結構認知的第一步,Hi-C 技術不僅可以高分辨地解析出傳統方法觀察不到的染色質疆域,而且能進一步幫助我們解析出染色質疆域內各種亞結構。如圖2 所示,按照基因組從大到小的順序排列,依次為A/B 染色質區室(A/B compartments)、域(domain)和染色質環(Chromatin loop,CL)。具體來講,放大染色質疆域的某一空間,我們可以根據染色質的活性將其分為A/B 區室。A 區染色質為活躍區,基因表達較為豐富,鳥嘌呤和胞嘧啶(GC)含量較高,通常高度轉錄,包含用于主動轉錄的組蛋白標記,位于細胞核的內部;B 區是關閉的染色質,結構緊湊,基因表達豐度和轉錄活性均較低,含有基因沉默的組蛋白標志物,位于核的外圍。在A/B 區室中,我們將比例尺進一步放大,可以發現互相作用相對頻繁的基因組區域,這些就是域,如拓撲相關結構域(Topologically associated domain,TAD) 等。TAD 是一個高度自關聯的連續區域,通過明顯的邊界與相鄰區域分離開來。TAD 邊界通常具有大量的絕緣子蛋白和黏連蛋白,對結構的維持及穩定性具有重要作用。TAD 是一個獨立的調控單元,在哺乳動物基因組中,TAD 通常由轉錄抑制因子CTCF 分割開來。CTCF 非常活躍,它可以和黏連蛋白復合物結合,把分布較遠的增強子(enhancer)和啟動子(promoter)等DNA 元件綁到一起,形成染色質環,作為染色質三維結構的基本結構。利用Hi-C 技術,我們可以從A/B 區室、TAD 和染色質環三個層次解析基因組的三維結構,更好地理解機體內正在發生的生理生化過程。
科學家利用Hi-C 技術以機體發育和衰老等生理過程為模型,增進了對染色質層級結構的發生機制及其與基因組功能關系的理解。其中,染色質環可以使空間上相隔較遠的DNA 調控元件,如啟動子和增強子等在物理維度上相互接近,從而調控基因轉錄、核糖核酸(Ribonucleic acid,RNA)剪接等重要的生化過程。TAD 作為更大、更保守的結構功能單元,通過限制、引導和促進增強子-啟動子的相互作用,從而協調基因調控。此外,科學家還發現:在機體發育早期,TAD 和A/B 區室等染色質高級結構存在著緩慢建立的過程;在配子發生、合子基因組激活及組織分化發育等一系列事件中,包括TAD、A/B 區室等在內的基因組三維結構會經歷劇烈且特異性的消失-重建過程。

圖2 基于3C 技術的三維基因組的層次結構
基因組三維結構異常與表觀遺傳修飾如DNA修飾、組蛋白修飾等密切相關,在疾病的發生、發展中發揮著重要作用。Hi-C 技術幫助我們深刻認識到,許多疾病的發生、發展與基因組三維結構的異常存在相關性。當基因組結構發生變異,如單核苷酸突變、小片段核酸序列(50 個堿基對以下)的異常插入或缺失(Insertion-deletion,InDel)和染色體結構變異均可導致疾病的發生、發展。例如,染色質環的重要組成部分黏連蛋白發生突變時,會引起基因組的結構異常,導致Cornelia de lange 綜合征(CdLS)等遺傳病的發生。WNT6/IHH/EPHA4/PAX3 等基因位點TAD 區域遭到破壞時,會引起異常的增強子-啟動子相互作用,從而使基因錯誤表達,導致先天性發育障礙。
基因組三維結構與病毒感染密切相關。科學家應用Hi-C 技術發現休眠狀態下的乙型肝炎病毒(HBV)主要寄宿在19 號染色體的異染色質附近區域,但當其活化后,則會更多地寄宿在基因組轉錄活躍區域。同樣的,對罕見的艾滋病自愈者進行Hi-C 數據分析發現,艾滋病病毒(HIV)主要存在于19 號染色體的中心粒衛星DNA 或KRAB-ZNF 基因位置,且多異染色體標記,與基因轉錄起始位置或開放染色質相距較遠。
另外,基因組三維結構在腫瘤發生、發展中也發揮著重要作用。絕緣子蛋白CTCF 的旁系同源蛋白CTCFL 在多種腫瘤中表達異常,可維持腫瘤干細胞的活性,提高腫瘤風險等級,而且嚴重影響腫瘤藥物的治療作用。Hi-C 技術與其他組學技術的聯合開發應用,為我們理解腫瘤的發生、發展提供了新的視角。科學家應用Hi-C 技術和多組學技術發現:相比正常細胞,乳腺癌細胞中約12%的基因組區域發生了A/B 區室的轉換;前列腺癌細胞比正常細胞具有更多的TAD 和更小的TAD 長度,并且在具有拷貝數變異的區域里發現了許多癌癥特異性的TAD 邊界;在轉移性胰腺癌細胞中,A/B 區室、TAD 和染色質環都發生了顯著變化;在多發性骨髓瘤中,拷貝數變異的斷點常與TAD 邊界重合;對脊索瘤進行Hi-C、RNA 高通量測序(RNA-seq)等多組學分析發現,碳酸酐酶2(Carbonic anhydrase II,CA2)在脊索瘤中高表達,可以作為新的治療靶點。由此可見,Hi-C 技術在疾病的診斷和治療方面發揮著獨特作用。
此外,Hi-C 技術在基因組從頭拼接、物種進化樹構建方面也發揮了巨大作用。目前,高通量測序方法只能夠將基因組組裝到重疊群/腳手架(Contig/Scaffold)水平,無法獲得染色體水平的基因組信息。Hi-C 輔助組裝技術可將Contig/Scaffold 掛載到不同的染色體上,提升基因組質量。真核生物間Hi-C 圖譜的比較使我們對物種間差異有了進一步的認識,并有助于揭示物種進化和選擇的奧秘。
隨著Hi-C 衍生技術的開發應用,我們對細胞內的微觀世界有了更深入的了解和認識。然而,我們還應該認識到,Hi-C 技術依然存在諸多局限性:分辨率較低、與高分辨率顯微鏡結果擬合度較低、實驗門檻較高和數據分析難度較大等。但是,我們堅信,隨著技術的更新迭代和多種組學技術的聯合開發應用,我們將會慢慢揭開三維基因組的奧秘,助力疾病研究,為人類福祉作出貢獻。