郭曉強


Hi-C是一種分析染色體空間構象的高通量測序技水,它有助于研究者理解染色體三維空間結構、染色體之間相互作用以及基因表達的空間調控機制,相關結果深化了對組織發育和瘩癥發生等過程的認識,而這種技術的誕生,緣起千科學家對染色體及其結構持續不斷之探素。
染色體是一種存在于真核細胞核內的特殊結構,通過影響遺傳物質DNA活性而對細胞行為的各方面發揮關鍵性影響。根據“結構決定功能”原則,染色體二維(three-dimension,3D)結構自然成為理解其生物學功能的基礎,然而限于技術上的原因,對染色體3D結構的解析,進展一直較為緩慢。
染色體:遺傳的物質和結構基礎
首先回顧一下染色體研究的歷程。
1879年,德國細胞生物學家弗萊明(W.Flemming)在研究細胞時發現,細胞核內存在可被堿性染料高度著色的物質,根據這一特性于次年將其命名為染色質(chromatin);1888年,另一位德國解剖學家馮.瓦爾代耶一哈茨(H.W: G.von Waldeyer-Hartz)創造出染色體(chromosome)一詞。染色質和染色體兩個術語存在一定差異。首先所描繪的狀態不同:在細胞分裂間期,核內結構較為松散,無固定形態,一般稱為染色質;在細胞分裂期,結構濃縮,產生可明顯辨識的形態,稱染色體。其次側重點不同:染色質側重于物質組成(類似“蛋白質”命名),而染色體傾向于結構(類似“線粒體”命名),因此提及二維結構時更多使用染色體一詞。早在1869年,瑞士醫生米歇爾(F.Miescher)鑒定出染色質的核心成分——核酸(主要是DNA);而1884年,德國科學家科賽爾(A.Kossel)進一步發現染色質的另一關鍵成分——組蛋白,從而明確了染色質的物質基礎。
19世紀末,德國科學家博韋里(T.H.Boveri)和美國遺傳學家薩頓(W.S.Sutton)基于細胞分裂過程中的染色體變化,提出“遺傳的染色體決定”學說。美國遺傳學家摩爾根(T.H.Morgan )進一步用果蠅實驗證實了這一理論,從而肯定了染色體在遺傳學乃至生命科學研究中的核心地位。1944年,美國細菌學家艾弗里(O.T.Avery)等借助肺炎球菌轉化實驗,證實DNA是遺傳物質,進一步將染色體研究聚焦到了DNA。
1953年,沃森(J.D.Watson)和克里克(F.H.C.Crick)提出DNA雙螺旋模型,闡明了DNA二級結構;1977年桑格(F.Sanger)發明酶法測序技術,并測定出一種噬菌體DNA的堿基排列順序,從而弄清了DNA一級結構。2003年人類基因組計劃的完成,標志著人類24條染色體(22條常染色體加X, Y兩條性染色體)中DNA一級結構的全解析。
一個人體細胞含有23對染色體,如果將所含的DNA拉直,并首尾相連,總長度可達2米,而細胞核的直徑只有6微米??梢韵胂笠幌?,將一條馬拉松長度(10公里)的細線,有序地放人一只乒乓球(直徑4厘米)內,難度該有多大!特別是,細胞核內除DNA外,還包含多種其他成分、空間更顯狹窄,因此DNA必然需要經過折疊、彎曲等一系列變化,從而使原本空間距離漫長的一條染色體的各局部或者不同的染色體之間互相靠近?,F在的問題是,如何獲悉細胞核內染色體(重點是DNA)的3D結構。
染色體構象捕獲技術:3C時代的到來
盡管染色體3D結構十分重要,但由于維系這種結構的力很弱,遠遠低于維系一級結構的磷酸二酯鍵和維系二級結構的氫鍵(還包括堿基堆積力),因此研究起來困難重重。傳統的方法主要借助電子顯微鏡技術,受分辨率所限,無法獲得較清晰的圖像。2002年,哈佛大學德克爾(J.Dekker)小組首先發明染色體構象捕獲(chromosome conformation capture)技術[1],從而為解析染色體3D結構奠定了堅實基礎,由于該技術3個英文單詞的首字母均為C,故又稱3C技術。
歸納起來,3C技術主要包括6步[2]。第一步,固定。使用固定劑(常為甲醛)將靠近染色體的2個區域相連,固定劑在這里發揮了“雙面膠”的雙向抓牢作用,使原本結構可變的染色體“靜止”,以利于后續操作。如果一條染色體內部被固定,常形成環狀結構。第二步,酶切。對固定后的染色體使用限制性內切酶處理。一般使用識別6堿基的限制性內切酶進行操作,理論上每4096(46)個堿基就存在一個酶切位點。通過酶切,可將環內部剪切為多個片段。第三步,連接。使用DNA連接酶使切斷的DNA片段重新連接,形成一個DNA環。第四步,解環。被固定的DNA解除交聯,使環狀DNA線性化。第五步,擴增。例如,原來線性DNA存在A-E共5個片段,推測形成空間結構后,A和E可能靠近,因此在A片段和E片段靠近限制性內切酶識別位點之處,設計引物,并以線性DNA為模板,進行半定量或定量的聚合酶鏈反應(PCR)擴增。第六步,判定。根據不同引物組合的擴增效率,確定2個片段空間靠近的概率。3C技術主要確定“一對一”關系,就是線性距離較遠的2個DNA片段之空間關系。例如借助3C技術闡明了,在紅細胞內階珠蛋白基因表達過程中,存在遠距離調控的現象。
3C技術的發明在染色體DNA空間結構研究領域具有里程碑意義,該技術隨后被進一步完善與發展,導致一系列衍生技術的問世。
4C(3C-on-chip或circular3C)是2006年在3C基礎上的一種改進技術。接著3C技術的第四步,對解環后的DNA再進行限制性內切酶處理(此步驟一般用4堿基識別酶),然后連接環化產生一個新的DNA環,以此DNA為模板進行擴增。在引物設計方面,都在A片段靠近酶切位點之處,從而擴增到與A可能存在空間關系的片段,再借助基因芯片或者測序方法確定這些片段的位置。從原理上可以看出,4C解決的是DNA片段“一對多”的關系。
SC(3C carbon copy)技術是在2006年出現的另一版本的3C衍生技術。其原理在于,對3C第四步解環DNA兩端加上接頭(攜帶有通用性引物),然后在中間酶切位點處設計左向和右向引物,這些引物除與靶點配對外,還外加一段兼并序列,隨后進行擴增,用擴增產物通過基因芯片或測序來確定具體位置。從實驗過程可以得出,SC解決的是DNA片段“多對多”的關系。此外,3C還演變出ChIP-loop [chromatinimmunaprecipitation(染色質免疫共沉淀)-loop]技術,它是在3C技術酶解和連接兩步之間補充一個染色質免疫共沉淀過程,目的在于研究DNA成環過程中相關蛋白質的作用。
盡管從3C演變到5C,極大地深化了對染色體片段間相互關系的理解,但仍無法從整體上認識染色體的3D結構。
Mi-C技術:3C到3D的轉變
2009年,德克爾與基因組測序專家蘭德爾(E.S,Lander)合作發明了高通量3C(high throughput 3C,Hi-C)技術[3],再次實現技術的升級。Hi-C技術在3C技術第三步(連接)的地方進行了修改,通過添加生物素標記的核什酸,使后續連接而成的環中攜帶生物素解交聯產生的線性DNA,再借助機械力剪切,產生許多小片段DNA,利用親和素特異性結合生物素的原理,將攜帶生物素核背酸的DNA片段富集,并對這些DNA片段的兩端添加測序接頭,進而采用二代測序和對結果進行比對分析:如果一個短片段DNA限制性酶切位點兩側的序列分別位于空間位置較遠的兩段DNA內部(既可為同一條染色體,也可為不同染色體),則初步判斷兩者可能存在空間作用,根據這種組合出現的頻率多少而得出DNA片段間的關聯性強弱,最終形成一個涵蓋所有DNA片段在內的空間關聯圖,也即染色體3D結構
與此幾乎同時,還誕生了ChIA-PET(chromatininteraction analysis by paired-end tag sequencing,染色質相互作用的配對末端標記測序分析)技術跟3C升級到Hi-C相類似,ChIA-PET可以看作ChIP-loop的提升版,從研究單環形成過程中的蛋自質作用轉變為研究染色體3D結構形成中的蛋自質功能,從而為Hi-C提供重要的信息補充
3C及其一系列衍生技術,特別是Hi-C,為染色質3D結構研究提供了強大的工具,從而可以更清晰地觀察染色體的空間構象,達到對染色體功能和基因表達調節的新認識,同時對染色體在細胞發育和疾病發生過程中的分子機制也能得到新的理解
H i-C的成就:更清晰的染色體結構
3C系列技術的快速發展,極大地提升了對染色體3D結構的認識傳統認知是從DNA雙螺旋(或超螺旋)直接到顯微鏡下可見的染色體形態。隨著分辨率的提升,又觀察到層次分明的一系列亞結構lal
染色質環(loop)是兩段直線距離較遠的DNA片段(如調節性DNA和編碼基因啟動子)由于空間靠近而形成的一種染色質結構借助Hi-C技術發現,人染色體含有10000個左右的這種結構.它們主要與基因的表達調控有關。根據成環后效果的差異.主要可分為兩類:一類具有增強子(enhancer,一段增強基因轉錄的DNA)效應,成環有利于基因的表達;另一類具有絕緣子(insulator一段表達抑制功能的DNA)效應,成環使基因激活受阻活性染色質中心(active chromatin hub,ACH)是用干描述基因轉錄激活形成的環狀結構,這種結構較為普遍,除紅細胞p一珠蛋自基因外,還包含。一珠蛋白基因H19-Igf2基因座等在哺乳動物中,絕緣子與靶基因成環往往還需要CCCTC結合因子(CCCTC-binding factor,CTCF)輔助CTCF是一種抑制性轉錄因子,其介導的絕緣子與靶基因成環,通過占位效應破壞增強子成環,從而產生抑制基因轉錄的效果[5]。
通過Hi-C技術所做出的一個重大發現是,從染色體中鑒定出大量的拓撲相關結構域(topologicallyassociated domain,TAD)[6]。TAD是指一個DNA區域,區域內DNA片段更傾向于自我相互作用,而不與其他DNA片段接觸TAD結構在果蠅和哺乳動物中普遍存在,既被認為是一種染色體亞結構,又被看作一種功能單元TAD通常由多個染色體環組成,而且其結構的形成和維持還要CTCF和黏連蛋白(cohesin)復合物等參與
借助Hi-C技術還發現,整個染色體可分為2類明顯的區室(compartment)結構,分別稱為區室A和區室B。與TAD的性質類似,區室結構也具有空間自我相互作用(A更傾向于A,B更傾向于B)、區室A聚集了活性表達基因,結構較為疏松,一般位于細胞核的中心區;區室B則極少含有編碼基因,轉錄不活躍,結構緊湊,主要占據細胞核的外周區。區室結構的存在說明,染色體基因在空間上具有成簇性,從而有利于細胞核中心區的轉錄復合物在發揮活性的時候提高效率。
染色體域(chromosome territory)是指某條染色體傾向于占據細胞核內特定的位置,如人19號染色體富含基因,它通常占據活躍轉錄的中心區;而含基因較少的18號染色體,則更多地被排斥于外周區。染色體域的存在,說明單條染色體并非隨機排布,而是根據需要有序地排列二不同染色體的占位以及它們之間的相互作用,對于它們功能的發揮有重要影響。
借助Hi-C等技術,已經揭示了真核生物染色體在細胞核內可形成層次分明的各級結構,從線性一級結構、雙螺旋(超螺旋)、染色質環、TAD、區室、染色體域,一直到完整的多染色體3D結構。不同層次結構的有序性,是細胞正常功能的基礎,而這些結構的紊亂,是多種疾病發生的重要原因。
Hi-C的應用:發育和疾病的新機制探索
借助Hi-C解析的高分辨率染色體3D結構,加深了對細胞發育和疾病發生的理解。
對小鼠早期胚胎的研究發現,受精后染色質呈現出一種明顯松散的狀態,DNA片段間相互作用較弱;8細胞期前,父本和母本染色體互相分離,占據自身的染色體域;胚胎植入前,逐漸形成高度有序的3D結構;3D結構的形成與DNA復制、DNA甲基化、組蛋白修飾等密切相關。這些知識加深了對胚胎發育過程中染色體結構變化的理解。
由于一級結構是空間結構的基礎,因此DNA一級結構的異常,往往帶來染色體3D結構的變化,常見的異常包括單核昔酸變異(single-nucleotidevariant,SNV)、微插入/缺失(insertion/deletions,indels)等。此外,表觀修飾如DNA甲基化和組蛋白修飾等異常,也可破壞染色體3D結構。目前,對染色體不同層次結構中TAD異常與疾病發生之間的關聯,研究得較為清晰。通常,TAD內部或邊緣區序列或甲基化變異,可導致增強子和基因啟動子之間異常結合,而造成基因異常激活,破壞基因表達的內穩態。越來越多的證據表明,非編碼DNA變異可通過破壞染色體局部或整體空間構象,導致疾病的發生。
通過人為增加小鼠特定染色體位置的indels而改變肢體發育基因座周圍的TAD結構,造成DNA片段間的相互作用異常,進而破壞正?;虮磉_模式,使肢體發育異常而出現畸形。這一發現使人們對許多非編碼區基因突變或多態性的生物作用有了新的理解。
急性髓細胞白血病(AML)患者3號染色體內部存在高頻倒位和易位,常常導致原癌基因EVI1異常激活。借助4C技術發現,這源于染色體倒位和易位造成原本無關的一段增強子與EVI1基因形成相互作用,而使基因“被動”高表達。
膠質瘤常存在高頻的異檸檬酸脫氫酶1/2(isocitrate dehydrogenase 1/2,IDH1/2)基因突變。染色體結構分析發現IDH1/2突變可引發DNA甲基化增強,這一異常變化破壞了CTCF介導的絕緣子與血小板衍生生長因子A(platelet-derived growth factorreceptor A,PDGFRA)增強子之間形成染色質環結構,從而造成原癌基因PDGFRA組成型激活并引發膠質瘤。當絕緣子功能恢復后,PDGFRA表達顯著下調。對于無IDH1/2突變的細胞,破壞其CTCF活性也可導致PDGFRA激活而增加致瘤性。這一發現揭示了膠質瘤發生的新機制,為治療提供了新策略。
結腸癌中普遍存在胰島素樣生長因子2(insulin-like growth factor 2,IGF2)基因表達上調的現象。染色體結構分析發現,這源于一個TAD邊界處出現結構異常(插入一段序列而引發串聯重復),造成IGF2啟動子和一個原本無關的超級增強子“無意間”結合,產生新的染色質環,進而引發原癌基因IGF2超表達,一導致結腸癌發生。
Hi-C的前條:充滿挑戰
3C相關技術的發展,革新了對染色體3D結構的認識:一是結構層次性(見上);二是相對穩定性,每種細胞都有自身相對固定的染色體結構;三是動態變化性,細胞周期不同階段的染色體結構,存在一定程度的變化(而非恒定不變);四是結構可塑性,在細胞分化、重編程和組織發育等過程中都發生了染色體結構的局部和整體層面的重排;五是結構適應性,外界刺激如激素處理、營養脅迫、低氧環境和溫度變化等都可引發染色體3D結構的重新組織,進而改變基因表達模式,增加環境適應性。
Hi-C技術為我們提供了令人著迷的染色體3D結構,但所揭示的內容僅是冰山一角,所提供的信息還較為有限。就目前的知識而言,DNA遺傳信息主要由一級結構(核苷酸順序)決定,3D結構也發揮了重要作用,但目前尚處于描述階段,由于被認識和技術所限,還無法給出一個全面的理解與認識。
Hi-C技術還面臨諸多挑戰。首先,技術本身有待完善和改進,要一方面增加染色體3D結構分辨率,另一方面更精準全面地解析相關數據。其次,要探索更多發育過程中的染色體3D結構動態變化。最后,要全面研究多種疾病發生過程中染色體3D結構的變化,既有利于拓展對疾病機制的理解,又有望為疾病治療提供新思路。
[1]Dekker J,Rippe K,Dekker M,et al.Capturing chromosome conformati-on.Science,2002,295(5558):1306.
[2]de Wit E,de Laat W.A decade of 3C technologies:Insights into nuclearorganization.Genes Dev,2012,26(1):11.
[3]Lieberman-Aiden E,van Berkum NL,Williams L,et al.Comprehensive mapping of long range interactions reveals foldingprinciples of the human genome.Science,2009,326(5950):289.
[4]Denker A,de Laat W.The second decade of 3C technologies:Detailedinsights into nuclear organization.Genes Dev,2016,30(12):1357.
[5]Dekker J,Mirny L.The 3D genome as moderator of chromosomalcommunication.Cell,2016,164(6):1110.
[6]Eagen K P.Principles of chromosome architecture revealed by Hi-C.Trends Biochem Sci,2018,43(6):469.
關鍵詞:染色體 三維結構 3C技術 Hi-C技術 癌癥