張翠翠 趙勝 王越, 張鵬, 常玉曉
(1. 廣西大學生命科學與技術學院,南寧 530004;2. 中國農業科學院深圳農業基因組研究所,深圳 518120)
基因組Fosmid文庫技術自1992年被創建之后,即廣泛地應用于基因組學研究當中[1-12]。1996年,Preston等[13]利用Fosmid文庫識別并鑒定了寄生在海綿中的一種嗜冷泉古菌(Cenarchaeum symbiosum)。1997年,Fitz-Gibbon等[14]利用Fosmid文庫構建了一種超嗜熱古細菌(Pyrobaculum aerophilum)的物理圖譜,并預測了其基因組含474個基因。1998年,Deckert等[15]用“鳥槍”測序法破解超嗜熱菌(Aquifex aeolicus)的基因組時,借助Fosmid文庫來填補重疊群之間的空缺。1999年,Cui等[16]構建兩個自交不親和油菜株系的Fosmid文庫,通過對文庫中的部分克隆測序,對控制蕓苔屬植物的自交不親和性的S位點區間進行了結構和轉錄分析。2004年,國際人類基因組測序聯合會公布的已完成測序的人類基因組有341個空缺,包括位于常染色質區域的250個空缺,Bovee等[17]利用Fosmid文庫將常染色質區域的26個空缺補全,67個空缺平均每個都填補約32 kb。
新一代測序技術,尤其是讀長可達20 kb甚至40 kb以上的單分子測序技術的不斷進步,使Fosmid文庫的應用日漸式微。但是,Fosmid文庫在當前的基因組學研究中仍然具有其獨特的價值。第一,與細菌人工染色體(Bacterial artificial chromosome,BAC)文庫類似,Fosmid文庫可以用于基因圖位克隆過程中目標區域序列的精確測序。目前,雖然有很多物種都已經有了參考基因組序列,但同一物種不同品種之間的基因組序列通常存在很大差異[18]。這導致在圖位克隆基因的過程中,將基因精細定位后,有時難以根據參考基因組序列獲得目標區段的準確序列。此時,需要構建BAC或Fosmid文庫,并從中篩選位于目標區域的克隆進行測序,從而獲得候選基因的準確序列。例如,2016年,Zhao等[19]在通過圖位克隆法鑒定水稻褐飛虱抗性基因BPH9時,利用Fosmid文庫確定了抗性親本Pokkali定位區間的68 kb DNA序列,從而確認了候選基因并獲得其準確序列,這樣的例子還有很多,如小麥條銹病抗性基因Yr28的克隆等[20]。第二,雖然測序技術已經取得了相當大的發展,但在全基因組測序的過程中,仍然經常使用Fosmid文庫輔助組裝或者驗證基因組組裝的準確度。例如,2014年,松樹和甜菜的基因組組裝研究者都借助了Fosmid文庫[21-22]。2017年,在水稻蜀恢498基因組的組裝過程中,研究者利用來自564個Fosmid混合池(池容量為1 000-1 500個單克隆)的簡化基因組測序數據,將來自于全基因組的PacBio reads互相區分并分別組裝,用于降低基因組組裝的復雜度,開創了Fosmid文庫在基因組組裝中的應用新方向[18]。此外,Fosmid文庫還被用于人類基因組的單倍型組裝[23]。2019年,在糜子的全基因組測序中,研究者利用Fosmid文庫單克隆測序驗證基因組組裝的準確度[24]。第三,在宏基因組學的研究中,Fosmid文庫也可以被用來保存環境樣本中所包含的全部微生物的基因組DNA,并用于后續的基因功能分析[25-26]。
Fosmid載體由cosmid載體發展而來,最初是Kim等[27]將帶有大腸桿菌致育(Fertility,F)因子的pBAC載體與Cosmid載體pUCcos融合后構建成pFOS1載體。Cosmid載體是一種最老的高容量載體,可插入28-45 kb的外源DNA;應用Cosmid載體構建基因組文庫時,選擇28-45 kb的DNA片段與載體連接,可保證包裝后的DNA高效進入λ噬菌體頭部,從而提高建庫效率[28]。在連接過程中,樣品的DNA小片段之間可能相互連接,之后再與載體連接,從而產生包含來自兩個或兩個以上不相鄰基因組區段的嵌合克隆[28]。另外,由于大腸桿菌攜帶的重組子拷貝數很高,黏粒中克隆的DNA會發生重排[28]。Kim等[27]將F因子引入Cosmid載體構成Fosmid載體,保證了構建的重組質粒DNA在每個細胞中只有1-2個分子,從而極大降低了克隆中外源DNA的重排水平。若要減少Fosmid文庫中嵌合克隆的數量,可在建庫時盡量降低連接反應中小片段DNA的含量。因此,對外源DNA片段大小進行準確地篩選,可排除小片段DNA從而減少嵌合克隆;同時,排除超過45 kb的大片段DNA,可以提高文庫的制備效率。在Fosmid文庫構建試劑盒(Epicentre,美國)的使用說明中,建議外源DNA片段大小為40 kb左右。但是,從瓊脂糖凝膠中回收、純化長度超過20 kb的DNA片段是分子生物學實驗的一個難點,且長度越長,回收效率越低。因此,準確、高效的回收40 kb的DNA片段是Fosmid文庫構建的一個重要且難度較高的步驟。
當前,雖然有多種方法可以用于分離40 kb范圍內的DNA片段,包括磁珠、硅膠膜(Silica membrane)或硅膠顆粒(Silica particles)以及密度梯度離心,但是它們的回收效率都較低。綜合比較不同方法,傳統的切膠并電洗脫至透析袋,仍然是回收40 kb DNA的最好方法[28]。2015年,Sage Science公司開發出了SageELF儀器,將傳統的切膠并利用透析袋回收DNA的過程自動化,不僅簡化了利用透析袋回收DNA的操作流程,也提高了DNA的回收效率。目前,在新一代測序領域,Sage ELF已經被廣泛應用于不同長度的DNA片段回收[29],如100 bp的miRNA文庫、400 bp左右的Truseq文庫、10 kb左右的Mate pair文庫和1-5 kb的PacBio iso-Seq文庫。但是,Sage ELF儀器中并未設置回收40 kb的方法。
本研究利用SageELF提供的0.75%瓊脂糖膠盒,嘗試將其內置的回收10 kb DNA的程序,改造成回收40 kb DNA的程序。我們對這一方法進行了測試,并成功建立了高效的40 kb DNA回收方法;同時,利用改良的方法回收到的DNA樣品構建了Fosmid文庫,并對文庫中插入的外源DNA片段大小進行評估,結果顯示:高效、準確的40 kb DNA回收方法大大降低了Fosmid文庫構建的難度。綜上所述,本研究對Fosmid文庫構建過程中,樣品DNA片段的制備方法進行改良,旨在為科學構建Fosmid文庫提供改進方向和實驗證據,為生物的基因組學研究奠定基礎。
Fosmid載體質粒pFosill-2(Genbank登錄號JX069762)[30],由美國 Broad 研究所 Andreas Gnirke博士惠贈;所用秈型水稻品種是華占。
1.2.1 基因組DNA提取 水稻華占基因組DNA,用 CTAB 法提取[31]。
1.2.2 基因組DNA的定量與打斷 利用Qubit 3.0熒光計(Invitrogen,美國)測定水稻基因組DNA濃度,用無菌雙蒸水將濃度調至200 ng/μL;吸取40 μL DNA溶液加入到g-TUBE(Covaris,美國)中,5 000 r/min離心3 min后,將g-TUBE倒轉放入離心機,5 000 r/min離心3 min,上述步驟重復5次后,吸出打斷后的DNA樣品于新離心管中備用。重復上述步驟,直至得到足夠量的打斷DNA,然后利用脈沖電泳檢測打斷DNA的片段分布,確保主要片段集中在40 kb左右。
1.2.3 基因組DNA片段的分選與回收 打斷后的DNA加入Loading buffer備用,使用全自動核酸/蛋白質回收儀SageELF(Sage science,美國)進行DNA片段的分選與回收。選用0.75%瓊脂糖膠盒(Agarose Gel cassette,Sage science,美國),根據操作說明進行并有改動。主要步驟如下:排除膠盒氣泡并清洗膠盒上的回收孔,然后將膠盒置于儀器上的盒槽中并設置恰當的緩沖液水平。電流測試通過后,在膠盒的點樣孔中加入準備好的DNA樣品,注意上樣量不超過60 μL,選用“時間”模式,電泳10 h,為了避免長時間電泳過程中電泳液的蒸發,每隔3 h暫停一次,補水約3-5 mL并混勻。電泳結束后,收集每個回收孔中的DNA于一新離心管中,用Qubit 3.0測定每孔回收到的DNA濃度,回收的DNA可短期保存于4℃。
1.2.4 脈沖場凝膠電泳(Pulse-Field Gel Electrophoresis,PFGE)檢測DNA片段大小 利用SeaKem?Gold Agarose(Lonza,德國)及0.5×TBE電泳緩沖液制備1%的瓊脂糖凝膠,使用脈沖場凝膠電泳儀(Rotaphor 6.0,Analytik Jena,德國)檢測DNA片段大小,操作按照儀器說明書進行,電泳條件如下:電壓180 V,脈沖夾角120°,間隔時間60 s,溫度13℃,電泳時間24 h。電泳結束后,將膠塊放入GelRed(Vazyme,南京)溶液中染色約30 min,蒸餾水脫色約10 min,然后用凝膠成像系統(GelDoc XR+,BioRad,美國)拍攝圖像。
1.2.5 Fosmid文庫的構建 首先,對載體質粒pFosill-2線性化與去磷酸化:取200 μg pFosill-2 DNA,使用 Plasmid-SafeTMATP-Dependent Dnase(Epicentre,美國)進行消化以去除載體質粒提取過程中發生斷裂的DNA,使用0.8×磁珠(VAHTS DNA Clean Beads,Vazyme,南京)純化出環狀載體質粒DNA后,利用AatII(Fermentas,美國)及Eco72I(Fermentas,美國)對其雙酶切以獲得兩端的載體臂,0.8×磁珠純化酶切產物,接著使用Calf Intestinal Alkaline Phosphatase(NEB,英國)進行去磷酸化,最后用酚/氯仿抽提兩次純化載體臂。
接著,利用KAPA Library Preparation Kit(KAPA biosystems,美國)對基因組DNA片段進行末端補平,0.8×磁珠純化補平產物后,利用KAPA T4 DNA Ligase(KAPA biosystems,美國)連接載體臂與基因組DNA片段,室溫連接1 h后,70℃處理10 min終止反應。然后,使用MaxPlaxTMLambda 噬菌體包裝提取物(Epicentre,美國)對連接產物進行體外包裝,包裝產物侵染大腸桿菌菌株DH10T,然后將侵染反應液涂布于含12.5 μg/mL氯霉素的固體LB培養基表面,置于37℃培養箱,倒置培養過夜。同時,將包裝產物分別稀釋10倍、100倍、1 000倍3個梯度侵染DH10T后培養,用于文庫滴度檢測。
1.2.6 文庫重組克隆的分析 從上一步的培養皿中,隨機挑選10個單克隆,分別接種于50 mL LB液體培養基(包含34 μg/mL氯霉素)搖培過夜,使用堿裂解法提取重組質粒后,酶切質粒DNA檢測陽性率。隨后,又隨機挑選25個單克隆,分別接種于1 mL LB液體培養基搖培約15 h后,分成兩份:一份送蘇州金唯智生物科技有限公司或者生工生物工程(上海)股份有限公司,利用pFosill-2載體插入位點兩側的T7和SP6啟動子位點對每個重組質粒的兩端進行Sanger測序,獲得的序列與蜀恢498的基因組序列(http://www.mbkbase.org/)進行Blast分析,從而獲知插入片段的大小;另一份進行擴大培養并提取重組質粒,每個重組質粒取1 μg使用NotI(Thermo Fisher,美國)37℃酶切3 h,隨后PFGE檢測(電壓130 V,脈沖夾角120°,間隔時間4 s,溫度10℃,電泳時間18 h)載體帶以及外源基因組DNA片段的酶切帶型。最后,根據末端測序的結果下載蜀恢498的基因組序列,利用CodonCode Aligner軟件(CodonCode Corporation,美國)進行電子酶切模擬,得到虛擬酶切圖,與PFGE電泳圖進行對比。
為回收40 kb的DNA片段,將提取的基因組DNA經g-TUBE打斷后,取20 μg利用SageELF儀器進行DNA片段的分選與回收。每個回收孔的DNA,均取50-100 ng進行PFGE電泳檢測。通過測試不同的SageELF電泳時間發現,10 h的電泳可以有效地將10-50 kb的基因組DNA分開,此時,40 kb左右的DNA片段位于膠盒的第1-3孔,雖然這3個孔的DNA呈彌散分布,但仍可看出主帶在40 kb附近,甚至有少量DNA片段稍大于48.5 kb(圖1),這部分DNA可用來構建Fosmid文庫。此后的回收孔中,DNA片段大小依次降低且沒有呈彌散分布,第4孔的DNA主帶大小約30 kb,到最后一孔即第13孔,DNA主帶大小在12 kb-15 kb之間(圖1)。
利用Qubit 3.0測定每個孔回收到的DNA濃度發現,第1孔至第13孔依次回收得到275 ng、2 266 ng、4 576 ng、1 452ng、831 ng、649 ng、466 ng、451 ng、329 ng、311 ng、119 ng、243 ng DNA。打斷的DNA片段大小峰值在40 kb。因此,回收量最高的DNA片段也集中在40 kb附近,這與預期的結果一致。以上DNA長度和濃度檢測說明,利用改進的SageELF的電泳回收程序,可以高效地回收長度達40 kb的DNA片段,且操作流程簡單易掌握。高濃度40 kb DNA片段的獲得為Fosmid文庫的構建奠定了堅實的基礎。
為檢測文庫容量以及覆蓋率,包裝產物用Phage Dilution Buffer稀釋10倍、100倍、1 000倍3個梯度,混勻后分別取20 μL加入200 μL的大腸桿菌DH10T細胞中,37℃孵育30 min后涂氯霉素平板,倒置于37℃培養過夜。稀釋100倍的平板上,平均每個平板長出12個單克隆,那么文庫的總滴度約為12×100×1 000 / 20 = 6×104CFU/mL。
由于28-45 kb的外源DNA片段包裝后可高效進入λ噬菌體頭部,本研究將第1至3孔的DNA混合,按照Williams等[30]的方法成功地構建了Fosmid文庫。為了初步檢測文庫質量,隨機挑選文庫的10個單克隆,提取少量質粒DNA,用限制性內切酶AatII和Eco72I作雙酶切后進行PFGE分析發現,10個質粒均有外源DNA插入,文庫陽性率為100%。但是,質粒的酶切產物條帶過多,難以推測準確的外源DNA長度(數據未展示)。為了檢測文庫中外源DNA片段的準確大小,我們又隨機挑選了25個單克隆進行雙末端Sanger測序并成功獲得了24個克隆的雙末端序列,這些序列與蜀恢498的基因組序列[18]比對結果如表1所示,插入的外源DNA片段大小在23 kb-52 kb之間,每個克隆的平均插入片段大小約為37.9 kb,標準差為5.2 kb,片段大小比較集中。

圖1 Sage ELF回收的DNA片段的PFGE分析
為了進一步確認測序克隆中插入的外源DNA片段大小,對表1中的25個克隆,提取質粒,用NotI酶切(可以切出完整的載體片段)后,進行PFGE檢測。如圖2-A所示,酶切后的每個質粒都包含一條約7 kb的載體帶(箭頭所指)。為了便于分析外源DNA片段的酶切帶型,我們根據表1中蜀恢498的基因組位置信息,將對應的DNA序列提取出來,然后分析其中的NotI識別位點的位置和數量,最后根據此結果預測外源片段的酶切帶型(圖2-B)。結果發現,除6號、9號、11號、12號、14號和20號克隆外,其他18個克隆的酶切帶型都與預測的帶型一致,進一步驗證了外源DNA片段的大小。
Fosmid文庫在基因克隆、物理圖譜構建及基因組測序等工作中被廣泛應用[1-12]。最近幾年,Fosmid文庫與高通量測序技術相結合,如在人類單倍型測序[23,30]、輔助基因組de novo組裝[18]及宏基因組學研究[25-26]等方面,發揮了其獨特的作用,使Fosmid文庫在基因組學研究中的地位更加重要。但常規的Fosmid文庫構建過程,尤其是40 kb DNA片段的回收,操作難度很大,限制了Fosmid文庫構建的成功率,因此改良Fosmid文庫的構建方法很有必要。

表1 測序克隆中插入的外源DNA位置信息

圖2 重組質粒的Not I酶切分析
自Kim等[27]于1992年創建第一個Fosmid文庫以來,構建Fosmid文庫的方法就一直被改進。但目前看來,改進Fosmid載體的情況較多,外源基因組DNA片段的分選和回收方法,還是依賴傳統的切膠并用透析袋回收或者密度梯度離心回收。切膠回收DNA,需經過PFGE、切膠、透析袋回收3步,流程比較麻煩;而密度梯度離心回收DNA,需經過超速離心、穿刺取樣、透析純化等步驟,流程更加繁瑣。這兩種方法,實驗操作難度很大,技巧性也高,研究者往往難以快速掌握,且這些方法的DNA回收率也很低。利用我們改進的方法,只需將打斷后的基因組DNA加到SageELF膠盒點樣孔中,中間步驟完全由機器操作,最后從膠盒回收孔中吸取不同區段的DNA即可直接進行后續的分子生物學操作,流程簡單、便捷。
全自動核酸/蛋白質回收系統SageELF是Sage Science公司2015年推出的儀器,將傳統的切膠并利用透析袋回收DNA的過程自動化,不僅簡化了利用透析袋回收DNA的操作流程,也提高了DNA的回收效率。目前,SageELF被廣泛應用于新一代測序領域中,小至100 bp、大至20 kb左右的不同長度的DNA片段回收[29]。但是,SageELF儀器的中沒有設置回收40 kb的方法,顯然,Fosmid文庫的構建,不是廠家考慮到的應用。與常規的Biorad的箝位勻強電場系統(CHEF)不同,SageELF使用的是橫向交變電泳(TAFE),其電泳液的體積只有大約20 mL,如果用于40 kb片段的分離,需要長時間、高電流電泳。但是,在如此小的體積中長時間進行高電流電泳,極易導致電泳液溫度過高和蒸發,因此,我們做了一系列的電流、脈沖時間的測試,并調整了儀器相應的運行監控參數,最終成功的從20 μg的input DNA中回收到約8 μg的40 kb左右的DNA。而實際上,使用Epicentre和Lucigen等公司的試劑盒,只需要100 ng-1 μg的40 kb DNA用于Fosmid文庫構建。因此,我們建立的方法,可以很容易地回收到足夠的40 kb DNA片段,大大降低了Fosmid文庫構建的難度。
本研究通過改進全自動核酸/蛋白質回收系統SageELF的操作流程,實現了40 kb DNA片段的高效回收。利用我們改良的SageELF法回收40 kb左右的基因組DNA大片段,操作便捷,回收率高,片段大小精準,且文庫插入片段集中,顯著提高了Fosmid文庫的構建質量。