何嘉玲王天奇暴 國張長勇李 楠孫德明
(國家衛生健康委科學技術研究所實驗動物中心,北京 100081)
原發性小頭畸形(microcephaly primary hereditary,MCPH)是一種大腦發育障礙,導致頭圍比年齡和性別的平均值低3個以上的標準差[1]。患者可出現一定程度的智力障礙,或伴發多動癥、表達性語言障礙和癲癇等癥狀,因此也常稱為小頭畸形綜合征。原發性小頭畸形多數基于常染色體隱性遺傳模式,目前已經報道過的與小頭畸形相關的基因有18個[2],是小頭畸形的病因研究和診療的切入點。小頭畸形致病機理復雜,利用單基因突變動物模型開展研究是表型發生機制良好的切入點。基因突變動物模型是基因功能生物學研究的重要工具。通過研究突變體的表現型和鑒定突變基因,能獲得關于基因功能和異常發育相關的大量信息。
斑馬魚作為一種重要的模式生物,具有與人類高度保守的大腦組織區域和發育過程[3],加之早期胚胎透明易于觀察,是新興的研究中樞神經系統發育性疾病的重要工具[4]。本文作者在斑馬魚繁育過程中發現了一種可以遺傳的,表現為小頭、小眼、震顫的斑馬魚突變體,是典型的小頭畸形綜合征。在人群中,雖然遺傳性小頭畸形綜合征相對罕見,但小頭畸形致病基因編碼的一系列蛋白在細胞有絲分裂的關鍵步驟中起作用[1],因此,建立MCPH突變的動物模型,不僅能夠加深人們對該疾病本身的理解,也能提高我們對大腦發育過程的認識。目前,MCPH部分相關基因的動物模型研究十分缺乏,導致很多相關基因功能和作用機制仍無法明確。本研究通過建立家系,研究新發現的小頭畸形突變體斑馬魚的遺傳方式。通過基因組重測序結合BSA連鎖分析以及KASP技術,研究表型相關突變基因定位,以期獲得特定基因相關的小頭畸形斑馬魚模型,為小頭畸形發病機制研究和相關基因功能研究奠定基礎。同時摸索出一套適用于斑馬魚突變基因定位的方法,為斑馬魚突變體基因定位提供可借鑒的參考。
本研究使用的野生型TU品系斑馬魚成魚,由北京大學生命科學學院細胞增殖與分化教育部重點實驗室張博教授饋贈。India品系野生型斑馬魚成魚由清華大學生命學院孟安明實驗室饋贈。成魚體重約350~390 mg,均為20~24周齡,雌雄各4尾。按照Monte[5]述及的方法飼養成魚并繁育、收集受精卵。受精卵去除雜質后,放入含有1‰(w/v)亞甲基藍的培養液中,于28.5℃培養箱中培養4 d,期間每天更換新鮮培養液。以上斑馬魚繁育及實驗均在國家衛生健康委科學技術研究所實驗動物中心[SYXK(京)2018-0010]完成。飼養溫度為(28±1)℃,每天光照14 h,黑暗10 h。本文所述及的斑馬魚相關實驗方案均通過國家衛生健康委科學技術研究所實驗動物福利倫理委員會審批(NRIFH21-2104-1),所有實驗均符合動物倫理學標準,嚴格遵循3R原則進行動物飼養和實驗操作。
海洋動物組織基因組DNA提取試劑盒(DP324,天根生化科技有限公司,中國)。Illumina測序平臺(Illumina,Inc.,San Diego,CA,USA);體視鏡(Stemi 305,ZEISS,Germany);Nanodrop2000(Thermo,USA);OMEGA F Reader 96 and 384 well compatible,OMEGA F SNP分型檢測儀(LGC,UK)。
1.3.1 軟件與數據庫
本研究中用到的軟件及數據庫名稱和鏈接如表1所示。

表1 主要實驗軟件與數據庫鏈接Table 1 Main experimental softwares and database links
1.3.2 突變體生物學特性觀察
突變體呈現小頭,小眼表型,為了解頭部和眼睛的改變情況,利用ZEN軟件隨機測量8尾2 dpf和3 dpfmise斑馬魚和無表型同胞的最大頭寬和眼睛的面積。利用GraphaPad Prism軟件對測量數據進行統計。
1.3.3 遺傳分析
由于mise突變體5 d死亡,為研究其遺傳方式,利用mise的親本與野生TU進行外交產生F1代。隨后待F1性成熟后進行自交,分析其子代(F2)的表型情況,計算發生表型分離的F2中有表型魚和無表型同胞的比例。
1.3.4 突變基因初步定位
(1)DNA樣品制備及重測序
為獲得豐富的多態性標記,含雜合突變基因的mise親本(P0)與野生型India品系魚外交,獲得F1。待F1培養至性成熟,通過自交獲得F2。選取F2發生性狀分離的兩個群體:即mise突變體和無表型同胞各40尾構建極端混池。使用海洋動物組織基因組DNA提取試劑盒,分別提取mise親本(P0),野生型India親本,F2mise混池和F2正常表型混池的總基因組DNA,并用Nanodrop 2000定量后送百邁客有限公司用于文庫構建和全基因組重測序。具體流程包括:使用S2/E210超聲波發生器將提取的DNA產物進行超聲波處理以產生350個堿基的片段(Covaris,Woburn,MA,USA);隨后進行末端修復產生核苷酸突出物。然后,使用T4脫氧核糖核酸連接酶連接測序接頭,并進行聚合酶鏈反應。最后將聚合酶鏈反應產物純化并加載到Illumina測序平臺(Illumina, Inc., San Diego, CA, USA)上進行雙端測序。
為了簡化描述,我們將雜合親本P0命名為R01,將野生型India命名為R02,將F2mise混池命名為R03,將F2正常表型混池命名為R04。
(2)突變位點關聯分析
主要采取對極端混池的突變位點進行批量分離分析的方法。首先為獲得clean read,使用百邁客有限公司(中國北京)提供的內部Perl腳本,對原始數據進行過濾,去除低質量的reads,包括帶接頭reads,同時比對到多條染色體上的reads,N含量超過10%的reads,以及質量值低于10的堿基超過50%的reads。然后,使用Burrows-Wheeler Aligner[6]將這些高質量數據與斑馬魚基因組序列進行比對。使用Picard軟件中的Mark Duplicate工具消除PCR重復,提 高SNP/InDel-calling的 準 確 性。利 用GATK軟件檢測SNP和小的InDel變異,之后過濾數據,排除其中有多個基因型、read深度小于4、混池間基因型相同、隱性混池基因并非來源于隱性親本的4類SNP位點。對于混池間的Indel關聯分析,采用同樣的標準進行過濾。關聯分析分別采用歐氏距離(euclidean distance, ED)算法[7]和SNPindex[7-8]方法進行。將上述兩種方法取交集。最后對SNP和InDel對應的關聯區域取交集作為小頭小眼表型相關的候選區域。
1.3.5 突變基因精細定位
在初步定位候選區域中,篩選可信的SNP位點。根據SNP位點和側翼序列設計PCR擴增引物,根據標記的距離合理分區段設計KASP標記。每個標記各設計F1與F2兩條特異性SNP引物和一條通用引物(R)。特異性引物尾部分別添加能夠與FAM熒光和VIC熒光結合的特異性序列。如1.3.4所述,分別提取、定量F2代mise個體,無表型同胞個體和mise親本(P0),野生型India親本全基因組為模板,進行KASP標記有效性檢驗,選取能有效區分野生親本,隱性親本和突變體的KASP標記。隨后,使用能有效分型的KASP標記,對192枚F2mise胚胎進行KASP基因分型實驗。按照LGC基因組公司(英國米德爾塞克斯,LGC)的方案,在384孔板中進行KASP分析。PCR反應體系為2×Taq DNA Polymerase Mix,2 μL,SNP Primer Mix(4×),1 μL;DNA樣品,2 μL。PCR擴增體系:預變性,94°C,10 min,94°C,變性,20 s,61°C~55°C(drop 0.6°C per cycle),退火/延伸 45 s(10 cycle);94°C變性 20 s,55°C,退火/延伸45 s(35 cycle)。PCR擴增循環結束后,在低于40°C的環境下,利用SNP分型檢測儀(LGC)讀取熒光值。被動參比染料ROX(passive reference dye ROX)用于校正孔與孔之間由于反應體積誤差導致的信號差異。結果數據分析軟件為設備自帶基因型讀取軟件LGC KlusterCaller software。
1.3.6 轉錄本序列分析
TRIzol法提取突變體mise和野生TU的總RNA,取1 μg反轉錄成cDNA,利用CDS全長引物PCR擴增候選基因的CDS,并送測序。最后將測序結果與參考轉錄本序列進行比對。引物序列見表2。

表2 候選基因CDS擴增引物序列Table 2 CDS amplification primers for candidate genes
1.3.7 Morpholino合成、注射及表型觀察
委托genetool公司合成靶向terfa2號外顯子的剪接抑制Morpholino及相應的錯配對照,terfa-sMO:5’-GCGAACGTCACTGGAAAATATTACT-3’及terfascMO:5’-GCCAACCTGACTGCAAAATATTAGT-3’,以每個胚胎6 ng注射量分別注射單細胞期斑馬魚胚胎,并觀察表型變化。
2 dpf時mise斑馬魚突變體出現明顯的小頭,小眼表型,部分胚胎體軸向背部卷曲。通過對2 dpf和3 dpf的幼魚進行測量發現,mise的頭(圖1A和1E)和眼(1B和1F)的尺寸明顯小于正常表型同胞(1C、1G和1D、1H)。mise平均最大頭寬為(326.67±3.36)μm和(393.63±5.79)μm,正常同胞平均頭寬度為(359.11±8.33)μm(n=8,P=0.0028)和(463.99±4.55)μm(n=8,P<0.0001),mise斑馬魚的頭寬遠小于正常同胞,差異極顯著,出現了明顯的發育遲滯。mise斑馬魚眼睛面積平均值分別為:(28013±1454)μm2和(23562±1670)μm2,都遠小于無表型同胞(43921±1660)μm2(n=8,P<0.0001)和(55956±1258)μm2(n=8,P<0.0001),差異極顯著。比較2 dpf和3 dpf,眼睛不僅沒有隨著發育時間的延長增大,反而出現了一定程度的萎縮(圖1B、1F)。

圖1 mise胚胎的異常表型觀察Note. A, B, D, E and F, G, I, J show the head appearance of the sibling fish and mutant with local amplification at 2 and 3 days after fertilization, respectively. C and H respectively show the overall appearance while the mutant at the top and the sibling fish at the bottom. K and L are the values of maximun head width and eye area of mutant and sibling fish at 2 and 3 days after fertilization, respectively. Compared with the control fish, ***P<0.001.Figure 1 Observation of abnormal phenotype of mise embryo
mise的親本與野生TU進行外交產生F1代,表型分析表明,F1代所有斑馬魚表型正常。F1代斑馬魚自交,結果部分F2代表型正常,部分F2代出現表型分離。突變體2 dpf開始出現小頭、小眼、震顫表型。統計3對產生F2代表型分離的F1代斑馬魚發現:第一對中,mise突變體25尾,正常表型78尾;第二對中,mise突變體35尾,正常表型105尾;第三對中,mise突變體44尾,正常表型124尾(表3)。經卡方χ2測驗,該表型符合隱性基因1(隱性):3(顯性)的分離比。表明F1代魚發生了單基因隱性純合致死突變。

表3 F2表型分離情況統計Table 3 Statistics of F2 phenotype separation
利用Illumina HiSeq平臺分別對R01~R04 4個樣本進行重測序分析。測序共獲得211.42 Gbp數據量,過濾后得到的clean bases為209.43 Gbp。個樣本測序數據Q30為89.47%~90.25%,GC含量37.72%~38.45%。樣品與斑馬魚基因組(GRCz11)平均比對效率為98.27%。兩親本(F0)平均覆蓋深度為17×,子代混池(F2)的平均覆蓋深度為42×。總基因組覆蓋度95.48%(至少覆蓋1×)。過濾后得到的clean reads數分別為97471743、 106703350、238971525、 255944524(表4)。

表4 測序數據質控及與參考基因組比對結果Table 4 Sequencing data quality control and results of comparison with reference genome
根據過濾條件最終篩選獲得高質量SNP 3364571個,高質量的可信InDel位點778134個。具體篩選結果統計如表5、表6。

表5 SNPs過濾統計數據Table 5 Statistical datas of filter SNPs

表6 InDels過濾情況統計Table 6 Statistics of filter InDels
基于SNP的連鎖分析,按照ED方法,計算得到SNP關聯閾值為0.07。關聯值分布如圖2A。通過對此閾值的數據分析,可在4號染色體篩選到1個性狀關聯區域,長度10.46 Mb,共包含564個基因,其中包含非同義突變SNP位點基因241個。
運用SNP-index關聯分析方法進行計算機模擬[9]。結果表明,置信度為0.99時,在4號染色體獲得1個性狀關聯區域,長度5.67 Mb,包含353個基因,其中非同義突變基因175個SNP-index及ΔSNP-index的分布如圖2B所示。

圖2 SNP關聯分析ED和SNP關聯值在染色體上的分布情況Note. A, Abscissa is the chromosome name, the colored dots are the ED values of the SNP sites, the black line is the ED value after fitting, and the red dotted line is the significance of the association threshold. The higher the ED value, the better the association effect. B, Abscissa is the chromosome name, the colored dots are the calculated SNP-index (or ΔSNP-index) values, and the black line is the fitted SNP-index (or ΔSNP-index) value. From top to bottom are the distribution of SNP-index values of recessive pools,the distribution of SNP-index values of dominant pools, and the distribution of ΔSNP-index values. Green threshold line in the figure below has a confidence level of 0.90, and the blue threshold line the confidence level is 0.95 and the red threshold line confidence level is 0.99.Figure 2 Distribution of the associated values of ED and SNP on chromosomes in SNP correlation analysis
對于兩種算法取交集,與突變關聯的SNP位于Chr4:72420000~78090000,包含175個非同義突變的基因。
基于InDel的關聯分析,按照ED方法,通過計算將InDel關聯的顯著性閾值設置為0.08。關聯值分布如圖3A。根據該閾值判定,在4號和5號染色體共獲得2個性狀關聯區域,長度10.88 Mb,包含586個基因,其中包含移碼突變InDel位點的基因共39個。
運用InDel-index方法進行計算機模擬[9]。結果表明,置信度為0.99時,在4號染色體獲得1個性狀關聯區域,長度5.61 Mb,包含353個基因,其中包含非同義突變的基因共175個。關聯值分布如圖3B。

圖3 InDel關聯分析中,ED和InDel關聯值在染色體上的分布情況Note. A, Abscissa is the chromosome name, the colored dots are the ED value of the InDel site, the black line is the ED value fter fitting, and the red dotted line is the significance of the association threshold. Higher the ED value, the better the association effect. B, Abscissa is the chromosome name, the colored dots are the calculated InDel-index (or ΔInDel-index) value, and the black line is the fitted InDel-index (or ΔInDel-index) value. From top to bottom are the distribution map of InDel-index value of recessive mixed pool, the distribution map of InDelindex value of dominant mixed pool, and the distribution map of ΔInDel-index value. Green threshold line in the figure below has a confidence level of 0.90 and the blue threshold line the confidence level is 0.95 and the red threshold line confidence level is 0.99.Figure 3 Distribution of the associated values of ED and InDel on chromosomes in InDel correlation analysis
對于兩種算法取交集,與突變關聯的InDel位于Chr4:72450000~78060000,包含30個移碼突變的基因。對SNP和InDel對應的關聯區域取交集,得到1個區域,總長度為5.61 Mb,位于Chr4:72450000~78060000,共包含353個基因,其中包含非同義突變的基因共174個,移碼突變的基因共30個。
由于5.61 Mb區域仍然包含大量的基因,我們開發了22個KASP標記,篩選出能有效區分親本(P0),F2純合突變體和無表型同胞的6個KASP標記對192個F2突變個體進行基因分型。通過KASP標記進行連鎖分析,最后將與mise突變體相關的突變位點定位在Chr4∶77940617~78006239,一個65.6 kb的區域。
根據斑馬魚基因組數據庫提供的基因注釋信息,該區間內包含6個注釋基因(表7),可能為該小頭小眼震顫突變體斑馬魚的候選基因。將這些基因與BSA結果中的174個非同義突變的基因和30個移碼突變基因比對,發現這里有兩個LOC108183534和zgc:194336不包含在內。因此,發生非同義突變的有4個,分別為arfgap3,zgc:113921(ikbip),terfa和zgc:85975(ckap4)。

表7 定位區間內的候選基因注釋Table 7 Annotation of candidate gene in the positioning interval
為獲取表型相關的候選基因,首先對候選基因的編碼序列進行測序。利用擴增候選基因CDS全長的引物,擴增編碼序列。通過與Ensemble中公布的參考序列比對發現,arfgap3、ikbip和ckap4發生同義突變的位置均屬于SNP,因此不可能與該致死表型相關。而在比對terfa的序列時發現,mise在第二外顯子發生c.236 G>A突變,密碼子TGG突變為TAG終止密碼子,導致翻譯提前終止(圖4)。

圖4 mise突變體的密碼子及氨基酸變化。Note. A, Sequencing peak diagrams of WT and mise mutants respectively, and red boxes indicate the mutated bases of mise and corresponding bases of WT. B, Codon and amino acid corresponding to WT and mise, and the changes of bases and amino acids are marked in red.Figure 4 Codon and amino acid changes in mise mutant
基于突變體的測序結果,合成靶向terfa基因剪接抑制morpholino,注射單細胞期斑馬魚。注射3 d后觀察表型發現,注射terfa-sMO的斑馬魚出現類似terfa上述點突變的小頭小眼表型(圖5A),成功復制了terfa缺失的表型。而注射錯配對照terfa-scMO的斑馬魚,沒有類似的表型改變(圖5B)。說明terfa的剪接抑制的基因型變化是導致小頭小眼表型的原因。

圖5 WT斑馬魚注射terfa剪接抑制morpholino及對照3 d后的表型觀察Note. A, Phenotype after terfa-scMO injection. B, Phenotype after terfa-sMO injection.Figure 5 Phenotype of WT zebrafish injected by terfa splicing morpholino and corresponding control 3 days after injection
原發性小頭畸形是一種大腦發育障礙,目前已知的MCPH的致病基因參與了多種細胞過程,超過一半的MCPH的致病基因編碼參與中心粒生物發生的中心體蛋白[10],部分參與DNA復制和修復[11-12],胞質分裂[13]、著絲粒功能[14]、跨膜或細胞內轉運[15]以及Wnt信號自噬[16]等。可見雖然遺傳性小頭畸形綜合征相對罕見,但對綜合征的研究可以揭示對神經祖細胞、大腦大小和人腦進化的調節至關重要的分子機制。
本文作者在斑馬魚繁育過程中,發現了一個能穩定遺傳的小頭畸形突變體,為研究小頭相關分子機制,首先要明確導致突變表型的基因。對于突變基因的初步定位,本研究采用了基因組重測序結合BSA的分析方法,快速確定了突變所在的染色體。自2013年4月英國桑格研究所(Wellcome Trust Sanger Institute)完成了斑馬魚的參考基因組的測序和全基因組分析[17]以來,已發布了11個斑馬魚基因組拼接版本,是繼人類和小鼠以后,第三大高質量的有參基因組。BSA連鎖分析技術,不需要構建復雜定位群體,只需要選擇群體中兩極端性狀個體構建混池,對照參考基因組,通過計算變異(SNP,In/Del, CNV等)及其頻率,即可快速定位與目的基因緊密連鎖的分子標記。相較于限制性長度多態性RFLP,簡單序列重復數SSR和短串聯重復序列STR等分子標記方法,SNP具有數量多、覆蓋密度大、遺傳穩定性強、可實行批量化等優點。斑馬魚的多態性遠高于大小鼠等實驗動物,不同品系間的斑馬魚的SNPs高達29.9%~60%[18]。本研究通過二代測序就獲得了3364571個高質量的SNP位點。為基因定位提供了豐富的分子標記。由于高通量測序的獲得的變異信息量大,因此基于SNP的BSA連鎖分析方法較傳統的通過構建遺傳圖譜進行連鎖分析獲得的定位區間,具有關聯區間范圍小,定位準確,成本低,耗時短的優點。
在對目的基因進行精細定位中,本研究基于上述的高通量測序結果中SNP的二等位信息以及連鎖區間,開發KASP標記對SNP進行基因分型。通過計算交換率獲得與突變基因連鎖的區間。KASP基因分型技術具有穩定性高、準確性高和成本低廉等優勢,日益在高通量SNP分型中被廣泛應用[19]。目前這種基因定位的策略主要廣泛應用于農作物相關性狀的基因定位[20-21]。在斑馬魚突變基因定位中也略有涉及[22],大大加速了基因定位的效率。斑馬魚突變基因的定位之所以可以套用類似的思路,與斑馬魚的基因組特點和特殊的生物學特性有關。一是,如前所述,斑馬魚存在豐富的SNP[18,23],密集的分子標記將獲得更小的連鎖區間;其次,斑馬魚子代數量大,在精確定位時,可以通過獲得足夠數量的子代分析個體的基因型計算交換率獲得與性狀連鎖的位點。
本研究通過定位一個跟小頭畸形相關的基因座,摸索了一套適用于斑馬魚表型相關基因定位的方法,為斑馬魚突變體相關基因定位提供有益的參考。也為mise基因的克隆和功能研究奠定了基礎。