劉欣睿,王嘉博,柴志欣,武志娟,益西康珠,鐘金城
(西南民族大學,青藏高原動物遺傳資源保護與利用四川省教育部重點實驗室,成都 610041)
牦牛(Bosgrunniens)是生活在青藏高原及其周邊橫斷山脈地區特有畜種,為高原農牧民提供了基本的生活資源[1]。氧分壓降低會導致機體組織氧氣供應不足,影響動物的正常生理功能[2]。生活在高海拔地區的物種通過長期選擇進化出了特殊的生理機制和形態特征,以適應高原惡劣生態環境。如碩大的肺臟和厚實的心血管壁,通過消除缺氧血管收縮驅動來適應低壓缺氧[3],降低能量代謝[4]及抵抗低壓低氧環境的其他生理反應等[5]。相反,普通牛(Bostaurus)及江河型水牛(Bubalusbubalis)在牦牛居住的高原地區飼養時,會遭受嚴重的肺動脈高壓[6],使其無法適應高原生存和飼養環境。
在哺乳動物的進化歷程中,性染色體較常染色體表現出明顯的結構和形態差異,而性染色體在進化過程中常由常染色體轉化而來,性染色體和常染色體在分子進化和種群遺傳中存在差異,主要體現在性染色體在進化過程中表現出更高的遺傳漂變敏感性[7],它的大部分位點更容易受到選擇壓力的影響,這使得性染色體上被自然選擇固定下來的效應較常染色體要高[8]。其中X染色體的劑量依賴機制決定哺乳動物的性別,但相關機制尚不清楚[9]。X染色體與Y染色體不同,其受到雌性個體在減數分裂期間的X-X重組保護,使X染色體幾乎保留了祖先的所有基因[10]。牛亞科動物X染色體的基因含量高度保守,雌性個體的遺傳變異更多固定在X染色體上[11]。反芻動物個體在性染色體的組成方面具有差異,雌性為XX,雄性為XY,因此X染色體的重組和連鎖現象僅發生在雌性個體上,這使得性染色體的重組率遠低于常染色體[8],導致X染色體在進化過程中更容易保留物種特異性。
比較基因組分析是一種識別評估不同物種遺傳特性和基因結構的常用工具,對深入挖掘生物學功能具有重要意義。密碼子偏好性是廣泛存在于生物體內的一種在編碼氨基酸時偏好使用某特定同義密碼子的現象[12],密碼子的偏性常由突變和自然選擇共同作用。目前,絕大部分關于牦牛染色體的研究都集中于常染色體[13-14]、Y染色體[15]以及線粒體DNA[16]。本研究從比較基因組學和密碼子偏性水平闡述牦牛與普通牛、水牛X染色體基因結構、共線性關系及密碼子偏性差異,有助于了解牦牛及其近緣物種基因的改變、缺失或獲得,以及系統進化地位,為進一步解析牛亞科動物品種差異及牦牛高原適應性提供參考,同時研究密碼子偏好性對優化密碼子和提高目標蛋白表達也具有重要意義。
本研究以牦牛、普通牛(源于Ensembl數據庫,http:∥asia.ensembl.org)和水牛(源于NCBI數據庫,https:∥www.ncbi.nlm.nih.gov)為材料(表1)。利用自編Perl腳本[17]進行過濾獲得牦牛38 325 bp、普通牛33 376 bp、水牛57 536 bp的基因序列用于密碼子偏性分析,其過濾條件為:①以ATG為起始密碼子,TAG、TGA、TAA為終止密碼子[18];②基因的堿基數量為3的倍數;③刪除序列長度<300 bp的序列;④剔除重復基因序列。
牦牛、普通牛、水牛X染色體的CDS文件由一個自編bash腳本提取得到,并針對以下3點進行修改:①剔除重復基因,計算基因序列長度,保留最長序列;②根據位置信息和序列長度,去掉內含子坐標,修改抬頭坐標信息;③修改坐標信息后的基因序列呈首尾相連的長串基因組,各基因序列間添加10 bp的NA片段消除基因間的相互影響(圖1)。
以處理后的牦牛CDS文件建庫,與普通牛、水牛進行BLAST比對,使用BLAST Ring Image Generator(BRIG v0.95)(http:∥brig.sourceforge.net/)[19]進行可視化,使用fasta文件的抬頭信息為BRIG圖添加注釋信息,其注釋信息在最外層標注,BLAST比對的E-value閾值設定為1e-5,其余采用默認參數。相關基因功能均從NCBI(https:∥www.ncbi.nlm.nih.gov/gene/)模塊獲得。

表1 物種數據來源

圖1 牦牛文件的修改模式圖Fig.1 Modification pattern diagram of file of Bos grunniens
提取BLAST結果中牦牛特異區段附近20 kb序列,剔除匹配長度<100 bp、匹配度<95%及抬頭信息無基因名注釋的比對區段。使用R包genoplotR[20]基因共線性可視化,構建的3種牛亞科動物的dna_seg基因組結構文件中以strand模塊[1/-1]表示正鏈和負鏈,圖中以箭頭方向為5′→3′端區分基因方向;comparison結構比較對象文件以direction模塊[1/-1]表示對比區段是否正向匹配,圖中以交換線段表示。
1.4.1 密碼子使用偏性的測量 使用CodonW 1.4.2軟件(http:∥codonw.sourceforge.net/)分析3種牛科動物X染色體的CDS序列,獲得相應的有效密碼子數(effective number of codon,ENC)[21]、同義密碼子第3位堿基GC含量(CG3s)、同義密碼子第3位堿基TCAG含量(T3s,C3s,A3s,G3s)、鳥嘌呤和胞嘧啶占比(GC%)、密碼子適應指數(codon adaptation index,CAI)、密碼子偏好性指數(codon bias index,CBI)、蛋白質疏水指數(Gravy)、芳香族氨基酸含量(Aromo)及各密碼子在生物體內的使用頻數,使用R統計計算相對同義密碼子使用頻率(relative synonymous codon usage,RSCU)[22]、平均值及標準差,并使用R包pheatmap、ggplot2等對數據可視化。 RSCU值能有效反映密碼子的偏性情況,RSCU=1,表示該密碼子無偏倚性;RSCU>1,表示該密碼子的使用頻率高于同義密碼子(預期使用頻率);RSCU<1,表示該密碼子的使用頻率低于同義密碼子。RSCU的計算公式為:

(1)
式中,fij是第j個氨基酸的第i個密碼子出現的頻率;ni是同義密碼子的個數。
1.4.2 ENC-plot繪圖密碼子偏性分析 使用R包ggplot2,以GC3s為橫坐標、ENC值為縱坐標繪制ENC-plot散點圖。ENC-plot能直觀表示出自然選擇及其他因素對密碼子偏性的影響[23]。ENC的標準曲線表示在不存在自然選擇的情況下密碼子的偏性情況[24],若密碼子的偏性更多受自然選擇的影響應該坐落于標準曲線的下方;越靠近標準曲線表明選擇壓力對密碼子的偏性影響越小。其中ENC值能反映密碼子中同義密碼子非均衡使用的偏好性程度,ENC的取值介于20~61之間,ENC值越大編碼氨基酸時密碼子使用偏性越強[25],越小偏性則越弱。ENC標準曲線計算及繪制公式:

(2)
1.4.3 PR2-plot密碼子偏性分析 密碼子第3位堿基的組成由于突變影響具有一定的偏性,PR2-plot能很好地分析第3位堿基ATCG之間的偏性情況[26]。如果兩條鏈的DNA均未發生突變和自然選擇偏差,那么預期的繪制點將均勻地分布于線段(x=0.5,y=0.5)的左右,即堿基A=T,C=G。通常來講密碼子不會只受到突變的影響而使散點均勻的分布在偏性分析圖的4個區域,當第3位堿基使用頻率A/T不平衡時散落在圖的上下方,C/G不平衡則散落在左右方,而平面圖中心表示A=T,G=C[27]。
1.4.4 最優密碼子的確定 構建高低密碼組按照ENC值對CDS序列從大到小進行排序,提取前10%作為高表達密碼子組,后10%作為低表達密碼子組,分別計算各組RSCU值及ΔRSCU=RSCU(高表達組)-RSCU(低表達組)[28]。確定最優密碼子需滿足:①屬于高頻密碼子(RSCU>1);②屬于高表達密碼組(ΔRSCU>0.08)。
為了闡述牦牛X染色體序列組成特點,以及與普通牛、水牛X染色體序列的差異,以牦牛X染色體序列為參考,分別與普通牛及水牛該序列進行比較分析,發現普通牛和水牛未匹配的20~40、400~420、570~590和950~970 kb 4個區段為牦牛特異區段。其中牦牛與普通牛的匹配度最高,水牛與牦牛之間除牦牛特異區段外,在280~300、510~530、840~860和1 090~1 100 kb區段也發現了長段未匹配區。通過基因組注釋,在4個牦牛特異區段中3種牛亞科動物均能匹配到在20~40 kb區段的IL13RA1、DOCK11、WDR44、CT83、AGTR2和KLHL4基因;400~420 kb區段的HNRNPH2、GLA、RPHL36A-HNRNPH2、BTK、TIMM8A、TAF7L、DRP2、CENPI、TMEM35A、XKRX、NOX1和CSTF2基因;570~590 kb區段的CYSLTR1、TAF9B、PGK1、ATP7A、MAGT1和ATRX基因;950~970 kb區段的CXorf38、MID1IP1、OTC、SYTL5和CYBB基因,其中缺失區段被一個標記為unknown的標簽注釋在圖中(圖2)。
使用genoplotR包對提取的4個20 kb片段進行基因共線性分析。在20~40 kb區段牦牛所有基因均與普通牛、水牛具有相反排列。牦牛DOCK11基因較普通牛短,與水牛相近;牦牛KLHL13基因長度較普通牛和水牛長(圖3A)。在400~420 kb區段3種牛的基因長度相近,呈現出復雜的基因線性;與普通牛和水牛相比,牦牛BTK、TIMM8A、TAF7L和XKRX基因在進化過程中呈現與前端CENPI、TIMM35A、NOX和CSTF2基因的排列交換;水牛與普通牛呈現堿基的相反排列(圖3B)。570~590 kb區段牦牛與普通牛、水牛均呈現高度一致性,但水牛與牦牛、普通牛呈現堿基的相反排列(圖3C),牦牛ATRX基因較普通牛、水牛長,牦牛TAF9B及ATP7A基因較另2種牛科動物短;在950~970 kb區段,牦牛與普通牛一致度較高,牦牛SYL5、CYBB基因較普通牛長,水牛仍與牦牛、普通牛具有相反的堿基排列,且水牛未匹配基因CYBB的線性區段(圖3D)。
Seqtk軟件分析結果顯示,牦牛X染色體(cDNA)長度最短為136 336 377 bp,普通牛為139 009 144 bp,水牛的最長為136 336 377 bp,長度差異可能與密碼子偏性有關。
3種牛亞科動物的ENC值均不存在顯著性差異,均值在50.33~50.76,ENC值均偏大(表2)。牦牛X染色體編碼區的第3位堿基(ACG)含量較普通牛、水牛差異均不顯著(P>0.05),第3位堿基T含量、GC3s值、GC含量、CBI值、Gravy值和Aromo值均較水牛差異顯著(P<0.05),與普通牛差異不顯著(P>0.05)。3種牛亞科動物X染色體基因組編碼區的密碼子GC含量均>0.5,表明X染色體編碼區序列中GC含量>AT含量;密碼子均偏向以G/C為結尾,第3位密碼子以G/C結尾的偏性為牦牛<普通牛<水牛。

圖2 牦牛、普通牛和水牛X染色體的比較基因組分析Fig.2 Comparative genome analysis of X chromosome of Bos grunniens,Bos taurus and Bubalus bubalis

A,20~40 kb片段的基因線性;B,400~420 kb片段的基因線性;C,570~590 kb片段的基因線性;D,950~970 kb片段的基因線性A,Gene linearity of that 20-40 kb fragment;B,Gene linearity of that 400-420 kb fragment;C,Gene linearity of that 570-590 kb fragment;D,Gene linearity of that 950-970 kb fragment圖3 基因共線性分析Fig.3 Gene collinearity analysis

表2 CodonW分析的牛亞科基因組密碼子偏性
由表3可知,3種牛亞科動物X染色體基因編碼區密碼子RSCU值無明顯差異,其中牦牛、普通牛和水牛的RSCU范圍分別為0.341~2.099、0.366~2.007和0.379~2.000。牦牛有32個密碼子具有偏好性(RSCU>1),普通牛有33個,水牛有31個。其中牦牛有15個密碼子以CG結尾,普通牛有16個,水牛有20個。牦牛、普通牛及水牛強偏性密碼子(RSCU≥1.5)均為CUG、GUG、AGA、AGG和UGA(圖4A),由翻譯各氨基酸的密碼子占比可知(圖4B),3種牛亞科動物X染色體基因編碼區密碼子RSCU值分布較為一致,其中強偏性密碼子均分布在亮氨酸、精氨酸和纈氨酸3個氨基酸,且終止密碼子中UGA具有較強偏好性。

表3 牛亞科各氨基酸的 RSCU 分析

續表

續表

A,RSCU值熱圖分析,顏色越偏向于黃色和紅色,說明該密碼子的偏性越強;B,翻譯各氨基酸的密碼子占比,以百分比表示(左),密碼子RSCU值的曲線圖(右)A,Heatmap of RSCU,the color in the figure is more biased towards yellow and red,indicating that the corresponding codon bias is stronger;B,The proportion of codons translated for each amino acid,expressed as a percentage (left),and the graph of the RSCU value of codons (right)圖4 RSCU分析Fig.4 RSCU analysis
結果顯示,3種牛亞科動物大部分繪制點均坐落于ENC標準曲線的下方(圖5A),且牦牛繪制點相對集中,水牛相對分散。為了進一步說明3種牛亞科動物的差異,對ENC比值頻數進行了統計,結果表明無論是牦牛、普通牛還是水牛的ENC比值均集中在0.05~0.15、0.15~0.25、0.25~0.35 3個組段(表4),牦牛在-0.05~0.15組段較另兩者顯示更為集中。
結果顯示,多數繪制點落座于X=0.5左側,說明第3位堿基中檢測到了堿基C/G的偏性,即C>G;第3位堿基A/T無明顯偏性(圖5B),結果與表2分析一致。3種牛亞科動物的密碼子偏性不僅受突變影響,還受到一些如自然選擇及其他微小因素影響。
牦牛中有32個偏好密碼子(RSCU>1),其中有16個為最優密碼子(此處僅將牦牛的結果列于表5):AUU、CCU、CCA、ACU、ACA、GCU、GCA、UAU、CAU、AAU、GAU、GAA、AGA、GGA、UCU和UCA,9個以U結尾,7個以A結尾;普通牛的33個偏好密碼子中有13個最優密碼子:CUU、AUU、CCU、ACU、ACA、GCU、GCA、UAU、GAU、GAA、AGA、GGA和UCU,8個以U結尾,5個以A結尾;水牛的31個偏好密碼子中有9個最優密碼子:AUU、CCU、GCU、GAU、GAU、GAA、GGA、UCU和UCA,6個以U結尾,3個以A結尾。牦牛、普通牛及水牛最優密碼子均偏好于以A/U結尾,無C/G結尾的密碼子,且牦牛較普通牛和水牛具有更多最優密碼子。

A,ENC-plot;B,PR2-plot圖5 密碼子偏性分析Fig.5 Codon bias analysis

表4 ENC比值頻數分布表

表5 牦牛X染色體基因組氨基酸相對同義密碼子使用頻率

續表

續表
牦牛(2n=60),普通牛(2n=60)和江河型水牛(2n=50)的體細胞具有不同的染色體數。性染色體與其他染色體不僅在形態結構上存在差異,更多的體現在分子遺傳方面,如更高的遺傳漂變率、選擇壓力和突變等[5],以及X染色體的劑量依賴效應[9],均導致其固定了更多自然選擇效應。對牦牛和其他牛亞科動物的X染色體序列進行比對分析將有利于探究牦牛分子遺傳特性。
基因組比較結果顯示,3種牛亞科動物X染色體基因組的相似性均保持在較高水平,說明X染色體較為保守。對于平原物種來說,適應高原環境需要提高血紅蛋白濃度,提高心肺部功能促進氣管收縮,或加快機體代謝促進血液循環等,而在牦牛特異片段附近20 kb區段注釋的30個功能基因中有2個與肺部呼吸相關基因IL13RA1和AGTR2,1個與氣管收縮相關基因CYSLTR1以及1個與糖酵解相關基因PGK1,其中部分基因參與機體代謝功能,但其作用機理尚不明確。糖酵解是生物體在無氧條件下代謝降解獲得能量的主要途徑,PGK1基因編碼一種糖酵解酶,能催化1,3-二磷酸甘油酸轉化為3-磷酸甘油酸,該基因也與血管形成貧血等相關[29],其是否與牦牛高原適應相關還有待進一步研究。在被標注出的4個缺失區段,牦牛與普通牛、水牛具有差異的基因KLHL13、CENPI、PGK1等均與呼吸代謝相關。共線性結果顯示,3種牛亞科動物在牦牛特異的4個區段大部分基因能匹配共線性基因,且匹配區段較長,說明三者之間的進化分化時間較短,積累的變異較少,更多的保留了從祖先遺傳下來的特征。但牦牛的共線性結果表現出較普通牛和水牛更多的交換線性區段,從線粒體DNA和常染色體DNA推斷的進化關系表明牛亞科動物最開始分化為Bovina和Bubalina屬,后Bovina分化出牦牛和普通牛,Bubalina分化出水牛,因此牦牛和普通牛相似性更高[30],可能是由于牦牛生活的特殊生態環境,使其受到更大的選擇壓力,在進化過程積累的變異程度也更大,以致這些交換基因在牦牛進化過程中發揮重要作用。后面可對3種牛亞科動物各基因內部的堿基交換區段進行研究,從而進一步了解物種間的基因差異。
密碼子第3位核苷酸位置的點突變通常導致同義替換,而不改變編碼的氨基酸,因此不影響機體的穩定性。然而,非同義替換可能導致表型變化,使自然選擇作用于基因。突變和自然選擇是促成基因進化的2種主要因素[31]。影響密碼子偏性的其他因素還包括堿基組成、基因表達、遺傳漂變、無義突變、錯義突變和mRNA穩定性等[32]。
本研究共檢測比對了3種牛亞科動物X染色體基因組中密碼子偏性程度、組成特性、高表達代表和低表達代表的密碼子、核苷酸偏性的影響。對基因表達、突變或選擇壓力和每個氨基酸最優密碼子的鑒定進行了分析。其中ENC值常被作為判斷密碼子偏性的重要參數,能有效反映密碼子偏性情況[28]。研究發現,牦牛全基因組CDS區[13]及X染色體CDS區的密碼子使用偏性情況均不明顯。3種牛亞科動物X染色體密碼子的ENC值不存在顯著差異,均能有效地使用2個密碼子來編碼每個氨基酸,其ENC值均>50,高于牦牛全基因組CDS區ENC的48.58,但由于單個基因的ENC值均勻的分布于20~61之間,使得密碼子偏性對X染色體的總體影響較全基因組觀測的更為顯著[33]。密碼子的使用模式同樣對堿基的組成具有顯著影響[34],GC含量是判斷堿基組成的重要指標,牦牛X染色體上的GC含量為51%,較普通牛無顯著差異,與水牛差異顯著,均無明顯偏性,這符合3種牛亞科動物的進化歷程[30]。研究表明,哺乳動物GC含量普遍偏高[35-36],牦牛全基因組水平GC含量同樣顯著高于AT含量[13]。在最優密碼子分析中也發現了上述使用差異,3種牛亞科動物X染色體CDS區的最優密碼子均以A/U結尾,牦牛全基因組發現的18個最優密碼子[13]均以G/C結尾,這說明不同染色體可能具有不同的密碼子使用模式。其中牦牛最優密碼子數量最多,這有利于通過密碼子優化等手段改造外源基因,提高蛋白表達水平,為牦牛的遺傳育種改良提供理論參考。
本研究通過ENC-plot及PR2-plot分析發現,3種牛亞科動物X染色體的部分基因第3位堿基ATCG使用存在不均衡性,它們的密碼子偏性均更大程度受自然選擇的影響[28]。ENC比值頻數分布提示3種牛科動物ENC期望值與ENC觀測值之間差異較大,多數位于標準曲線下方,也進一步說明牦牛與其他兩種牛科動物的密碼子偏性受自然選擇的影響較大。這與牦牛和普通牛全基因組密碼子分析發現牦牛的密碼子偏性更多的受突變影響而非自然選擇的結果不同[13]。推測是由于X染色體的高保守性導致,突變壓力較高對于哺乳動物的X染色體存在一定危害。密碼子的偏性可能還與CDS基因長度相關[37],同基因組比對結果聯合分析能夠解釋牦牛的密碼子GC含量低于普通牛及水牛,較長的基因序列在進化過程中更容易受到自然選擇及突變壓力的影響。
牦牛X染色體編碼區與普通牛、水牛相比,存在較多差異基因,如KLHL13、CENPI、PGK1等均與呼吸代謝相關的基因,以及由于強選擇壓和突變壓下表現出的交換線性區段;同時牦牛、普通牛和水牛X染色體編碼區密碼子使用偏性相似,均偏向G/C結尾的密碼子,牦牛偏性最小;牦牛篩選出最多(16個)最優密碼子均以A/U結尾;且三者密碼子偏性受到自然選擇的影響均大于突變的影響。