田新民 宋雅祺



摘 ?要:基于NCBI數據庫獲取馬鹿(Cervus elaphus)Cyt b基因序列,應用生物信息學方法對馬鹿Cyt b基因編碼的蛋白質進行理化性質、結構和相關功能的預測分析,了解馬鹿mtDNA Cyt b基因的結構、功能和表達特性.結果表明:馬鹿Cyt b編碼的蛋白質為疏水性蛋白質,推測相互作用的蛋白質包括LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4H和CYC,功能與電子運輸、耦合質子運輸以及泛醌-細胞色素c還原酶活性有關;二級結構主要為無規則卷曲,有2個潛在的N-糖基化位點和34個磷酸化位點,9個跨膜螺旋結構域,定位于內質網和細胞質膜;馬鹿與梅花鹿(Cervus nippon)的親緣關系較近.這對于馬鹿種質鑒定分子標記的篩選及其與梅花鹿的漸滲雜交具有理論意義.
關鍵詞:馬鹿;mtDNA Cyt b基因;生物信息學
[ ? 中圖分類號 ? ?]Q332 [ ? ?文獻標志碼 ? ] ?A
Bioinformatic Analysis of the mtDNA Cyt b Genes in Red Deer
TIAN Xinmin, SONG Yaqi
(College of Life Science and Technology, Mudanjiang Normal University, Mudanjiang 157011, China)
Abstract: Based on the NCBI database, the Cyt b gene sequence of red deer(Cervus elaphus) was obtained, and the physical and chemical properties, structure and related functions of the protein encoded by the Cyt b gene of red deer were predicted and analyzed using bioinformatics methods to understand the structure, function and expression characteristics of mtDNA Cyt b gene of red deer . The results showed that the proteins encoded by Cyt b in wapiti were hydrophobic proteins. It was speculated that the interacting proteins included LOC100524873, UQCRC1, UQCRQ, ND1, MT-ND2, COX1, COX2, COX3, ND4H and CYC. Their functions were related to electron transport, coupled proton transport and ubiquinone cytochrome c reductase activity; The secondary structure is mainly irregular curly, with 2 potential N-glycosylation sites, 34 phosphorylation sites, 9 transmembrane helical domains, located in the endoplasmic reticulum and the plasma membrane; Red deer and sika deer (Cervus nippon) are closely related. This is of theoretical significance for the screening of molecular markers for wapiti germplasm identification and its introgressive hybridization with sika deer.
Key words:Cervus elaphus; mtDNA Cyt b gene; bioinformatics
馬鹿(Cervus elaphus)屬于偶蹄目(Cetartiodactyla)、鹿科(Ceridae)、鹿屬(Cervus),在我國有8個亞種,主要分布于東北、西北、華北和西南等地區,為國家II級重點保護野生動物.[1]近年來,人類活動的干擾使馬鹿棲息地破碎化加劇,種群數量下降,加劇了該物種的瀕危程度.[2-5]mtDNA中的Cyt b基因進化速度比較適中,較小的基因片段包含很多遺傳進化信息,保守區域和突變區域的存在使得Cyt b基因可以應用于遺傳多樣性的研究.目前對Cyt b基因的研究集中于系統學和分類學等方面[6-8],對馬鹿Cyt b基因的研究很少.
本研究通過生物信息學方法,對馬鹿Cyt b基因編碼蛋白質的理化性質、二級結構、三級結構、信號肽的有無、跨膜結構域、磷酸化位點、N-糖基化位點和亞細胞定位進行預測,比對其與其他17個物種的序列同源性,判斷親緣關系.通過野豬Cyt b基因編碼蛋白質推測其可能相互作用的蛋白質,以此研究馬鹿Cyt b基因編碼的蛋白質的生物學功能,這對于更好地了解馬鹿Cyt b基因的功能和應用方向、恢復馬鹿種群數量、維持馬鹿的遺傳多樣性以及馬鹿保護策略的制定等方面具有重要意義.
1 材料與方法
1.1 基因序列的獲取
在NCBI數據庫中查找并下載馬鹿Cyt b基因序列以及CDS編碼序列(Gene ID:1972167777).查找其他不同物種的Cyt b基因序列作為對照,最終下載以下18種動物的mtDNA Cyt b基因序列,如表1所示.
1.2 分析方法
馬鹿Cyt b基因編碼蛋白質的理化性質分析 ?利用Protparam程序對馬鹿Cyt b基因編碼的蛋白質的理化特性進行預測和分析,包括氨基酸組成及個數、分子量、原子總數、分子式、正/負電荷殘基總數、理論等電點、消光系數、不穩定指數、脂肪指數、親水性平均系數和酸堿性等.
馬鹿Cyt b基因編碼的蛋白質的親/疏水性分析 ?基于Protscale軟件的Hphob./Kyte&Doolittle算法對馬鹿Cyt b基因編碼的蛋白質每個位點的親/疏水性進行計算和分析,推斷蛋白質的親/疏水性.
馬鹿Cyt b基因編碼蛋白質的二級結構和三級結構預測分析 ?基于SOPMA程序對馬鹿Cyt b基因編碼的蛋白質的二級結構進行預測分析,預測其二級結構的主要形式;基于SOPMA-MODEL程序對馬鹿Cyt b基因編碼的蛋白質三級結構進行預測分析、建模、質量評估.
馬鹿Cyt b基因編碼蛋白質的N-糖基化位點預測分析 ?基于NetNGlyc-1.0程序對馬鹿Cyt b基因編碼蛋白質的N-糖基化位點進行預測分析.
馬鹿Cyt b基因編碼蛋白質的信號肽和跨膜結構域預測分析 ?基于SignalP-5.0程序對馬鹿Cyt b基因編碼蛋白質的信號肽進行預測分析,并基于TMHMM-2.0程序對馬鹿Cyt b基因編碼蛋白質的跨膜結構域進行進一步預測分析,推測其蛋白類型.
馬鹿Cyt b基因編碼蛋白質的磷酸化位點預測分析 ?基于NetPhos-3.1程序對馬鹿Cyt b基因編碼蛋白質的磷酸化位點進行預測分析,并計算絲氨酸、蘇氨酸和酪氨酸的磷酸化位點個數.
馬鹿Cyt b基因序列同源性分析 ?將馬鹿Cyt b基因序列與其他17個物種進行系統發育分析,利用軟件MEGA7.0對數據進行分析,并采用鄰接法(Neighbor Joining,NJ)構建系統發育樹.
馬鹿Cyt b基因編碼蛋白質的相互作用蛋白質的預測分析 ?基于STRING程序對野豬Cyt b基因編碼蛋白質的相互作用的蛋白質進行預測分析,推測與馬鹿Cyt b基因編碼蛋白質的相互作用蛋白質.
馬鹿Cyt b基因編碼蛋白質的亞細胞定位分析 ?基于SPOST II程序對馬鹿Cyt b基因編碼蛋白質的亞細胞定位進行預測分析,預測該蛋白發揮作用的位置.
馬鹿Cyt b基因編碼蛋白質的生物信息學分析軟件及網站見表2.
2 結果與分析
2.1 馬鹿Cyt b基因編碼蛋白質的理化性質分析
馬鹿Cyt b基因編碼蛋白質為堿性蛋白質,不穩定指數(instability index,Ⅱ)小于40,表明馬鹿Cyt b基因編碼的蛋白質屬于穩定蛋白,該蛋白不容易降解或變性.該蛋白中異亮氨酸(Ile)占比最高,為15%,其次為亮氨酸(Leu),為9.8%(圖1).親水性平均系數大于0,表明其為疏水性蛋白.結果見表3.
2.2 馬鹿Cyt b基因編碼蛋白質的親/疏水性分析
在第236位氨基酸位點處存在最大親水性值3.600,在第205位氨基酸位點存在最小親水性值-1.989.如圖2所示,橫坐標代表氨基酸的序列,縱坐標代表親疏水系數,大于零部分多于50%為疏水性蛋白質,小于零部分多于50%為親水性蛋白質.結果表明,該蛋白質中親水性氨基酸的總分低于疏水性氨基酸,該蛋白質為疏水性蛋白質,與親水性平均系數結果相同.
2.3 馬鹿Cyt b基因編碼蛋白質的二級結構和三級結構預測分析
馬鹿Cyt b基因編碼蛋白質的二級結構預測分析結果見圖3.圖中c代表無規則卷曲,h代表α-螺旋,e指的是延伸.該蛋白質中98個氨基酸可能參與形成α-螺旋(Hh),占比25.86%,109個氨基酸可能參與形成延伸鏈(Ee),占比28.76%;172個氨基酸可能參與形成無規則卷曲(Cc),占比45.38%,沒有β-轉角(Tt)結構.表明該蛋白質二級結構有序,能夠正常發揮其功能.
通過SWISS-MODEL程序,預測馬鹿mtDNA Cyt b基因編碼蛋白質的三級結構.結果如圖4所示,馬鹿Cyt b基因編碼蛋白質的序列與數據庫中6haw.1.C模板的序列一致性為92.06%,GMQE值為0.86,QMEAN值為-2.55,建模結果可靠,表明蛋白質的主要構件無規則卷曲、延伸鏈和螺旋,與預測的二級結構結果一致.
2.4 N-糖基化位點預測分析
應用NetNGlyc 1.0 Server程序預測馬鹿Cyt b基因編碼蛋白質的N-糖基化位點,結果如圖5所示.該蛋白質中有兩個N-糖基化位點,分別為26NISS和255NYTP.
2.5 馬鹿Cyt b基因編碼蛋白質的信號肽和跨膜結構域預測分析
利用SignalP-5.0預測分析馬鹿Cyt b基因編碼的蛋白質的信號肽,信號肽對于定位到特定的細胞器上起著重要作用.結果如圖6所示,顯示該蛋白質有信號肽的概率為0.000 4,推測該蛋白質沒有信號肽,為其他類型蛋白質.為了進一步驗證馬鹿Cyt b基因編碼蛋白質的類型,應用TMHMM程序預測分析其跨膜結構域.馬鹿Cyt b蛋白質跨膜區域結構的預測結果如圖7所示,存在9個跨膜螺旋結構.由此推測,馬鹿Cyt b基因編碼蛋白質為跨膜蛋白,表明其可能是定位于膜上的錨定蛋白質或離子通道蛋白質,也可能作為膜受體起作用.
2.6 馬鹿Cyt b基因編碼蛋白質的磷酸化位點預測分析
磷酸化多數情況下是發生在絲氨酸(Serine,Ser)、蘇氨酸(Threonine,Thr)和酪氨酸(Tyrosine,Tyr)等氨基酸的殘基上.馬鹿Cyt b基因編碼蛋白質的磷酸化位點預測結果顯示,該基因的編碼蛋白質可能存在34個磷酸化位點,其中包括絲氨酸(S)14個、蘇氨酸(T)14個和酪氨酸(Y)6個.表明該蛋白質可以被激酶磷酸化,從而對其功能進行調控.
2.7 馬鹿Cyt b基因序列的同源性
軟件MEGA7.0對基因序列數據進行比對,與這17個物種的對比中,馬鹿與梅花鹿的親緣關系最近,與坡鹿的親緣關系次之,與東北刺猬和駝背海馬的親緣關系較遠.如圖8所示,說明馬鹿與梅花鹿的Cyt b基因可能具有相同的功能,可為馬鹿與梅花鹿的漸滲雜交提供理論基礎.
2.8 與Cyt b基因編碼蛋白質相互作用蛋白質預測
細胞中的蛋白質通過與其他蛋白質的相互作用完成生理功能,不同物種蛋白質的空間結構會略有差異,但其功能相似.[9, 10]通過STRING數據庫,使用野豬的Cyt b基因編碼的蛋白質推測與馬鹿Cyt b蛋白相互作用的蛋白質,并計算相互作用綜合得分.Cyt b蛋白質與LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4,CYC的相互作用較強,相互作用得分均為0.999.由此推測,馬鹿Cyt b蛋白與電子傳輸、耦合質子傳輸、泛醇-細胞色素c還原酶活性、線粒體呼吸鏈復合物III等功能相關.
2.9 亞細胞定位
亞細胞定位是查找某種蛋白質或某個基因表達產物在細胞內的具體存在部位,對蛋白質的亞細胞定位分析有助于蛋白質功能的初步判斷,基于PSORT II預測馬鹿Cyt b基因編碼的蛋白質在亞細胞中的定位.結果顯示,定位于內質網中的比例為55.6%,定位于細胞質膜的比例為44.4%.
3 小結與討論
Cyt b位于mtDNA中,是編碼線粒體內膜上Cyt b氧化酶基因的一個亞基,也是組成電子傳遞鏈的重要媒介.[11, 12]Cyt b由于其結構保守、進化速度快、擴增難度小等諸多特點,被廣泛應用于評價物種遺傳多樣性、遺傳變異和系統發育分析等方面.[13]在對不同物種的系統發育分析中,馬鹿與梅花鹿的親緣關系較近,與駝背海馬的親緣關系較遠,對于馬鹿和梅花鹿的漸滲雜交提供了理論基礎.
本次選用了馬鹿Cyt b基因進行分析,研究結果表明,馬鹿的Cyt b基因長1 140 bp,共編碼氨基酸379個,理論等電點為7.17,含量最多的氨基酸是異亮氨酸,屬于穩定的疏水蛋白,這提示其是一類具有強表面活性的分泌型小分子量蛋白質.筆者發現,馬鹿Cyt b蛋白質有2個潛在的N-糖基化位點,具有32個磷酸化位點,磷酸化是蛋白質翻譯后修飾中最為廣泛的共價修飾,對蛋白質功能的正常發揮起著調節作用.馬鹿Cyt b基因編碼蛋白質沒有信號肽,有9個跨膜結構,表明馬鹿Cyt b基因編碼蛋白質是跨膜蛋白質,可以傳遞離子,并通過細胞膜來維持化學環境.馬鹿Cyt b基因編碼蛋白質的二級結構主要是不規則卷曲,亞細胞定位顯示在內質網和細胞質膜發揮生物學功能.馬鹿Cyt b基因編碼蛋白質的絲氨酸和蘇氨酸磷酸化位點較多,表明此蛋白質的酶活力較強.通過預測野豬Cyt b蛋白質的相互作用蛋白質,發現與LOC100524873,UQCRC1,UQCRQ,ND1,MT-ND2,COX1,COX2,COX3,ND4,CYC的相互作用較強,由此推測馬鹿Cyt b蛋白質與電子傳輸、耦合質子傳輸、泛醇-細胞色素c還原酶活性、線粒體呼吸鏈復合物III等功能相關.本文初步預測分析了馬鹿Cyt b的結構和功能,為馬鹿Cyt b基因功能深入研究、基因的相對表達和應用方向的挖掘提供了理論基礎,對恢復馬鹿種群數量以及保護策略的制定具有重要意義.
參考文獻
[1]秦瑜, 張明海. 中國馬鹿的研究現狀及展望[J]. 野生動物, 2009,30(2): 100-104.
[2]艾尼瓦爾·吐米爾, 董曉宇, 馬合木提·哈力克. 中國馬鹿(Cervus elaphus)新疆三個亞種的研究現狀及展望[J]. 新疆農業科學, 2008, 45(3): 504-510.
[3]張書理, 王志玲, 張鵬, 等. 內蒙古赤峰市野生馬鹿種群資源現狀研究[J]. 四川動物, 2009, 28(5): 772-776.
[4]姚丹陽. 河北塞罕壩保護區馬鹿初步調查及保護對策[J]. 安徽農學通報, 2016, 22(24): 34+39.
[5]Shokri S, Jafari A, Rabei K, et al. Conserving populations at the edge of their geographic range: the endangered Caspian red deer (Cervus elaphus maral) across protected areas of Iran[J]. Biodiversity and Conservation, 2021, 30(1): 85-105.
[6]Liu Y H, Zhang M H, Ma J Z. Phylogeography of red deer (Cervus elaphus) in China based on mtDNA Cytochrome b gene[J]. Research Journal of Biotechnology, 2013, 8(10): 34-41.
[7]張麗, 滾雙寶, 雷天云, 等. 應用mtDNA Cyt b基因全序列分析中國5個馬鹿群體的遺傳多樣性和系統發育[J]. 華北農學報, 2010, 25(4): 12-16.
[8]Borowski Z, Swisocka M S, Matosiuk M, et al. Purifying selection, density blocking and unnoticed mitochondrial DNA diversity in the red deer, Cervus elaphus[J]. PLoS One, 2016, 11(9): e0163191.
[9]宋寶興, 桑青, 王芬, 等. 基于蛋白質相互作用網絡挖掘物種內的功能相似蛋白質[J]. 生物物理學報, 2011, 27(9): 789-800.
[10]劉淑娟. 根據細胞色素b基因的序列變異分析脊椎動物的進化關系[J]. 山東農業大學學報: 自然科學版, 2006, 37(3): 392-396.
[11]辛翠娜, 彭建軍, 王瑩, 等. Cyt b分子標記技術在物種鑒定中的應用[J]. 野生動物, 2009, 30(4): 217-221.
[12]于瀅. 對線粒體的再認識[J]. 牡丹江師范學院學報: 自然科學版, 2016(1): 63-66.
[13]孫玉友. 利用SRAP分子標記分析栽培稻的遺傳多樣性[J]. 牡丹江師范學院學報: 自然科學版, 2012(1): 24-26.
編輯:琳莉