孫翰昌,龐 敏,靳 濤
(重慶文理學院生命科學與技術學院,重慶永川402168)
斑馬魚(Danio rerio)是鯉科短擔尼爾屬的一種熱帶觀賞魚[1]。斑馬魚作為一種新型的脊椎模式生物,可以進行大規模的正向基因飽和突變與篩選[2]。隨著斑馬魚基因組測序工程的完成,接著需要進行的就是斑馬魚的基因功能組、轉錄組、蛋白質組及代謝組學的研究。較準確地注釋斑馬魚基因組以及從整體上了解基因家族的結構特點和功能對積極推動基因功能研究具有重要意義。
成纖維細胞生長因子(fibroblast grow th factors,FGFs)是一類結構相似的能促進成纖維細胞生長的多肽家族,其成員主要分布在腦神經、腎、卵巢、胎盤、肝臟、骨肌、睪丸、成纖維細胞、腎上腺皮質、粒細胞和巨噬細胞等組織和細胞[3],通過與細胞膜特異受體結合發揮其生物學功能。FGF家族成員多數都具有一個N端信號肽,屬于典型的分泌型生長因子,可被細胞分泌到胞外,以自分泌或者旁分泌形式發揮調控作用[4]。因此,研究FGF成員的信號肽結構對于研究其在生物體內的分泌途徑,可以揭示它在胚胎發育、組織形成與修復、炎癥、血栓形成、腫瘤發生等生理及病理過程中的作用途徑。
本文利用分析準確率較高的Signal P3.0[5]、TMHMM 2.0、Big.PI-Predictor和 Target P1.01四種軟件對斑馬魚FGF中分泌型蛋白的信號肽進行預測,并對其信號肽的特征進行分析。
1.1 材料 用于分析的斑馬魚成纖維細胞生長因子基因序列來源于NCBI(National Center for Biotechnology Information)數據庫,斑馬魚FGF家族成員共26個。
1.2 方法 采用表1的網絡服務器和軟件對斑馬魚FGF信號肽進行分析。Signal P3.0軟件分析斑馬魚FGF的N端氨基酸序列,確定是否存在信號肽。Signal P3.0的預測結果采用分泌信號肽判別式:L=-918.235-123.455*(Smean)+1 983.44*(HMM)對上述預測值進行判定,當L值>0,即表示該蛋白具有分泌信號肽[5];TMHMM 2.0軟件,對該序列的跨膜區進行分析;利用Big-PI predictor對蛋白的GPI-錨定位點進行預測;最后采用Target P1.1軟件預測靶標肽段在亞細胞器中的分布和定位,進一步確定該信號序列是否為穿膜信號肽。最后采用Signal P3.0軟件對信號肽N、H、C結構域進行分析。

表1 斑馬魚FGF信號肽分析涉及到的Internet資源
2.1 信號肽的預測分析 采用生物信息學軟件和網絡服務器對26個斑馬魚成纖維細胞生長因子的N-末端信號肽、GPI錨定位點、跨膜結構以及分泌途徑進行分析,研究結果顯示,26個斑馬魚FGF中有10個可能具有N-末端信號肽,均無GPI-錨定位點,其中8個跨膜螺旋為0,2個均具有1個跨膜螺旋區,并且10個信號肽序列均具有分泌途徑的信號肽(SP)。綜合分析,滿足具有可溶性分泌信號肽的蛋白有10個,所占比例達到38.5%。
2.2 斑馬魚FGF信號肽特征分析 采用生物信息學和統計學分析20種氨基酸殘基在斑馬魚FGF分泌型蛋白信號肽中的出現頻率,結果如圖1所示。研究結果顯示,在組成信號肽的氨基酸中,非極性氨基酸出現的頻率最高(A 、L、P、V)占43.8%;其次是帶負電荷的氨基酸(D、E 、F、H 、I、T 、M 、W 、Y)占23.5%;極性氨基酸(G 、N 、Q 、S)為 21.2%;出現頻率最低的是帶正電荷的堿性氨基酸(R、K)占7.1%。20種氨基酸的出現頻率從高到低為L→A→S→V→C→T→G→M →R→F→P→W→Q→I→K→Y→E→N→H→D,其中亮氨酸(L)出現的頻率最高,為 19%,天冬氨酸(D)出現的頻率最低為0.3%(圖1)。同時,發現丙氨酸、纈氨酸、亮氨酸、絲氨酸、半胱氨酸、甲硫氨酸、精氨酸等脂肪族氨基酸的使用頻率都大于5%,這可能與信號肽的功能相關,使其更易穿過質膜。

圖1 斑馬魚FGF分泌蛋白信號肽中氨基酸的使用頻率
斑馬魚FGF分泌蛋白及信號肽長度,見表2,分泌蛋白長度變化范圍為187至258個氨基酸之間,平均為212個氨基酸,信號肽長度變化范圍為17至39個氨基酸,平均為30個氨基酸。信號肽的結構基本相似,而信號肽長度的變化說明信號肽具有高度的變異性,這可能與蛋白功能多樣化及生物進化相關。

表2 10種FGF蛋白多肽鏈及信號肽長度
斑馬魚FGF分泌蛋白信號肽包括N結構域、C結構域、H結構域3個功能域。由表3可以看出,斑馬魚FGF分泌蛋白信號肽N結構域的長度變化為3至23個氨基酸,平均為15個氨基酸;H結構域的長度變化為10至12個氨基酸,平均為10.6個氨基酸;這種信號肽的N結構域和H結構域的變化可能與不同生物物種有關。在信號肽中,除了FGF19(NP001012246),FGF4(NP571710)外,其 N區平均含有1~2個正電荷的賴氨酸K或精氨酸R,其中FGF10a(NP878290)含的最多為4個。C結構域在-3位置上纈氨酸(V)出現的次數最多為6次,丙氨酸出現3次,半胱氨酸出現最少為1次;-2位置上亮氨酸、絲氨酸、天冬氨酸、賴氨酸都出現3次,丙氨酸和谷氨酸各出現1次;-1位置上絲氨酸和丙氨酸都出現3次,甘氨酸和半胱氨酸出現2次。

表 3 10種 FGF蛋白的N、H、C結構域
2.3 編碼分泌小蛋白的亞細胞位置 蛋白質的亞細胞定位是蛋白質組學研究的重要信息,也是蛋白質功能研究的重要方面。了解蛋白質的亞細胞定位信息,可以為我們推斷蛋白質的生物學功能提供必要的幫助。因此,本文采用Subloc v 1.0預測了26個小蛋白的亞細胞位置。從圖2可看出,這些蛋白的功能場所包括細胞核、線粒體、細胞質和細胞外。其中分泌到細胞核的蛋白數量是最多的,提示細胞核可能是這些蛋白的主要功能場所。

圖2 斑馬魚26個FGF蛋白的亞細胞定位
本研究通過應用 Signal P3.0、TMHMM v 2.0、Big-PIpredictor、TargetPv1.1四種準確度比較高的蛋白分析組合軟件對斑馬魚26個FGF分泌蛋白氨基酸序列進行分析和研究,發現有10個FGF蛋白具分泌信號肽。斑馬魚FGF蛋白信號肽的氨基酸組成主要以非極性的氨基酸殘基為主,這可能與信號肽的功能與質膜識別的屬性有關。但是信號肽長度有一定的差異,說明信號肽可能具有高度的變異性。蛋白質只有轉運到正確的靶部位才能參與細胞的各種生命活動[6]。蛋白質要轉運到正確的部位是由信號肽決定的,不同的作用位點,對應不同的信號肽。
已有研究表明,多數分泌蛋白在多肽的N端具有信號肽用于指導蛋白運送到蛋白的正確作用位點。盡管不同的分泌蛋白的信號肽存在差異,但一般包括3個明顯的結構域,即N結構域、H結構域、C結構域[7]。本研究也獲得了相同的信息,具備分泌蛋白特征的斑馬魚FGF蛋白的信號肽均具有上述3個結構域,但是各個結構域的長度和氨基酸組成有一定差異。這可能和它們的分泌功能和分泌特性有關。
通過對斑馬魚FGF氨基酸序列的分析,發現在構成信號肽的氨基酸具有一定的保守性,如主要以非極性的為主且在酶切位點的氨基酸殘基的組成中幾乎沒有酸性氨基酸和堿性氨基酸,這可能與信號肽的與質膜識別的屬性有關。但是信號肽本身卻是高度進化的,在所分析的具有信號肽的蛋白中沒有相同的信號肽,他們的同源性也很差。這種情況可能與信號肽功能的精密分工是密切相關的。因為蛋白要行使其正確的功能,首先必須移位到其正確的亞細胞作用位點。亞細胞位點的識別正是由信號肽決定的,不同的作用位點,就應該有不同的信號肽[7]。但是每一類蛋白的信號肽的保守和進化程度如何,還需要更多的信號肽的信息。
[1] 全珊珊,吳新榮.斑馬魚,人類疾病研究的理想模式動物[J].生命的化學,2008,28(3):260-263.
[2] 劉昌盛,穆宇,杜久林.斑馬魚在生命科學研究中的應用[J].生命科學,2007,19(4):382-386.
[3] 林劍,許雁,劉春宇.堿性成纖維細胞生長因子[J].暨南大學學報:自然科學版,1993,14(1):99-104.
[4] 孫翰昌.草魚成纖維細胞生長因子-8(FGF8)的cDNA克隆與序列分析[D].重慶:西南大學,2007:1-5.
[5] 周曉罡,李成云,趙之偉,等.粗糙脈孢菌基因組分泌蛋白的初步分析[J].遺傳,2006,28(2):200-207.
[6] 張松,黃波,夏學峰,等.蛋白質亞細胞定位的生物信息學研究[J].生物化學與生物物理進展,2007,34(6):573-579.
[7] 范成明,李成云,趙明富.根癌土壤桿菌C58 Cereon中分泌蛋白信號肽分析[J].微生物學報,2005,8(4):561-566.