王紅梅等
摘要:以固有無序蛋白質為研究對象,通過CD-HIT對數據進行去冗余處理,然后利用編程軟件對數據進行統計而得到新的數據。對所有無序區及有序區的氨基酸含量進行對比,認為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。研究結論有助于進一步挖掘固有無序蛋白質的序列特征,并為固有無序蛋白質的預測提供一些借鑒。
關鍵詞:固有無序蛋白質;功能位點;無序區;序列分析
中圖分類號: Q516 文獻標志碼: A 文章編號:1002-1302(2014)04-0038-02
收稿日期:2013-08-23
基金項目:山東省自然科學基金(編號:ZR2010CQ041)。
作者簡介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學的研究。E-mail:whm_2327@126.com。蛋白質是生物體中最重要的兩類大分子之一,傳統思想認為蛋白質要實現其生物功能,必須先折疊成一個穩定的三維結構,因此形成了蛋白質結構決定其功能的主流觀點[1]。然而隨著基因工程方法和實驗技術的發展以及基因組計劃的開展,在20世紀90年代初,人們發現有些蛋白質或蛋白質序列中的一部分區域在生理條件下不具有一個確定的三維結構,但是依然能夠正常行使生物學功能。進一步研究發現的這類蛋白質越來越多,并逐漸形成了一種新的蛋白質類型,稱為固有無序蛋白質(intrinsically disordered proteins,簡稱為IDPs)[1-3]。對目前存在的大量基因庫數據進行分析發現:蛋白質的無序結構與蛋白質功能之間關系密切,無序蛋白質在諸如轉錄、翻譯、調控細胞信號轉導、蛋白質磷酸化及小分子存儲等過程中發揮著重要的作用;另一方面,無序蛋白質又經常與多種疾病聯系在一起。與人類癌癥相關的蛋白質中,無序蛋白質的含量高達79%;在心血管疾病有關的蛋白質中,無序蛋白質的含量也高達57%。無序區是固有無序蛋白質發揮功能的主要區域,功能位點大多分布在該區域,因此預測蛋白質的無序區成為判斷蛋白質是否無序的熱點問題。Romero 等在1997年首次對蛋白質無序區域進行預測,他們預測的準確性達到70%,此后無序蛋白質的預測方法得到了迅速發展,目前應用于無序蛋白質序列預測的方法已經超過50種,并且這些預測方法的準確性普遍達到85%以上。
本研究基于序列分析的方法,以DisProt數據庫中的固有無序蛋白質為研究對象,通過CD-HIT程序對數據進行去冗余處理,將處理后的數據利用編程軟件Matlab 7.0進行統計而得到新的數據;對新數據進行分析,通過編程把序列的無序區和有序區分別提取出來,再分析無序區和有序區氨基酸組成的偏好性。本研究有助于進一步挖掘固有無序蛋白質的序列特征,從而為固有無序蛋白質的預測提供借鑒。
1數據來源及去冗余處理
1.1數據來源
本研究以固有無序蛋白質數據庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對象(發布日期為2012年10月15日),下載數據庫中最新的固有無序蛋白質進行研究,共有無序蛋白質684個,無序區1 513個。
1.2去冗余處理
由于蛋白質序列數據庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數據的統計分析,并且由于冗余序列要占用更多的計算機存儲和處理資源,因此去除這些冗余信息具有很高的實用價值,不但可以減小數據庫的大小、提高序列搜索的速度,而且有助于對數據的統計分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對數據進行處理,將相似度閾值設為30%。結果顯示:去冗余前,固有無序蛋白質共有684條序列;去冗余后,蛋白質共有549條序列。
2固有無序蛋白質無序區和有序區的氨基酸組成偏好性分析
用Matlab編程對全部序列(去冗余后)提取無序區和有序區。無序區包括112個全部無序區(如DisProtDP00001,108個氨基酸都是無序的)以及非全部無序蛋白質(蛋白質中含有無序片段)序列中的各條無序區;無序區的氨基酸總數為64 243,約占固有無序蛋白質氨基酸總數的28.67%。因此可以看出:固有無序蛋白質中有序區的氨基酸數大約是無序區氨基酸數的3.5倍。結果表明,固有無序蛋白質的氨基酸在有序區的含量要大大高于無序區,即固有無序蛋白質的大部分組分都是有序部分。
對固有無序蛋白質中的所有無序區及有序區的氨基酸個數和含量進行對比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進行處理得到了固有無序蛋白質中的無序區和有序區的所有氨基酸含量及差值,詳見表1。
3結論
本研究以DisProt數據庫中的固有無序蛋白質為研究對象,先通過程序CD-HIT對數據進行去冗余處理,然后利用編程軟件Matlab7.0對數據進行統計而得到新的數據,再對數據進行分析。結果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。
無序蛋白質具有獨特的氨基酸組成特點,這些獨特的氨基酸序列決定了其無序的結構。無序蛋白質的研究將促進人們重新認識蛋白質的結構和功能關系,也將為蛋白質的全新設計和疾病的治療提供新的思路。相信隨著研究數據的增加,對固有無序蛋白質的研究將更深入和全面,從而能夠進一步加深對這類蛋白質的認識。
參考文獻:
[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.
[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.
[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18
[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.
[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.
[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.
[7]黃永棋,劉志榮. 天然無序蛋白質:序列-結構-功能的新關系[J]. 物理化學學報2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.
摘要:以固有無序蛋白質為研究對象,通過CD-HIT對數據進行去冗余處理,然后利用編程軟件對數據進行統計而得到新的數據。對所有無序區及有序區的氨基酸含量進行對比,認為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。研究結論有助于進一步挖掘固有無序蛋白質的序列特征,并為固有無序蛋白質的預測提供一些借鑒。
關鍵詞:固有無序蛋白質;功能位點;無序區;序列分析
中圖分類號: Q516 文獻標志碼: A 文章編號:1002-1302(2014)04-0038-02
收稿日期:2013-08-23
基金項目:山東省自然科學基金(編號:ZR2010CQ041)。
作者簡介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學的研究。E-mail:whm_2327@126.com。蛋白質是生物體中最重要的兩類大分子之一,傳統思想認為蛋白質要實現其生物功能,必須先折疊成一個穩定的三維結構,因此形成了蛋白質結構決定其功能的主流觀點[1]。然而隨著基因工程方法和實驗技術的發展以及基因組計劃的開展,在20世紀90年代初,人們發現有些蛋白質或蛋白質序列中的一部分區域在生理條件下不具有一個確定的三維結構,但是依然能夠正常行使生物學功能。進一步研究發現的這類蛋白質越來越多,并逐漸形成了一種新的蛋白質類型,稱為固有無序蛋白質(intrinsically disordered proteins,簡稱為IDPs)[1-3]。對目前存在的大量基因庫數據進行分析發現:蛋白質的無序結構與蛋白質功能之間關系密切,無序蛋白質在諸如轉錄、翻譯、調控細胞信號轉導、蛋白質磷酸化及小分子存儲等過程中發揮著重要的作用;另一方面,無序蛋白質又經常與多種疾病聯系在一起。與人類癌癥相關的蛋白質中,無序蛋白質的含量高達79%;在心血管疾病有關的蛋白質中,無序蛋白質的含量也高達57%。無序區是固有無序蛋白質發揮功能的主要區域,功能位點大多分布在該區域,因此預測蛋白質的無序區成為判斷蛋白質是否無序的熱點問題。Romero 等在1997年首次對蛋白質無序區域進行預測,他們預測的準確性達到70%,此后無序蛋白質的預測方法得到了迅速發展,目前應用于無序蛋白質序列預測的方法已經超過50種,并且這些預測方法的準確性普遍達到85%以上。
本研究基于序列分析的方法,以DisProt數據庫中的固有無序蛋白質為研究對象,通過CD-HIT程序對數據進行去冗余處理,將處理后的數據利用編程軟件Matlab 7.0進行統計而得到新的數據;對新數據進行分析,通過編程把序列的無序區和有序區分別提取出來,再分析無序區和有序區氨基酸組成的偏好性。本研究有助于進一步挖掘固有無序蛋白質的序列特征,從而為固有無序蛋白質的預測提供借鑒。
1數據來源及去冗余處理
1.1數據來源
本研究以固有無序蛋白質數據庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對象(發布日期為2012年10月15日),下載數據庫中最新的固有無序蛋白質進行研究,共有無序蛋白質684個,無序區1 513個。
1.2去冗余處理
由于蛋白質序列數據庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數據的統計分析,并且由于冗余序列要占用更多的計算機存儲和處理資源,因此去除這些冗余信息具有很高的實用價值,不但可以減小數據庫的大小、提高序列搜索的速度,而且有助于對數據的統計分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對數據進行處理,將相似度閾值設為30%。結果顯示:去冗余前,固有無序蛋白質共有684條序列;去冗余后,蛋白質共有549條序列。
2固有無序蛋白質無序區和有序區的氨基酸組成偏好性分析
用Matlab編程對全部序列(去冗余后)提取無序區和有序區。無序區包括112個全部無序區(如DisProtDP00001,108個氨基酸都是無序的)以及非全部無序蛋白質(蛋白質中含有無序片段)序列中的各條無序區;無序區的氨基酸總數為64 243,約占固有無序蛋白質氨基酸總數的28.67%。因此可以看出:固有無序蛋白質中有序區的氨基酸數大約是無序區氨基酸數的3.5倍。結果表明,固有無序蛋白質的氨基酸在有序區的含量要大大高于無序區,即固有無序蛋白質的大部分組分都是有序部分。
對固有無序蛋白質中的所有無序區及有序區的氨基酸個數和含量進行對比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進行處理得到了固有無序蛋白質中的無序區和有序區的所有氨基酸含量及差值,詳見表1。
3結論
本研究以DisProt數據庫中的固有無序蛋白質為研究對象,先通過程序CD-HIT對數據進行去冗余處理,然后利用編程軟件Matlab7.0對數據進行統計而得到新的數據,再對數據進行分析。結果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。
無序蛋白質具有獨特的氨基酸組成特點,這些獨特的氨基酸序列決定了其無序的結構。無序蛋白質的研究將促進人們重新認識蛋白質的結構和功能關系,也將為蛋白質的全新設計和疾病的治療提供新的思路。相信隨著研究數據的增加,對固有無序蛋白質的研究將更深入和全面,從而能夠進一步加深對這類蛋白質的認識。
參考文獻:
[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.
[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.
[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18
[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.
[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.
[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.
[7]黃永棋,劉志榮. 天然無序蛋白質:序列-結構-功能的新關系[J]. 物理化學學報2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.
摘要:以固有無序蛋白質為研究對象,通過CD-HIT對數據進行去冗余處理,然后利用編程軟件對數據進行統計而得到新的數據。對所有無序區及有序區的氨基酸含量進行對比,認為氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。研究結論有助于進一步挖掘固有無序蛋白質的序列特征,并為固有無序蛋白質的預測提供一些借鑒。
關鍵詞:固有無序蛋白質;功能位點;無序區;序列分析
中圖分類號: Q516 文獻標志碼: A 文章編號:1002-1302(2014)04-0038-02
收稿日期:2013-08-23
基金項目:山東省自然科學基金(編號:ZR2010CQ041)。
作者簡介:王紅梅(1974—),女,山東德州人,碩士,副教授,主要從事生物信息學的研究。E-mail:whm_2327@126.com。蛋白質是生物體中最重要的兩類大分子之一,傳統思想認為蛋白質要實現其生物功能,必須先折疊成一個穩定的三維結構,因此形成了蛋白質結構決定其功能的主流觀點[1]。然而隨著基因工程方法和實驗技術的發展以及基因組計劃的開展,在20世紀90年代初,人們發現有些蛋白質或蛋白質序列中的一部分區域在生理條件下不具有一個確定的三維結構,但是依然能夠正常行使生物學功能。進一步研究發現的這類蛋白質越來越多,并逐漸形成了一種新的蛋白質類型,稱為固有無序蛋白質(intrinsically disordered proteins,簡稱為IDPs)[1-3]。對目前存在的大量基因庫數據進行分析發現:蛋白質的無序結構與蛋白質功能之間關系密切,無序蛋白質在諸如轉錄、翻譯、調控細胞信號轉導、蛋白質磷酸化及小分子存儲等過程中發揮著重要的作用;另一方面,無序蛋白質又經常與多種疾病聯系在一起。與人類癌癥相關的蛋白質中,無序蛋白質的含量高達79%;在心血管疾病有關的蛋白質中,無序蛋白質的含量也高達57%。無序區是固有無序蛋白質發揮功能的主要區域,功能位點大多分布在該區域,因此預測蛋白質的無序區成為判斷蛋白質是否無序的熱點問題。Romero 等在1997年首次對蛋白質無序區域進行預測,他們預測的準確性達到70%,此后無序蛋白質的預測方法得到了迅速發展,目前應用于無序蛋白質序列預測的方法已經超過50種,并且這些預測方法的準確性普遍達到85%以上。
本研究基于序列分析的方法,以DisProt數據庫中的固有無序蛋白質為研究對象,通過CD-HIT程序對數據進行去冗余處理,將處理后的數據利用編程軟件Matlab 7.0進行統計而得到新的數據;對新數據進行分析,通過編程把序列的無序區和有序區分別提取出來,再分析無序區和有序區氨基酸組成的偏好性。本研究有助于進一步挖掘固有無序蛋白質的序列特征,從而為固有無序蛋白質的預測提供借鑒。
1數據來源及去冗余處理
1.1數據來源
本研究以固有無序蛋白質數據庫DisProt(版本6.01)[4](http://www.disprot.org/index.php)為研究對象(發布日期為2012年10月15日),下載數據庫中最新的固有無序蛋白質進行研究,共有無序蛋白質684個,無序區1 513個。
1.2去冗余處理
由于蛋白質序列數據庫中都含有大量的冗余序列,它們通常不能提供更多的信息,而且不利于數據的統計分析,并且由于冗余序列要占用更多的計算機存儲和處理資源,因此去除這些冗余信息具有很高的實用價值,不但可以減小數據庫的大小、提高序列搜索的速度,而且有助于對數據的統計分析。本研究利用去冗余程序CD-HIT[5-6](http://weizhong-lab.ucsd.edu/cdhit_suite/cgi-bin/index.cgi)對數據進行處理,將相似度閾值設為30%。結果顯示:去冗余前,固有無序蛋白質共有684條序列;去冗余后,蛋白質共有549條序列。
2固有無序蛋白質無序區和有序區的氨基酸組成偏好性分析
用Matlab編程對全部序列(去冗余后)提取無序區和有序區。無序區包括112個全部無序區(如DisProtDP00001,108個氨基酸都是無序的)以及非全部無序蛋白質(蛋白質中含有無序片段)序列中的各條無序區;無序區的氨基酸總數為64 243,約占固有無序蛋白質氨基酸總數的28.67%。因此可以看出:固有無序蛋白質中有序區的氨基酸數大約是無序區氨基酸數的3.5倍。結果表明,固有無序蛋白質的氨基酸在有序區的含量要大大高于無序區,即固有無序蛋白質的大部分組分都是有序部分。
對固有無序蛋白質中的所有無序區及有序區的氨基酸個數和含量進行對比,以分析每種氨基酸的偏好性。通過 Matlab 軟件進行處理得到了固有無序蛋白質中的無序區和有序區的所有氨基酸含量及差值,詳見表1。
3結論
本研究以DisProt數據庫中的固有無序蛋白質為研究對象,先通過程序CD-HIT對數據進行去冗余處理,然后利用編程軟件Matlab7.0對數據進行統計而得到新的數據,再對數據進行分析。結果表明:氨基酸Val、Ile、Leu、Phe、Trp、Asn、Tyr、His具有形成有序結構的偏好性;氨基酸Pro、Ser、Gln、Asp、Lys具有形成無序結構的偏好性。
無序蛋白質具有獨特的氨基酸組成特點,這些獨特的氨基酸序列決定了其無序的結構。無序蛋白質的研究將促進人們重新認識蛋白質的結構和功能關系,也將為蛋白質的全新設計和疾病的治療提供新的思路。相信隨著研究數據的增加,對固有無序蛋白質的研究將更深入和全面,從而能夠進一步加深對這類蛋白質的認識。
參考文獻:
[1]Uversky V N. Natively unfolded proteins:A point where biology waits for physics[J]. Protein Science,2002,11(4):739-756.
[2]Dunker A K,Obradovic Z,Romero P,et al. Intrinsic protein disorder in complete genomes[J]. Genome Informatics,2000,11:161-171.
[3]Dunker A K,Oldfield C J,Meng J,et al. The unfoldomics decade:an update on intrinsically disordered proteins[J]. BMC Genomics,2008,9(S2):12-18
[4]Sickmeier M,Hamilton J A,LeGall T,et al. DisProt:the database of disordered proteins[J]. Nucleic Acids Research,2007,35(S1):786-793.
[5]Li W,Godzik A.Cd-hit:a fast program for clustering and comparing large sets of protein or nucleotide sequences[J]. Bioinformatics,2006,22(13):1658-1659.
[6]Li W,Jaroszewski L,Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases[J]. Bioinformatics,2001,17(3):282-283.
[7]黃永棋,劉志榮. 天然無序蛋白質:序列-結構-功能的新關系[J]. 物理化學學報2010,26(8):2061-2072.劉思言,高瑋,夏海豐,等.