基于HP模型的蛋白質折疊問題的研究

2016-07-21 08:50:42史小紅

生物信息學 2016年2期

史小紅

(西安工業大學理學院,西安 710032)

基于HP模型的蛋白質折疊問題的研究

史小紅

(西安工業大學理學院,西安 710032)

摘要：基于蛋白質二維HP模型提出改進的遺傳算法對真實蛋白質進行計算機折疊模擬。結果顯示疏水能量函數最小值的蛋白質構象對應含疏水核心的穩定結構，疏水作用在蛋白質折疊中起主要作用。研究表明二維HP模型在蛋白質折疊研究中是可行的和有效的并為進一步揭示蛋白質折疊機理提供重要參考信息。

關鍵詞：蛋白質折疊模擬;HP模型;遺傳算法;蛋白質構象

“蛋白質折疊問題”被列為是21世紀生物物理學的重要課題之一，蛋白質折疊問題的主要目的是根據蛋白質的氨基酸序列確定其折疊路徑和最終的具有蛋白質功能的三維天然結構。Anfinsen等人的牛胰核糖核酸酶復性實驗研究已證明：蛋白質的天然結構是完全由它的一級結構——氨基酸序列決定的。隨后，Anfinsen提出了蛋白質天然構象對應自由能最小結構的著名熱力學假說。各種理論預測蛋白質折疊結構的方法都基于這樣的理論與實驗基礎，預測蛋白質折疊結構對在分子水平理解蛋白質折疊的機理具有重要意義。這個問題自20世紀中期就被廣泛研究，但到目前尚無滿意的解決方法。Levinthal認為，蛋白質折疊問題是極其復雜的，如果通過枚舉法搜索自由能最小構象，蛋白質折疊需要耗費接近無窮大的時間長度。因此，無論是對于計算機模擬還是實驗研究而言，蛋白質折疊研究仍然是極為困難的事情。近年，根據球狀蛋白質折疊結構通常是由一個疏水核心緊密堆積而形成特定的空間結構的特性，提出了疏水作用力是蛋白質折疊的主要因素的親疏水模型，組成蛋白質的氨基酸殘基被簡單化分為疏水和親水兩類，也稱HP(Hydrophobic-Polar)模型，HP模型在二維格子中進行蛋白質折疊結構的計算機模擬成為了研究熱點[1]。二維簡化HP模型的蛋白質折疊研究能夠為解決理論預測中面臨的如何準確表達勢能函數，如何有效搜索構象空間提供參考數據，將會增加我們對蛋白質結構形成過程以及蛋白質結構與功能之間關系的理解，也將會對功能蛋白質的設計和基因工程藥物的篩選、研制有重要意義。目前，蒙特卡洛(Monte Carlo，MC)算法[2]、遺傳算法[3-4](Genetic Algorithms，GA)和蟻群算法[5-6](Ant Colony Optimization Algorithm，ACOA)等應用在二維簡化HP模型的蛋白質折疊研究中，這些算法在對一些短肽鏈的模擬中取得了一定的進展，在短肽鏈計算機折疊模擬中找到自由能最小折疊結構對應一個具有疏水核心的穩定結構。但是，這些用于研究的短肽鏈大都來自一個理想的HP序列，沒有涉及由20個氨基酸組成的一級序列的天然蛋白質結構。最近，Yan將二維HP模型應用在了抗菌肽(Misgurin)折疊構象的研究[7]，分析了天然抗菌肽所有HP二維構象；研究了甘氨酸(Gly)按照兩種不同的疏水標度，其雙重屬性變化對抗菌肽折疊構象和自由能的影響，他們的研究為蛋白質折疊研究積累了有用的經驗。

我們應用GA算法對二維HP模型的蛋白質折疊進行了計算機模擬，通過在能量函數計算中增加新的懲罰因子對劣質構象進行快速淘汰，提高了優化效率。對測試集的HP序列進行模擬研究，同時對天然蛋白質抗菌肽和牛胰島素的HP模型也進行計算機的折疊模擬。研究結果表明：(1)改進的GA算法能夠快速找到蛋白質折疊的自由能最小構象，自由能最小構象在二維格點圖形中總是包含一個最大化的疏水核心，疏水核心結構對應蛋白質的穩定結構，疏水作用在蛋白質折疊中起主要作用。(2)將二維HP模型的疏水能量函數應用在真實蛋白質折疊研究，結果顯示：自由能最小構象對應疏水核心結構。二維HP模型的蛋白質折疊模擬在真實蛋白質折疊研究中是可行和有效的。我們的研究將為蛋白質設計及基因工程等研究提供有效的參考數據，強化我們對蛋白質結構形成過程及蛋白質結構與功能之間關系的理解，促進蛋白質在生物制藥等領域的廣泛應用。

1理論與方法

1.1HP模型

自然界有多種氨基酸，然而蛋白質中出現的只有20種，蛋白質的一級結構就指20種氨基酸殘基由肽鍵連接起來的多肽鏈。其中疏水性表示有些殘基側鏈的疏水基團避開水的效應，其結果是形成了疏水殘基埋藏在蛋白質分子內部，而有些殘基側鏈是極性的，很容易和水作用形成了極性親水殘基暴露在蛋白質分子與水接觸的表面。本文采用適用最廣泛的埃氏法(Eisenberg)的疏水標度進行兩類HP模型的劃分[8]。其中氨基酸CFILMVWYPAG∈{H}疏水集合，DEKNQRSTH∈{P}親水集合，則蛋白質序列{S|s1,s2…si…sn}∈{H,P}n，n為殘基數。Si代表第i個氨基酸殘基。能量函數是基于疏水作用是蛋白質折疊的主要作用力的這一普遍共識，因此，我們將序列不相鄰但是在結構相鄰的兩疏水殘基之間能量設為-1，其它殘基之間能量都為0，這種能量函數E的建立，能夠反映蛋白質折疊重要特征[9-10]，又能方便計算機模擬去發現在蛋白質折疊過程中的重要規律。

(1)

EHH=-1

(2)

EHP=EPP=0

(3)

在平面建立笛卡爾坐標系x、y坐標，其最小單位為整數1,沿x、y坐標等距1畫出網格連線，每個交叉節點將放置一個氨基酸殘基，序列相鄰兩氨基酸殘基在網格中也必須相鄰。一個格點的氨基酸殘基只有向前、向后、向上、向下四種連接方式，如圖1所示，分別由隨機數00、11、01和10表示。

圖1　隨機數表示的方向

在蛋白質折疊構象搜索中，天然的蛋白質結構必需滿足兩個或兩個以上氨基酸殘基不能占據同一個節點，即蛋白質空間結構中不能出現重疊、交叉和回路現象，氨基酸殘基之間按順序連接形成一個完整的肽鏈。

1.2GA算法設計

二維HP模型與真實蛋白質比較是一個簡化的粗模型，但是，搜索蛋白質可能的構象數目仍隨蛋白質序列數呈指數增長，由氨基酸序列搜索自由能最小構象的計算復雜性被證明仍然是NP類問題[11]。目前，遺傳算法以其高效、實用的特點在蛋白質結構預測中取得較大進展，因此，我們應用GA算法進行蛋白質折疊研究。遺傳算法(GA)是模仿生物進化機制的一種算法，即在所有可能的問題解中通過適者生存、優勝劣汰的法則找出一個最優解。遺傳算法提供了一種求解復雜系統優化問題的通用操作：1)設計染色體編碼方式。2)隨機生成初始群體。3)計算種群中每個個體適應度。4)選擇優秀的個體復制、交叉、變異操作。5)是否滿足優化規則，滿足輸出最優解。否則，返回4)。其中交叉操作是最主要的遺傳操作，對選中用于繁殖后代的個體，隨機選擇交叉位置p，交換兩個基因串p位置之后的基因串，產生兩個新的個體，這兩個新個體融合了其父代特征。GA算法通過執行簡單的交叉突變操作可以不斷改善數據結構，每一次迭代中保留目標函數最優解，淘汰較差解，GA可以逾越能量勢壘，跳出局部最優搜索到全局最優解。因此，遺傳算法已快速應用在蛋白質結構預測和設計中并取得可喜成果[12]。

MATLAB軟件以其強大的圖形處理功能和使用簡便直觀特點，已發展成為適合多學科、跨平臺的大型實用科學計算軟件，其強大的內置函數，可避免在解決問題中進行繁瑣的計算和設計。我們使用MATLAB7.10版本實現GA算法的步驟如下：

①輸入數據。輸入蛋白質一級序列S，內置函數strrep將序列S轉換為{H,P}n序列，n=length(S)為序列長度，strfind函數找到H的序列位置，length函數記錄H的個數。

②產生初始種群。使用randint函數生成由0、1隨機數構成的2(n-1)×N的矩陣，每列數據是由0和1隨機數列表示的一種折疊結構，N表示產生的種群數。

③計算構象勢能。記錄殘基位置坐標及格點數m，根據格點坐標和能量函數公式計算每種構象的能量值。通過增加懲罰因子p，增加懲罰能量E0=10*p，用以淘汰產生重疊及回路的結構，當m=n，說明構象中沒有重疊或回路發生，取p=0，則E0=0；當m≠n，則構象中出現了重疊或回路結構，懲罰因子p=(n-m)，則重疊格點越多的結構，給予懲罰的能量值越大，這些構象被淘汰的概率也越大。E矩陣記錄N個構象的能量值。

(4)

④計算每個構象的適應度。Max函數找到E中最大值Emax，E’=Emax-E，適應度函數為f。則能量最小的構象適應性函數f對應最大。記錄父代最優能量值Ebest。使用figure函數，記錄最優能量值對應構象。

f=E′/sum(E′)

(5)

⑤復制操作。選擇適應度大的構象進行復制，使用sort函數將種群中個體按f值由大到小排序，選擇前k個初選的優良種群進行復制操作。

⑥交叉操作。選擇交叉操作迭代次數D，用unidrnd函數隨機產生交叉操作位置，將優良種群兩兩在交叉位置進行交叉操作，正好產生k個不同的子代種群。調用能量函數執行步驟④中程序，對子代的能量值進行由小到大的排序。將新產生的最小能量Emint與父代最優能量值Ebest進行比較；如果Ebest

⑦突變操作。給出突變概率Pt，用rand函數產生隨機數，如果rand

⑧結果判斷。判斷種群進化是否達到最大迭代數。如果判斷結果為否，則返回步驟④。判斷結果為是，則此時Ebest為目標函數值的最小值(適應度最大值)，為全局最優解。使用figure函數，畫出全局最優解對應的折疊構象，調用figure函數給出遺傳算法進化過程圖。

2 實驗結果

2.1測試集折疊實驗

基于HP模型的蛋白質折疊研究是由給定的蛋白質一級結構即HP序列出發，折疊為最低能量的穩定構象的過程。測試數據集(見表1)來自廣泛使用的測試HP序列[1-2]，應用GA算法對測試集中的序列作蛋白質折疊的計算機模擬，模擬結果如表1所示。圖2是HP序列長度14，對應最小能量-7的蛋白質構象和GA算法迭代收斂圖。圖3是序列長度20，最小能量為-9的蛋白質構象圖。顯然，能量最小構象中形成了最大化的疏水核心，即疏水核心在穩定蛋白質結構中起重要作用。我們的研究在二維HP模型中再次驗證了：自由能最小構象對應含疏水核心的穩定結構，疏水作用在蛋白質折疊中起主要作用的理論假設。

2.2蛋白質折疊實驗

蛋白質在合適的條件下能夠快速折疊到自由能最低的天然構象，起到穩定結構的重要作用。目前，二維HP模型的研究較少涉及由20個氨基酸組成的一級序列的天然蛋白質結構，然而，要揭示蛋白質折疊機理就不能回避這個問題，需要對20個氨基酸殘基在蛋白質折疊過程中所起的作用做深入細致的研究，因此，我們探索性的將GA算法的二維HP模型對抗菌肽(Misgurin)和牛胰島素(Bovine Insulin)B鏈進行計算機折疊模擬，分別輸入抗菌肽和牛胰島素的氨基酸序列，進行基于HP模型的二維格點的折疊研究。抗菌肽和牛胰島素B鏈的氨基酸序列及HP序列的詳細情況見表2。

表1　測試的HP序列集

圖2　序列1模擬結果

圖3　序列2模擬結果

表2　蛋白質氨基酸序列

抗菌肽(Misgurin)序列由21個氨基酸殘基組成，是具有很強抗菌活力的短肽，氨基酸序列為：RQRVEELSKFSKKGAAARRRK，使用GA算法進行的抗菌肽折疊模擬結果見圖4，結果顯示抗菌肽最優能量值為-5，最小能量構象對應一個疏水核心結構，分別由7L-10F、7L-4V、10F-15A、15A-4V、14G-17A形成疏水核心，這些疏水氨基酸殘基在穩定抗菌肽最小能量構象中起主要作用。

圖4　抗菌肽模擬結果

圖5　牛胰島素B鏈模擬結果

牛胰島素包含4條肽鏈，其中B鏈由25個氨基酸殘基組成，其氨基酸序列為：FVNQHLCGSHLVEALYLVCGERGFF，經過GA算法的蛋白質折疊模擬結果見圖5。牛胰島素B鏈的疏水核心最大化的聚集在一起對應最小能量-12的構象。疏水殘基1F-8G、2V-7C、6L-19C、7C-18V、6G-11L、11L-18V、12V-17L、12V-15L、16Y-25F、16Y-23G、23G-20G、17L-20G在折疊模擬中起到減小構象自由能的主導作用。肽鏈中疏水核心結構的形成對穩定蛋白質構象有重要意義。

3總結與展望

應用GA算法對二維格點HP模型的蛋白質折疊進行了計算機模擬，通過在能量函數計算中增加新的懲罰因子對劣質構象進行快速淘汰，提高了優化效率。通過實驗數據測試，改進的GA算法能夠快速找到蛋白質折疊的自由能最小構象，自由能最小構象在二維格點圖形中聚集了一個最大化的疏水核心，疏水核心結構對應蛋白質的穩定結構，疏水作用在蛋白質折疊中起主要作用。同時，對天然蛋白質抗菌肽和牛胰島素B鏈的二維HP模型進行折疊模擬，改進的GA算法通過對能量函數的優化，能夠快速找到疏水能量函數最小值對應的疏水核心最大化的蛋白質構象。可見，肽鏈中疏水核心結構對形成穩定緊密的蛋白質構象有重要意義。研究表明二維HP模型的蛋白質折疊模擬在真實蛋白質折疊研究中是可行和有效的，將為在分子水平進行蛋白質設計等研究提供參考方法與數據，增強我們對蛋白質結構形成過程及蛋白質結構與功能之間關系的理解，促進蛋白質在生物制藥等領域的廣泛應用。

參考文獻

[1]劉赟，王存新，王寶翰，等.基于格子模型的蛋白質設計方法[J].生物化學與生物物理進展,2004,31(2):172-176.

LIU Yun, WANG Cunxin, WANG Baohan, et al. A Protein design procedure based on the lattice model[J].Progress in Biochemistry and Biophysics,2004,31(2):172-176.

[2]解偉，王翼飛.蛋白質折疊的計算機模擬[J].上海大學學報(自然科學版),2000,6(2):145-149.

XIE Wei, WANG Yifei. Computer simulation for protein folding[J]. Journal of Shanghai University (Natural Science),2006,6(2):145-149.

[3]UNGER R, MOULT J. Genetic algorithm for protein folding simulations[J].Journal of Molecular Biology,1993,231(1): 75-81.

[4]倪紅春，王翼飛.基于遺傳算法的蛋白質折疊模擬系統[J].上海大學學報(自然科學版),2001,7(4):359-364.

NI Hongchun, WANG Yifei. A system for protein folding simulation based on genetic algorithms[J]. Journal of Shanghai University(Natural Science), 2001,7(4):359-364.

[5]陸恒云，楊根科，潘常春，等.改進的蟻群算法求解蛋白質折疊問題[J].計算機工程與設計,2010,31(8):1786-1816.

LU Hengyun,YANG Genke, PAN Changchun, et al. Improved ant colony optimization algorithm for 2D HP protein folding[J]. Computer Engineering and Design, 2010,31(8):1786-1816.

[6]SHMYGELSKA A,HOONS H H. An ant colony pptimization algorithm for the 2D and 3D hydrophobic polar protein folding problem[J]. BMC Bioinformatics, 2005,6(1):30-51.

[7]YAN S, Wu G. Analysis on folding of misgurin using two-dimensional HP model[J]. Proteins,2011,10(3):764-773.

[8]閻隆飛，孫之榮.蛋白質分子結構[M]. 北京: 清華大學出版社,1999.

YAN Longfei,SUN Zhirong.Molecular structure of protein[M].Beijing:Press of Tsinghua University, 1999.

[9]王翼飛，史定華.生物信息學[M].北京: 化學工業出版社,2006.

WANG Yifei, SHI Dinghua. Bioinformatics[M]. Beijing: Press of Chemistry and Technology, 2006.

[10]DILL K A. Principles of protein folding:A perspective from simple exact models[J].Protein Science, 1995, 4(4):561-602.

[11]BERGER B, LEIGHT T. Protein folding in the hydrophobic hydrophilic(HP) model is NP-complete[J].Journal of Computational Biology, 1998,5(1): 27-40.

[12]SZUSTAKOWSKJ J D,WENG Z.Protein structure alignment using a genetic Algorithm[J].Proteins,2000,38(4):428-440.

Research on protein folding based on HP model

SHI Xiaohong

(SchoolofScience,Xi’anTechnologicalUniversity,Xi’an710032，China)

Abstract：An improved genetic algorithm for real-life protein folding simulation is proposed based on two dimensional hydrophobic polar (HP) model. The computing results show that the lowest energy conformation with a hydrophobic core and hydrophobic interaction is the main driving force for protein folding. Our studies indicate that the HP model for real-life protein folding problem is effective and reliable,and also provide the important reference information for understanding the overall folding mechanism.

Keywords：Protein folding simulation; Hydrophobic polar model;Genetic algorithm;Conformation of protein

收稿日期：2016-01-26；修回日期：2016-03-22.

作者簡介：：史小紅，女，博士，副教授，碩士生導師，研究方向：蛋白質結構預測及蛋白質折疊動力學等；E-mail:ishxh@163.com.

doi:10.3969/j.issn.1672-5565.2016.02.08

中圖分類號：Q615

文獻標志碼：A

文章編號：1672-5565(2016)02-112-05

生物信息學2016年2期

生物信息學的其它文章: 基于設計模板的BRD-like折疊類型綜合分類方法; 基于基因組關聯數據識別阿爾茨海默病相關通路; 雞Sepp1基因及其蛋白理化性質和分子結構的生物信息學分析; 三種隱孢子蟲鈣依賴蛋白激酶的生物信息學分析; 甜瓜蔗糖轉化酶基因的密碼子偏好性分析; 鮰愛德華菌外膜蛋白OmpLC基因的生物信息學分析