999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于結合位點的輔酶A結合蛋白家族的分類

2011-11-30 10:41:50劉振明金宏威張亮仁
物理化學學報 2011年5期
關鍵詞:分類特征方法

樊 迪 劉振明, 金宏威 張亮仁

(北京大學藥學院,天然藥物及仿生藥物國家重點實驗室,北京100191)

基于結合位點的輔酶A結合蛋白家族的分類

樊 迪§劉振明§,*金宏威 張亮仁*

(北京大學藥學院,天然藥物及仿生藥物國家重點實驗室,北京100191)

發展了一種基于分子相互識別的蛋白質分類方法,應用數據挖掘策略與統計學聚類,根據輔酶A (coenzyme-A,CoA)結合蛋白的結合模式特征數據,通過對比和分析多種分類方法對該體系的分類準確度,對這類體內重要的蛋白進行了分類方法學研究,選擇了最優的兩步聚類法.本研究工作設計和建立了一個分類參數,可以簡潔有效地評價出各個結合特征的顯著性與重要性,并以此為依據從所有特征中篩選出決定性的特征變量.研究結果所得到的CoA結合蛋白的三個分類,都具有顯著的氫鍵與疏水結合特征;CoA可以與多個生物活性關鍵氨基酸殘基形成氫鍵作用.這些相互作用的共性及分類上的差異,說明了配體與不同受體相互作用過程中結合模式上的細微差別,對于以CoA結合蛋白為靶點的選擇性調控分子設計具有重要的參考意義與指導作用.

輔酶A;蛋白質分類;結合模式;聚類分析;泛酰巰基乙胺鏈

1 引言

蛋白質與配體的結合模式特征及分類研究對于闡述體內生理過程及藥物發現與選擇性改造具有重要的指導意義.作為化學基因組學的一種重要研究手段,從配體和受體的相互作用出發,研究蛋白質的功能分類,不僅可以揭示出分類特征與生物學功能之間的關系,同時也可以進一步明確結合位點的特征,為基于該類靶點的藥物設計提供指導.1-3目前,基于結合位點的蛋白質分類功能學研究已經有了一些成功的研究工作和進展.4-13

蛋白質的分類算法可以分為有監督的分類和無監督的聚類兩種.有監督分類的代表為機器學習,其中以支持向量機(SVM)應用最為廣泛;14-18無監督聚類的代表為Kmeans、系統聚類等.19-21不同的研究小組對各種聚類算法進行了深入的比較研究. Markowetz等18對268個蛋白基于序列進行分類,使用SVM方法得到結果的準確率明顯高于其他六種方法,尤其是在高維的情況下,有效地減少了錯誤率.Kertész-Farkas等22評測了多種方法的交叉驗證,包括SVM、神經網絡、隨機森林等,驗證得出在多種分類體系中SVM有著非常突出的表現.

圖1 輔酶A(CoA)的化學結構Fig.1 Chemical structure of coenzyme-A(CoA)moleculeThe structure contains three fragments:adenosine,ribose,and 4-phospho pantetheine arm.

CoA是生物體內參與乙酰化反應的重要輔酶,在糖、蛋白質和脂肪的代謝過程中具有重要的作用. CoA的結構如圖1所示,從左至右可以分為三個部分:4′-磷酸泛酰巰基乙胺鏈、糖環和腺苷.截止到2010年4月底,Protein Bank Database(PDB)數據庫中已經發表的CoA結合蛋白晶體結構共有218個,在功能上涵蓋了很多重要的生理和病理過程.23從PDB已發表的晶體結構上看,CoA在與不同蛋白受體結合時,可以采取不同的堿基或者糖環取向.特別是4′-磷酸泛酰巰基乙胺鏈構象的多樣性,充分說明了同一配體在與不同靶蛋白結合時可以采取多個低能空間范圍內的藥效構象.對這種現象和規律的研究有助于我們理解配體-受體結合過程中自由能焓變與藥效構象選擇之間的關系.此外,CoA分子與其他一些核苷類分子如煙酰胺腺嘌呤二核苷酸磷酸(NADP)、黃素腺嘌呤二核苷酸(FAD)以及三磷酸腺苷(ATP)類似,都含有一個二磷酸腺苷(ADP)的結構單元.這類結構單元盡管在多類核苷分子中出現,但是卻很少作為反應單元直接參與到生化反應中來,更多的時候是作為一種協助的角色出現.24,25NADP與FAD作為輔因子在與蛋白進行結合時通常采取類似的結合取向模板與蛋白中的經典Rossman折疊區域結合.但是這種空間取向的平面與CoA分子是大相徑庭的.對CoA及其結合蛋白進行研究,將有助于闡述其結構和功能之間的內在聯系.

在已有研究工作的基礎上,我們建立和發展了一種新的蛋白質分類流程與方法,通過深度挖掘提取CoA與蛋白的結合位點信息得到相互作用數據,利用兩步聚類的方法對CoA結合蛋白家族進行了分類研究.聚類結果及每一個類別的特征有助于對CoA及其結合蛋白的相互關系做更進一步的了解,為相關的分子設計提供指導與幫助.

2 研究方法

本研究工作分為四個部分:(1)收集和處理數據樣本,對從PDB數據庫中獲取的晶體復合物進行處理,分離得到受體和配體的結構坐標文件,并轉化為聚類計算所需要的文件格式;(2)對處理好的晶體文件進行數學描述,將受體和配體之間相互作用的有、無和程度用量化的方式表示出來;(3)采用已知的數學和統計學方法,分析量化好的數據,對以上述數據為特征變量的蛋白質進行分類,并且進行驗證,選擇最優方法與最優解;(4)對分類的結果進行分析,包括類別分析,特征變量分析,與其他分類體系對照等.具體流程如圖2所示.

2.1 數據來源

從PDB蛋白質結構數據庫中以CoA為檢索詞搜索數據庫,得到259個CoA結合蛋白的晶體文件;以含有完整CoA結構、不重復、分辨率高優先為原則,篩選出66個非冗余CoA結合蛋白.使用Sybyl 6.91程序26和Discovery Studio 2.0軟件包27提取復合物結合口袋信息,然后采用Pocket程序28進行數據挖掘,得到CoA與20種天然氨基酸的氫鍵和疏水相互作用共72項特征數據.其中氨基酸特征60個,分別為與20種氨基酸形成氫鍵,CoA作氫鍵給體、受體或兩者兼有,分別用A、D、A/D表示;形成疏水作用的有12種氨基酸.詳細數據請參見本研究論文的補充材料部分(Supplementary materials: available free of charge via the internet at http://www. whxb.pku.edu.cn)

圖2 對CoA結合蛋白進行分類研究的實驗設計流程圖Fig.2 Designed flow chart for CoAbinding proteins classification

2.2 聚類方法比較選擇

聚類分析指的是將集合中的對象按照相似性分為多類.聚類方法可以不指定分類數目,無需學習;算法根據特征變量,自動尋找相似性較高的元素,并將之作為同一類.研究工作中主要應用和比較了K-means法、兩步聚類、系統聚類和SVM四種聚類方法.

K-means法可譯為K均值法,又名快速聚類,是一種經典的聚類方法,具體過程是:選擇聚類數k個值作為初始聚類中心,由n個待聚類變量組成n維空間,按照每個點距聚類中心最小原則,將各點劃入中心周圍,完成第一次迭代,接下來根據迭代計算平均值,將每一類的均值(共k個)放入n維空間中,再作為新的聚類中心進行第二次迭代,如此循環,直至達到指定迭代次數或中止迭代條件.K-means法的缺陷在于選擇聚類中心的隨機性,以及異常值對聚類結果的影響.

兩步聚類法的優勢在于既可以處理連續變量,又可以處理分離變量,能自動確定最佳聚類數目,對大數據集的處理速度快.首先是逐個掃描樣本,并計算每個樣本與已掃描樣本的距離并歸類,歸為已有類或生成新的類.然后,依據第一步的分類結果,根據各分類之間的距離,對各個類別進行合并,并按照指定標準停止合并.最佳聚類數目的確定,需要兩個步驟.首先是使用貝葉斯信息量準則(BIC)或赤池信息量準則(AIC)初步估算聚類數目,然后,根據初步估算的結果,測算聚類之間的最近距離,并進行修正.兩步聚類從一定程度上彌補了K-means的缺陷.

系統聚類又名分層聚類,主要適用于樣本量不是很多的聚類分析,屬于比較泛用的聚類方法,有兩種方向相反的聚類過程.分解法是先把全部樣本看作一個大類,然后根據距離和相似性逐層分解為小類;凝聚法是先把每個樣本視為一類,根據距離和相似性逐漸合并.系統聚類法提供了多種聚類算法和量度的組合可供選擇,本研究工作選取了準確率最高的三種組合.

SVM方法的基本思想是:尋找一個超平面H(d),該超平面可以將訓練集中的數據分開,且與類域邊界的沿垂直于該超平面方向的距離最大,故SVM法也被稱為最大邊緣(maximum margin)算法.其中,起主導作用的是“支持向量”,非支持向量的量.近年來,很多方法學對比的研究工作表明,一般情況下,在機器學習分類算法中,SVM具有最高的準確率.本研究中,我們采用由臺灣大學林智仁編寫的Libsvm 2.9模式識別和回歸軟件包29來進行SVM的分類.SVM方法作為有監督分類的代表,在實際研究中表現出了較高的準確率,在本研究中作為聚類分析方法的參照.

2.3 特征的篩選

在本研究體系中,作為分類依據的特征共有72個,但實際上起主導作用的并非全部.將這些特征篩選出來,就是把結合位點特征挑選出來的過程.

在統計學上,可以使用相關性分析、卡方檢驗等方法來對各個變量的顯著性和相關性進行研究.對于該體系,我們發展了一種簡易的方法,可以有效地對分類特征進行篩選.該方法對一個體系中兩個分類的分類特征的顯著性有比較好的區分效果.

對于分為甲、乙兩組的每一個特征變量:

其中:F為該方法的系數,數值區間(-∞,+∞);a為該特征變量在甲組中出現的頻度;b為該特征變量在乙組中出現的頻度;X為該特征變量在甲組中的絕對數量;Y為該特征變量在乙組中的絕對數量.a/b,即為該特征變量在兩個分組中出現頻率之比,比值大于1表示在甲組中的出現率高于乙組,可判定為甲組特征;比值小于1則屬于乙組特征.取自然對數ln,可以將甲乙組的特征歸屬用正負來表示.由于采用比值,如果計算出a和b的絕對數量過小,會導致假陽性的出現,因此加入修正|X2-Y2|,即絕對數量之平方差的絕對值.平方差可因式分解為(X+Y)(X-Y),和可以增大絕對數量的權重,使兩個分組出現頻率皆很低但比值卻很大造成假陽性的特征;差可以削減絕對數量較多,但兩組數量接近造成假陽性的特征;取絕對值目的是保證取自然對數的結果的正負不改變,從而對正確的篩選起到積極作用.這樣,就可以基本完全排除假陽性的出現.

只有一組獨有的特性直接作為特性處理,不參加運算,然后將共有特性排除,不同分組之間互相計算系數.正值越大,表示該特征變量越傾向于甲組特性;負值越大,表示該特征變量越接近乙組特性.通過對照數值與具體結合特征,判定F絕對值在30以上的特征變量是在分類中起主導作用的特征變量.

3 結果與討論

3.1 CoA結合蛋白的功能分類

與核糖核酸類似物(包括COA、ATP、ADP等)相結合的蛋白質,可以從配體與蛋白質作用的位點和功能分為兩類:(1)催化作用,(2)合成其他衍生物時作為底物或產物存在.以CoA為例,脂肪酸響應性轉錄因子(PDB編號:1H9G)與CoA的復合物中, CoA結合在催化位點上,發揮催化作用;而在HMG-COA還原酶(PDB編號:1DQA)復合物中, CoA是以產物的形式存在的.以此為依據,將66個蛋白分為兩類,其中CoA起催化作用的蛋白為44個(A組),作為產物或底物的22個(B組).本文后繼的方法學研究和聚類分析都是建立在這套數據的基礎之上的.

3.2 聚類分析的結果與聚類方法比較

分類完成之后,下一步是確認該聚類方法的可信度,即聚類特征是否在體系內能夠自洽;如果自洽,則證明該結果可信.我們采取兩種方式使用SVM方法與其他聚類分析方法作比較.其一,隨機選擇51組數據作訓練集,測試剩余15組;其二,進行交叉驗證,將數據隨機分為多組,分別互相訓練與測試,取得平均的準確率.SVM的五重交叉驗證結果,印證了國內外很多工作的結論,即SVM的高準確性.但人為將數據分為測試集和訓練集后,其準確率便會大打折扣,明顯低于期望值.具體結果如表1所示.

分析原因,從交叉驗證的原理看,交叉驗證是多次訓練與測試得到的平均結果;另一方面,隨機挑選訓練集合測試集并預測.與以往成功的實例相比,本實驗66組數據的樣本量相對較小.前者為多次學習過程的平均,后者僅有一次,故準確率差距很大.然而,SVM有監督分類的本質,決定了其在本次實驗中只能作為參照出現.SVM交叉驗證的結果,表明了在CoA結合蛋白中,CoA所處的地位不同,其結合位點的結合特征也有著顯著的特異性.

K均值法,對兩個分類的預測準確率均在60%以下.本研究工作所選取的數據體系比較復雜,維度為72,而由于K均值法的缺陷,即隨機性和異常值的影響,在高維度中,聚類中心的偏差尤其明顯,導致難以預測出正確的結果.

系統聚類法提供了多種算法和量度的組合.經過逐一實驗對比,我們選出了表1中的三個組合.組內聯結算法和余弦量度的組合,對催化組有較高的辨識度,但對底物組的結果卻是所有準確率數值中最低的.另外兩種組合,總體準確率低于K均值法.

由表1可知,兩步聚類算法在無監督分類方法中的準確度是最高的.另外,兩步聚類法除克服了K均值法的缺陷外,同時還具有可以選擇讓其自動確定分類數目的特點,為聚類分析工作帶來一定的便利.因此,我們嘗試用不指定分類數目的兩步聚類法.CoA結合蛋白的最終聚類樹如圖3所示.可以看到,66個蛋白被自動聚成了兩類,數目分別為21和45個.其中,含21個蛋白的分類,包含19個催化型和2個底物型.由此說明催化組和底物組在結合位點上具有某些顯著的差異.被分到含45個蛋白聚類中的催化組蛋白,與被單獨分類出來的催化型CoA結合蛋白有一定程度的差異,在某些特征上與底物組近似.將催化組單獨提出,使用不指定聚類數目的兩步聚類法,進一步分別得到數目為26和18的兩個亞類.最終,66個蛋白可以被分為三組:催化組1 (A1)、催化組2(A2)和底物組(B),數目分別是26、18和22個.

表1 幾種聚類方法準確率的比較Table 1 Accuracy of several cluster analysis methods used in this research work

圖3 基于結合位點特征的CoA結合蛋白的聚類結果Fig.3 Classification result of CoAbinding proteinsbased on substrate binding patterns

3.3 結合位點特征分析

66個蛋白中,有48個與ARG有氫鍵作用,39個與LYS有氫鍵作用,氨基酸殘基作氫鍵給體.CoA與ILE、LEU和PHE形成疏水作用的蛋白也占多數,分別是39、44、37個.這些特性,由于絕對數量過大,用本方法計算,將屬于假陽性結果.即F值的絕對值很大而實際并不能歸類為特征.由于它們是作為CoA結合蛋白的共性特征存在的,可以為鑒別工作帶來幫助.例如,鑒別一個蛋白質是否可以與CoA及其類似物結合,可以觀察結合口袋中是否含有這些氨基酸殘基.催化組與底物組,以及催化組內部兩個亞類的結合特征打分結果如表2所示.

表中數值的絕對值越高,表明特性越明顯.正值表示該項為催化組的特征,負值表示該項為底物組的特征.由表可見,催化組與ASP、GLY、TYR發生氫鍵作用的較多,與LYS發生疏水作用的較多;底物組較多與HIS產生氫鍵和疏水作用.由表2可知,催化組與ASP、GLY、TYR發生氫鍵作用的較多,與LYS發生疏水作用的較多;底物組較多與HIS產生氫鍵和疏水作用.

催化組中,A1組與HIS、SER、THR發生氫鍵作用的較多,與LYS發生疏水作用的較多;A2組與ASN、SER發生氫鍵作用的較多,與MET發生疏水作用的較多;二者均與SER有氫鍵作用,不同的是, A1組以氫鍵給體出現,A2組既可作給體也可作受體.

3.4 與其他分類體系之關系

我們進一步比較和研究了所得到的66個CoA結合蛋白的分類結果與按照已有的折疊模式(SCOP分類)30,31分類以及酶催化的化學反應類型(EC編號)分類32的異同,如圖4所示(圖4(A)是66個蛋白中部分按照SCOP的四大折疊類分類的結果;圖4(B)是按照EC編號進行分類的結果,在本體系中,催化組大部分蛋白都具有EC編號,但底物組只有一個蛋白具有EC編號,因此這里主要對催化組進行分析).

表2 聚類結果的結合位點特征分析Table 2 Binding patterns analysis with the clustering results

圖4 CoA結合蛋白的折疊模式(A)及酶催化的化學反應類型(B)聚類結果Fig.4 Clustering results based on fold of CoAbinding proteins(A)and types of chemical reactions catalyzed by enzyme(B)

由圖4(A)可以看出,A組(催化類)包含了all α、all β、α/β、α+β四個折疊類,B組(底物類)不包含all α類型,同時只含有一個all β類蛋白質.而在A1和A2組中,A1組不含all β類.因此可以得出結論,本分類方法與基于蛋白整體序列和結構的分類是迥異的.

EC編號全稱為Enzyme Commission number,是依據酶催化的化學反應類型的一種蛋白質分類方法.因此可以說,EC是基于功能的蛋白質分類方法. EC的結構如2.3.1.5,從左至右分別是四個分類層次.第一位是最上級的層次,包括氧化還原酶、轉移酶、水解酶、裂合酶、異構酶、合成酶,編號分別是1-6.在本體系中,催化型結合蛋白大部分具有EC編號,底物型結合蛋白只有一個蛋白具有EC編號,故主要對催化型結合蛋白進行分析.從圖4(B)中可以看出,編號相同的蛋白質都被正確地分到了同一組.絕大多數催化組蛋白質屬于2類,即轉移酶,而其中的大部分屬于2.3.1類,該類是催化氨酰基以外反應的酰基轉移酶.在這類蛋白中,第四位編號有: 4、5、6、7、8、18、30、41、50、82、128、168幾種,其中5、8、41和168被劃為催化組A2類,其余為催化組A1類.由此可推論,基于結合位點特征的CoA結合蛋白的分類歸屬,與蛋白質的功能關系非常密切.

使用SVM機器學習方法對SCOP的分類結果進行驗證.首先,將28個在SCOP中按照折疊子分類的單提取出來,將all α標記為1類,all β標記為2類,α/β標記為3類,α+β標記為4類.然后使用Libsvm進行五重交叉驗證,即將所有數據隨機分為5類,互相訓練和測試,重復多次,最終計算出平均的準確率.最終,準確率是64.29%.這個數字表明,體系中的分類變量無法支撐SCOP的分類結果.說明基于結合模式的分類方式完全不同于基于蛋白的分類.進一步證明結合模式與結合位點特征,與蛋白質的結構關系并不緊密,結合位點特征相似的蛋白質,其外部結構差異可能會非常大.

3.5 構象研究

圖5 以腺苷為模板對CoA分子進行疊合的結果Fig.5 Structure aliment of CoAbases on adenosine fragment

我們嘗試從組成CoA分子的三個部分出發,使用Sybyl 6.91程序,對66個復合物中的CoA分子的構象進行疊合.我們首先選擇腺苷堿基部分作為疊合模板,因為這是CoA分子中最為剛性的結構部分.但是疊合的結果發現,當腺苷環固定后,分子其他部分的取向變得非常的無序(如圖5所示),這從某種程度上說明在CoA分子與蛋白質結合時,腺苷環可能不構成主要的鉚定結構.

隨后,我們以糖環為模板,將三個亞類蛋白中的CoA構象進行疊合,如圖6所示.可以看到,從整體來看,以糖為模板,糖環構象基本無出入,但糖環上的磷酸基構象很多樣,長鏈的分布無規律性.

值得注意的是嘌呤環的取向.由圖6可以看到,在糖環重合的情況下,全部CoA構象中的嘌呤環的取向基本一致,在糖環平面之上,絕大多數嘌呤環為同一方向,有極少數取向相反.底物組蛋白全部遵循這個規律,為同一取向,但催化型中,有少數例外.例外的蛋白為:A1組的1CM0的其中一個亞基和1S7N,A2組的1H9G和2H7C.

1CM0,p300/CBP相關因子,重要的組蛋白乙酰轉移酶.圖7中顯示的是取向特殊的亞基A的結合情況,結合口袋為開放式,CoA蜷曲狀填充入結合口袋,可以看到結合口袋附近并未填充滿,可以作為潛在的分子設計靶點.嘌呤環取向不同于其他,是與圖中所示水分子形成水橋所致,溶劑效應在構象的形成中起了一定的作用.另一個亞基B的嘌呤環周圍并無水分子,取向是與總體規律相同,因為就分子斥力而言,嘌呤環的這種取向更加穩定.

PDB編號為2H7C的結構是人的羧酸酯酶,是一個含有6個相同亞基的多聚體(如圖8所示).結合口袋較為狹窄,長鏈完全伸入結合口袋的深部.同樣,由于水分子的作用,嘌呤環與蛋白質橋接,導致嘌呤環構象扭轉.由此可得出結論,這幾個特例是溶劑造成的.這也提示我們在分子設計中,應當充分考慮溶劑對結合的影響.

圖6 以糖環為平面對CoA構象進行疊合Fig.6 Superimposition of CoAbased on the ribose ring(A)superimposition of CoAconformations binding with catalytic site;(B)superimposition of CoAconformations binding with substrate site; (C)A1sub-class of CoAconformations binding with catalytic site;(D)A2sub-class of CoAconformations binding with catalytic site

圖7 1CM0的A亞基結合口袋(a)與B亞基結合口袋(b)Fig.7 Binding sites of CoAwithAsubunit(a)and B subunit(b)from the crystal structure 1CM0

在CoA的結構中,長鏈部分是多樣性最強的. CoA可以與多種具有不同結構與功能的蛋白質分子結合,由于這些蛋白質分子的結構和功能截然不同,結合位點也具有多樣性,因此CoA與之結合時,通過采用多種不同構象與之適應,從而發揮不同的調控作用.CoA的長鏈屬于柔性結構,因此在構象的變化中起到了主導作用.由CoA的這種現象可以看出,配體可以通過改變自身的構象,來起到調控不同結構和功能的蛋白質的作用.

圖8 人羧酸酯酶(PDB:2H7C)中CoA的結合位點Fig.8 Binding sites of CoAwith human carboxylesterase (PDB entry:2H7C)

圖9 根據泛酰巰基乙胺鏈為模板對CoA分子進行疊合后得到的兩種情況Fig.9 Superimposition of CoAbased on pantetheine arm with N24,N28 and C20 fixed(A)CoAbinding with N-acetyltransferase folding protein family; (B)CoAbinding with proteins belongs to single-stranded, left-handed and beta-helix fold family

事實上,CoA分子識別和轉運酰基基團的主要功能是通過泛酰巰基乙胺鏈上的巰基完成的.在生化反應中,CoA分子首先通過巰基基團結合一個酰基.由于碳硫鍵具有很高的能量,因此很容易后繼將酰基基團轉移給相應的受體.在泛酰巰基乙胺鏈上,多個原子參與了CoA分子和蛋白受體之間的相互作用,在其中起到氫鍵給體或者受體的作用.

我們重新按照泛酰巰基乙胺鏈為模板進行了疊合,結果發現CoA分子的空間取向可以按照長鏈的構象分為幾類,處于同一分類中的蛋白有可能具有類似的動力學轉運機制.在轉運的過程中,泛酰巰基乙胺鏈會轉動到一定的取向上,然后結合到蛋白質高度保守的活性位點區域.圖9是將側鏈上N-4P, N-8P和C-12P作為疊合中心進行分子疊合后得到的兩種情況,其中圖9(A)中CoA分子對應的蛋白全部來自于N-乙酰轉移酶折疊蛋白家族,圖9(B)中的蛋白則全部屬于左手β螺線管折疊類型,這在某種意義上與SCOP的分類又有所類似.

4 結論

利用數據挖掘策略和統計學分析方法探索出了一條從數據收集、挖掘到分析的策略并進行了針對CoA結合蛋白的分類研究工作,為基于結合位點的蛋白質分類工作的具體操作過程和結果分析提供了一條有效途徑.

本研究驗證了在對CoA結合位點特征數據的分析中,兩步聚類法是一種簡單而準確的聚類分析方法,可以高準確率地將體系進行聚類,在類似的蛋白質分類工作中具有很高的實用性.基于結合模式的CoA結合蛋白分類,在分類過程和結果上,都不同于傳統的基于序列的分類體系,而且相差甚遠.但是這種分類體系和基于功能的分類有著微妙的聯系.

在分類結果的分析上,建立了一個新創的系數,能夠比較方便而有效地評價兩分類中各個分類特征的重要程度,并對尋找分類之間的共性和特性具有較大的幫助,具有較強的實用價值.CoA結合蛋白在結合上具有明顯的共性和特性,其中包括CoA分子中磷酸基結構與結合口袋中堿性氨基酸的氫鍵作用,長鏈上的羰基與氨基酸殘基中的氨基相互作用等,可以在藥物設計時,充分考慮到這些特性,并將之應用到實際工作中.同時,CoA在結合位點,在構象上也有一定的規律,嘌呤環具有趨向性特例顯示,溶劑因素對配體構象有較大影響,設計分子時應當充分考慮這方面的影響.

(1)Andersson,C.D.;Chen,B.Y.;Linusson,A.Proteins 2010,78, 1408.

(2) Gold,N.D.;Jackson,R.M.J.Chem.Inf.Model.2006,46,736.

(3)Arnold,J.R.;Burdick,K.W.;Pegg,S.C.H.J.Chem.Inf. Comp.Sci.2004,44,2190.

(4) Hoppe,C.;Steinbeck,C.;Wohfahrt,G.J.Mol.Graph.Model. 2006,24,328.

(5) Gold,N.D.;Jackson,R.M.J.Mol.Biol.2006,355,1112.

(6) Izrailev,S.;Farnum,M.A.Proteins 2004,57,711.

(7) Liu,Z.M.;Li,B.;Lai,L.H.Acta Phys.-Chim.Sin.2005,21, 1143.[劉振明,李 博,來魯華.物理化學學報,2005,21, 1143.]

(8) Cappello,V.;Tramontano,A.;Koch,U.Proteins 2002,47,106.

(9) Kinnings,S.L.;Jackson,R.M.J.Chem.Inf.Model.2009,49, 318.

(10) Doppelt-Azeroual,O.;Delfaud,F.;Moriaud,F.Protein Sci. 2010,19,847.

(11) Li,B.;Liu,Z.M.;Zhang,L.G.;Lai,L.H.J.Chem.Inf.Model. 2009,49,1725.

(12) Balakin,K.V.;Tkachenko,S.E.;Lang,S.A.J.Chem.Inf. Comp.Sci.2002,43,1332.

(13) Patel,R.Y.;Doerksen,R.J.J.Proteome Res.2010,9,4433.

(14) Cai,C.Z.;Han,L.Y.;Ji,Z.L.Nucl.Acids Res.2003,31,3692.

(15) Cai,C.Z.;Wang,W.L.;Sun,L.Z.Math.Biosci.2003,185,111.

(16)Shamim,M.T.A.;Anwaruddin,M.;Nagarajaram,H.A. Bioinformatics 2007,23,3320.

(17) Vapnik,V.N.The Nature of Statistical Learning Theory,1st ed.; Springer-Verlag:New York,1999;pp 30-39.

(18) Markowetz,F.;Edler,L.;Vingron,M.Biometrical J.2003,45, 377.

(19) Shen,H.B.;Yang,J.;Liu,X.J.Biophys.Res.Commun.2005, 334,577.

(20) Kong,J.H.;Fish,D.R.;Rockhill,R.L.J.Comp.Neurol.2005, 489,293.

(21) Liu,Y.;Li,X.Q.;Xu,H.S.;Qiao,H.Acta Phys.-Chim.Sin. 2009,25,2558.[劉 岳,李曉琴,徐海松,喬 輝.物理化學學報,2009,25,2558.]

(22) Kertész-Farkas,A.;Dhir,S.;Sonego,P.;Pacurar,M.;Netoteia, S.;Nijveen,H.;Kuzniar,A.;Leunissen,J.A.M.;Kocsor,A.; Pongor,S.J.Biochem.Biophys.Methods 2008,70,1215.

(23)Welcome to Brookhaven Protein Data Bank.http://www.rcsb. org(accessed,2010).

(24) Leonardi,R.;Zhang,Y.M.;Rock,C.O.Prog.Lipid Res.2005, 44,125.

(25) Rudel,L.L.;Lee,R.G.;Cockman,T.Curr.Opin.Lipidol.2001, 12,121.

(26) Sybyl 6.91.http://www.tripos.com.Tripos;USA,2001.

(27) Discovery Studio 2.0.http://www.accelrys.com/.Accelrys; USA,2008.

(28) Chen,J.;Lai,L.H.J.Chem.Inf.Model.2006,46,2684.

(29) Chang,C.;Lin,C.LIBSVM,Version 2.3;Software available at http://www.csie.ntu.edu.tw/~cjlin/libsvm.2001.

(30) Murzin,A.G.;Brenner,S.E.;Hubbard,T.;Chothia,C.J.Mol. Biol.1995,247,536.

(31)Andreeva,A.;Howorth,D.;Chandonia,J.M.;Brenner,S.E.; Hubbard,T.J.P.;Chothia,C.;Murzin,A.G.Nucleic Acids Res. 2008,36,D419.

(32) Gasteiger,E.;Gattiker,A.;Hoogland,C.;Ivanyi,I.;Appel,R. D.;Bairoch,A.Nucleic Acids.Res.2003,31,3784.

December 17,2010;Revised:January 25,2011;Published on Web:March 18,2011.

Classification of Coenzyme-A Binding Proteins Based on Co-Factor Binding Modes

FAN Di§LIU Zhen-Ming§,*JIN Hong-Wei ZHANG Liang-Ren*
(State Key Laboratory of Natural and Biomimetic Drugs,School of Pharmaceutical Sciences,Peking University, Beijing 100191,P.R.China)

This study developed a mutual recognition of the proteins based on molecular classification, data mining strategies and the statistical clustering method,which was applied to study and classify clusters of coenzyme-A(CoA)binding proteins with their binding patterns extracted by using Pocket1.0 program.Several strategies have been evaluated for the accuracy of the system analysis and the two-step clustering method has been shown to be the best.The results revealed that the known CoA binding proteins can be clustered into three groups by using this approach.The designed classification coefficient was used effectively to identify the critical features for classification.The results show that both hydrogen bonds and hydrophobic interactions are important in all three clusters and that quite a few important residues related to biological activities are involved in the formation of hydrogen bonds.The classification of these interactions and the discovery of the characteristics and differences between the three clusters will have some utility for the design of specific agonists and antagonists.

Coenzyme-A;Protein classification;Binding mode;Cluster analysis;Pantetheine

O641

*Corresponding authors.ZHANG Liang-Ren,Email:liangren@bjmu.eud.cn;Tel:+86-10-82802567.LIU Zhen-Ming,Email:zmliu@bjmu.edu.cn; Tel:+86-10-82805514.

§These authors contributed equally to this work.

The project was supported by the Major National Science and Technology Program of Key Drug Scheme Funds,China(2009ZX09501-002)and National Natural Science Foundation of China(20802006).

重大新藥創制國家科技重大專項(2009ZX09501-002)和國家自然科學基金(20802006)資助項目

猜你喜歡
分類特征方法
分類算一算
如何表達“特征”
不忠誠的四個特征
當代陜西(2019年10期)2019-06-03 10:12:04
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
抓住特征巧觀察
用對方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
捕魚
主站蜘蛛池模板: 一本大道香蕉高清久久| 99在线观看国产| 亚洲性影院| 亚洲第一精品福利| 午夜毛片免费观看视频 | 99在线视频精品| 日韩视频免费| 国产精品99一区不卡| 91精品国产无线乱码在线| 亚洲综合亚洲国产尤物| 成人免费视频一区| 又爽又黄又无遮挡网站| 中文字幕自拍偷拍| 久久午夜影院| 亚洲开心婷婷中文字幕| 亚洲欧美成人影院| 亚洲国产成人久久精品软件 | 国产成人综合在线观看| 国产在线观看一区二区三区| 一区二区三区成人| 亚洲婷婷丁香| 在线观看欧美国产| 青青草国产免费国产| 亚洲黄网在线| 亚洲综合日韩精品| 国产精品欧美日本韩免费一区二区三区不卡| 一级一毛片a级毛片| 999福利激情视频| 国产真实自在自线免费精品| 国产激情无码一区二区免费| 蝌蚪国产精品视频第一页| 麻豆国产原创视频在线播放 | 99re66精品视频在线观看| 成人年鲁鲁在线观看视频| 草逼视频国产| 亚洲综合片| 波多野结衣一级毛片| 欧美日韩导航| 亚洲视频一区在线| 久久精品嫩草研究院| 日韩精品无码免费一区二区三区| 中文字幕在线观看日本| 99精品视频播放| 国产精品刺激对白在线| 成人在线综合| 视频二区亚洲精品| 激情国产精品一区| 亚洲色精品国产一区二区三区| 91精品亚洲| 久草视频中文| 欧美丝袜高跟鞋一区二区 | 在线播放真实国产乱子伦| 在线看片国产| 爱爱影院18禁免费| 色哟哟色院91精品网站| 欧美成a人片在线观看| 18禁高潮出水呻吟娇喘蜜芽| 日韩欧美国产综合| 欧美www在线观看| 亚洲男人天堂2020| 999在线免费视频| 日韩欧美中文字幕在线精品| 亚洲一区网站| 国产精品美女免费视频大全| 国产成人无码Av在线播放无广告| 国产欧美日韩视频怡春院| 99视频在线免费观看| 性欧美在线| 露脸真实国语乱在线观看| 91外围女在线观看| 思思热精品在线8| 亚洲综合色婷婷| 无码电影在线观看| 在线日韩日本国产亚洲| 国产农村精品一级毛片视频| 亚洲精品福利视频| 国产原创第一页在线观看| 免费看久久精品99| 久久大香伊蕉在人线观看热2| 日本道中文字幕久久一区| 成人日韩精品| 免费无遮挡AV|