周敏 石瑩瑩 張凱林 張先燚 孔祥蕾



摘要:隨著完整蛋白質離子碎裂技術的發展及其在自頂向下(Top-down,TD)蛋白質組學中的運用,蛋白質裂解的碎片質譜可提供更加豐富的碎片信息,因此,開發新的算法用于碎片離子的自動分析,已經成為自頂向下蛋白質組學中非常重要的任務。本研究開發了一個應用于分析自頂向下質譜數據的軟件(NanKaiTop-Down,NKTD),其主要特點是采用“由一到多”式的尋找同位素峰簇的方法,實現了對重疊譜峰的自動解析。算法對已識別離子進行數據后處理和分析的結果有利于研究蛋白質離子在不同碎裂技術下產生的碎片離子信息。利用此軟件對泛素蛋白離子在紅外多光子解離(IRMPD)和紫外光解離(UVPD)兩種裂解方法下的數據進行分析,結果表明,泛素蛋白離子在UVPD方法下產生的碎片離子種類非常豐富,其裂解位點覆蓋率也遠優于IRMPD方法。更為重要的是,在自頂向下質譜學中,這兩種裂解方式具有良好的互補性。
關鍵詞:自頂向下;蛋白質;譜峰識別;紅外多光子解離;紫外光解離
電噴霧電離(Electro-sprayionization,ESI)[1]和基質輔助激光解吸附電離(Matrix-assistedlaserdesorptionandionization,MALDI)[2]技術的發明使得生物質譜進入一個全新的時代,也使蛋白質組學研究得到了快速發展。在蛋白組學研究中,使用最為廣泛的是“自底向上(Bottom-up,BU)”的策略[3,4],即將蛋白質復雜樣品的酶切產物通過色譜進行分離后,再利用質譜并結合數據庫搜索,實現肽段和蛋白質的鑒定。與BU策略互補的一項技術是“自頂向下(Top-down,TD)”策略,以及在此基礎上發展起來的“自中向下(Middle-down,MD)”方法[5,6]。其中,自頂向下方法是直接將完整的蛋白質進行分離和離子化,然后在氣相中利用串聯質譜技術將其裂解,并通過數據庫比對,實現蛋白質的鑒定以及翻譯后修飾位點的鑒定。隨著高分辨質譜技術及串聯質譜技術的快速發展,以及TD方法的準確性和獨特性,這種策略在近年逐漸成為蛋白質組學方法學研究的熱點[7~16]。
自頂向下質譜技術現已在蛋白質鑒定中占有非常重要的地位。在此類工作中,通過算法自動解析質譜數據,進而實現蛋白質分子的鑒定,已經成為蛋白質組學研究中的熱點。因此,許多研究人員和商業公司開發了許多優秀的算法和程序,如:ProSight[17,18]、MS-TopDown[19]、TopPIC[20]、MASHsuite[21]、MSpathFinder[22]、Ptop[23]、CUDA-TP[24]、SQID[25]、Sequest[26]、Mascot[27]、OMMSA[28]、ProVerB[29]、RT-PSM[30]等。這些算法多基于實驗質譜與現有的數據庫中的理論譜進行匹配,通過打分函數進行評判,將分值最高的、匹配度最好的理論譜對應的候選片段認定為該實驗圖譜對應的最佳結果。這些算法的實現,對蛋白質鑒定和分析起到了極大的促進作用,大大節省了相關科研工作者的時間和精力。
另一方面,在自頂向下的蛋白質組學中,為了更有效地實現蛋白質分子的裂解,研究者開發了多種蛋白質分子串聯質譜的方法,如低能碰撞誘導解離(Collisioninduceddissociation,CID)[31]、電子捕獲裂解(Electroncapturedissociation,ECD)[32,33]、電子轉運裂解(Electrontransferdissociation,ETD)[34]、高能碰撞裂解(High-energydissociation,HCD)[35]、紅外多光子解離(Infraredmultiphotondissociation,IRMPD)[36]、紫外光解離(Ultravioletphotodissociation,UVPD)等。這些質譜技術在“自頂向下”的蛋白質組學中的應用,使得蛋白質離子裂解后產生大量的、種類豐富的碎片離子。為了能夠理解這些碎片離子種類、碎裂時的序列覆蓋率以及其它信息(如氣相中蛋白質離子的構象及構象變化),許多課題組研發了相應的算法和軟件,以實現對這些碎片離子的鑒定和數據分析,如THRASH算法[37]、Decon2LS[38]、DeconMSn[39]、MS-Deconv[40]。其中,Horn等[37]開發的THRASH算法現已被廣泛運用在很多軟件中,成為目前主流的自頂向下質譜數據處理算法之一。該算法采用減法式譜峰發現的方法尋找可能的同位素峰。Jeon等[41]也對這一算法進行改進,使得其運行速度得到了提升。盡管如此,由于碎片離子的多樣性以及普遍存在的譜峰重疊的情況,此類算法在重疊峰的處理中仍不夠理想。在處理重疊峰的眾多算法中,“同位素輪廓指紋比對”算法利用比例配分的方法能夠較準確地解析出重疊峰,但其速度較慢;田志新課題組發明了一種生物質譜重疊同位素輪廓的解析方法,該方法以參與重疊的離子的理論同位素輪廓中無重疊的最高峰作為參考峰,對相應的實驗同位素輪廓中每個同位素峰的實驗強度進行歸一化,因此該方法的計算量小、通量高、準確度高[42~46],但在處理離子同位素全部重疊的情況下,該算法的處理效果就會稍弱一些。另外,已有的程序中,對復雜碎片離子的數據分析仍不夠充分,影響了對實驗結果的充分解讀。基于此,本研究開發了NanKaiTop-Down(NKTD)應用程序,有效地解析了質譜圖中的重疊峰,并進一步實現數據的分析和挖掘。
2.1儀器與試劑
配有電噴霧離子源的7.0TIonSpec型傅里葉變換離子回旋共振(Fouriertransformioncyclotronresonance,FT-ICR)質譜儀(美國Varian公司);光學參量振蕩(Opticalparametricoscillator,OPO)Firefly-IR型紅外激光器(英國MSquared公司);波長為193nm的ExcimerLasersSeriesCL5300型準分子激光器(俄羅斯Optosystems公司);SSH-R型機械快門(日本Sigma-Koki公司)。
甲醇(色譜純,百靈威科技有限公司);乙酸(98%,天津市光復精細化工研究所);牛泛素蛋白(Bovineubiquitin,98%,Sigma-Aldrich公司);實驗用水為超純水,由Milli-Q型超純水系統(美國Millipore公司)制備。
2.2實驗方法
2.2.1樣品制備牛泛素蛋白未經過進一步提純,采用水-甲醇-乙酸(49∶49∶2,V/V)溶液配制成1μmol/L牛泛素蛋白溶液。
2.2.2FT-ICR高分辨質譜將已經制備好的牛泛素蛋白樣品溶液以120μL/h的速度注入進電噴霧離子源,并通過電噴霧電離產生帶有不同電荷的牛泛素蛋白離子。FT-ICR質譜儀通過存儲波表逆傅里葉變換(StoredwaveforminverseFouriertransform)的方法[47],將目標離子選定在質譜儀器的分析池中,再分別將OPO紅外激光器產生的紅外激光和準分子激光器產生波長為193nm的紫外激光引入到分析池中,并設定機械快門控制激光照射目標離子的時間為8s,記錄光解離質譜。
NKTD程序基于MATLAB軟件平臺編寫,質譜數據以ASCII數據格式(分別按離子的質荷比及相應的強度值)被程序讀入。程序主要由4個模塊組成,分別為:數據庫建立、譜峰識別、譜峰匹配和數據分析。整個程序的流程如圖1所示。
3.1數據庫的建立
在用戶輸入目標蛋白質或多肽的氨基酸序列,以及離子所帶的電荷范圍之后,程序會首先讀取氨基酸序列,依據用戶所設定的離子電荷范圍搭建此蛋白質碎裂產生的所有可能的a,b,c,x,y,z以及其它相關離子的分子式[48],再從這些離子的分子式中分別讀取離子所含元素(如C,H,O,N,S等)的數目,最終將這些元素數目代入元素同位素質量分布數據庫[49]中進行組合,建立離子同位素峰簇質量分布數據庫。用戶也可根據可能的翻譯后修飾,或其它特殊要求自行對數據庫進行相應的擴充。

3.2實驗譜峰尋找
在THRASH算法中,對實驗譜峰的搜尋是基于計算出較合理的譜峰信噪比[37],但這種方法的弊端是:若計算得到的信噪比過大,則會減少識別實驗譜峰信號的數目,相反則會將部分噪聲信號識別成實驗譜峰信號。為了避免計算出不合理的信噪比,NKTD不采用計算譜峰信噪比的方法,而是采用計算實驗譜峰的背景噪聲,用戶設定信噪比閾值的方法[50]:(1)以1m/z大小的窗口,每次移動0.5m/z步長,對輸入的質譜數據進行掃描,并且在每個窗口中對數據求平均值;(2)每10個窗口(用戶可定義)之間,平均值最小的窗口認定為噪聲窗口;(3)將噪聲窗口中的強度值繪制成直方圖。為了消除譜峰信號或射頻信號的高度對判斷噪聲峰值引起的干擾,當直方圖中最小值小于最大值的5%時,該最大值的直方圖被舍棄;再將最小值與次最大值比較,若小于次最大值的5%,則該次最大值被舍棄;依此處理,直至剔除所有可能含有譜峰信號或射頻信號的直方圖,再對余下的進行求均值,最終認定該均值為噪聲。
以泛素蛋白在UVPD下m/z846.4~847.8區間內的實驗碎片質譜峰(圖2A)為例,在得到噪聲值后,逐點掃描實驗碎片質譜數據,當該數據點大于用戶定義的信噪比值,則將該數據點輸出,輸出的數據點為譜峰的剖面式信號(圖2B),隨后程序會對剖面式信號值進行中心化,求出每個譜峰的峰值(圖2C中黑色中心線所示)。


3.3譜峰匹配
為實現對實驗中觀察到的離子進行指認和分類,NKTD程序將實驗譜圖與數據庫中的理論預測譜峰進行比對,對滿足匹配要求的譜峰打分,再將分值高的理論譜峰選出,若滿足閾值,則認定為對應的離子。其中打分函數的設定顯得尤為重要,同時打分函數需要通過不斷地修正才能給出更合理的置信水平。高分辨實驗質譜數據中獲得的是離子同位素分布信息,其包含離子的質荷比信息以及對應的強度信息。此算法從離子的質荷比信息出發,結合其強度信息,采用“由一到多”式的譜峰相減,再組合打分的方法,實現了實驗中觀察到譜峰與數據庫中預期離子理論譜峰的匹配。此算法對重疊峰進行分析的具體過程如下及示意圖(圖3)所述:(1)NKTD對實驗譜峰進行識別后,得到的是實驗譜峰的峰值數據點,包含離子的質荷比信息(me)及強度信息(Ie)(圖3A);(2)算法依次將實驗譜峰中峰值數據點的質荷比(mei)與已經建立好的離子同位素質量分布數據庫中最高豐度的單同位素峰的質荷比(mti)進行求差,得到di,若di的絕對值滿足已經設定好的閾值D(默認設置為0.02,但用戶可改),則將該實驗數據點認定為“一”,再分別向該實驗數據點的左右兩個方向尋找該離子的同位素峰簇,尋找到的離子同位素峰簇則認定為“多”,如圖3B中紅色的中心線所示(NKTD匹配到了理論值為T1離子):
3.4數據處理
基于前3個模塊的數據預處理,軟件對已經識別出的離子按照要求進行分類和相關的數據分析。主要內容有:離子歸類、裂解位點分析、質子化位點分析等。以下將以\[Ubiquitin+10H]10+的紅外光解離和紫外光解離質譜為例,對碎片離子的種類、裂解位點及質子化位點進行數據分析。
3.5軟件操作界面
NKTD1.0版本的用戶操作界面基于MATLAB軟件進行GUI編程開發,其操作界面如圖4所示,主要分為菜單欄、參數設置區、功能按鈕區、顯示區及作圖區。由于該軟件目前只支持在正離子模式下對已知氨基酸序列的蛋白質(或多肽)在不同裂解方式下產生碎片離子的質譜圖進行解析,因此,在文后支持信息中以解析帶有11價正電荷的泛素蛋白離子在波長為193nm的紫外激光照射條件下產生的碎片離子質譜圖為例,對軟件的操作步驟及功能進行詳細介紹。
蛋白質光解離技術在近年來得到了快速的發展。早期的自頂向下蛋白質光解離主要使用的是CO2激光器[51],其裂解產生的碎片離子種類與使用CAD裂解方法產生的離子種類基本一致,均為b,y離子,這一事實與能量在蛋白質離子中吸收再分配相一致[52]。Brodbelt的研究所用193nm的紫外激光器致使蛋白質離子發生裂解,且觀察到更為豐富的碎片離子[53,54]。

4.1碎片質譜解析
本研究利用紅外多光子解離(IRMPD)[55]、紫外光解離(UVPD)的蛋白質碎裂技術,分別對\[Ubiquitin+10H]10+進行了實驗,并通過此軟件對其碎片離子質譜進行解析,得到的碎片離子分布如圖5所示,IRMPD產生的碎片離子種類較UVPD少。為了進一步研究IRMPD與UVPD產生碎片離子種類的區別,利用NKTD軟件對兩張碎片離子質譜圖進行了詳細的數據分析。

4.2碎片質譜數據分析
兩種方法所產生的碎片離子的種類分布如圖6所示,IRMPD產生的碎片離子種類為b和y離子,與廣泛使用的CAD方法一致。但其中b和y離子的分布并不均等,分別占36%和64%。即觀察到的y離子種類比b離子種類高約70%。另一方面,UVPD產生的碎片離子種類豐富且整體分布較均勻。其中a與x離子的分布非常接近,分別為19%和20%。c與z離子的分布也有類似的趨勢,分別為16%和14%。但b與y離子分布差距稍大,分別為14%和17%。

NKTD程序按照離子種類在不同氨基酸序列位點對其所帶電荷數目進行數據分析,從而得到如電子版文后支持信息圖S6所示的離子在不同位點所帶質子數目的信息。此信息有助于理解氣相蛋白質正離子的質子分布以及所映射出的結構信息[48]。更為重要的是,對碎片離子的進一步分析可以直觀地得到目標蛋白離子分別在IRMPD和UVPD條件下發生斷裂的氨基酸序列位點。如電子版文后支持信息圖S7所示,在IRMPD下泛素蛋白發生斷裂的氨基酸序列位點明顯比在UVPD下發生的斷裂位點少,對應的10個斷裂位點分別為10、18、24、26、27、28、37、39、52、58。碎片的序列覆蓋率僅為13%,與CAD的結果基本一致。而利用UVPD技術則可更好地實現“自頂向下”的蛋白質碎裂,序列覆蓋率>76%。深入比較可以發現,UVPD碎片譜中發生序列缺失的第10、24、26、27、58號位點,正是IRMPD技術中的裂解位點。此結果揭示了IRMPD或CAD技術與UVPD技術在蛋白質分子裂解過程的差別以及互補性,為設計更有效的自頂向下的蛋白質組學的實驗手段提供了新思路。
為滿足基于自頂向下技術的蛋白質組學研究的需求,本研究開發了一個自動分析和處理已知序列蛋白質分子的碎裂質譜數據的程序NKTD。在對實驗譜峰進行識別的過程中,NKTD采用了“由一到多”的譜峰相減再組合打分的方法,較好地實現了重疊譜峰的自動解析,減少了人工干預。利用NKTD程序進一步對泛素蛋白離子在IRMPD(2990nm)和UVPD(193nm)實驗中所獲得的光解離碎片質譜進行了數據分析。結果表明,IRMPD方法中產生的主要是b,y系列的碎片離子,而UVPD方法產生的碎片離子種類非常豐富且整體分布較為均勻,裂解位點覆蓋率也遠優于IRMPD的結果。兩種方法在裂解方式上的不同使得它們具有非常好的互補性。NKTD程序的數據分析能夠更直觀地展示出完整蛋白質離子在不同碎裂方法下的裂解情況,有利于進一步理解相關的質譜數據。另一方面,NKTD程序的算法和數據分析還需進一步改進,并在蛋白質翻譯后修飾、氫氘交換位點、氧化位點確認等實際數據分析中發揮作用。
1FennJB,MannM,MengCK,WongSF,WhitehouseCM.Science,1989,246(4926):64-71
2KarasM,BachmannD,BahrU,HillenkampF.Int.J.MassSpectrom.IonProcesses,1987,78(87):53-68
3WashburnMP,WoltersD,YatesJR.Nat.Biotechnol.,2001,19(3):242-247
4AebersoldR,MannM.Nature,2003,422(6928):198-207
5XuP,PengJ.Anal.Chem.,2008,80(9):3438-3444
6FornelliL,AyoubD,AizikovK,BeckA,TsybinYO.Anal.Chem.,2014,86(6):3005-3012
7McLaffertyFW.Acc.Chem.Res.,1994,27(11):379-386
8ZubarevRA.KelleherNL.McLaffertyF.J.Am.Chem.Soc.,1998,13(120):3265-3266
9KelleherNL.LinHY.ValaskovicGA.AaserudDJ.FridrikssonEK.McLaffertyFW.J.Am.Chem.Soc.,1999,121(121):806-812
10KelleherNL.Anal.Chem.,2004,76(11):196A-203A
11BogdanovB,SmithRD.Mass.Spectrom.Rev.,2005,24(2):168-200
12ChaitBT.Science,2006,314(5796):65-66
13SiutiN,KelleherNL.Nat.Methods,2007,4(10):817-821
14WhiteleggeJ.ExpertRev.Proteomics,2013,10(2):127-129
15ArnaudCH.Chem.Eng.News,2013,91(20):11-17
16SUNRui-Xiang,LUOLan,CHIHao,LIUChao,HESi-Min.Prog.Biochem.Biophys.,2015,42(2):101-114
孫瑞祥,羅蘭,遲浩,劉超,賀思敏.生物化學與生物物理進展,2015,42(2):101-114
17LeducRD,TaylorGK,KimYB,JanuszykTE,BynumLH,SolaJV,GaravelliJS,KelleherNL.NucleicAcidsRes.,2004,32(Suppl2):340-345
18ZamdborgL,LeducRD,GlowaczKJ,KimY,ViswanathanV,SpauldingIT,EarlyBP,BluhmEJ,BabaiS,KelleherNL.NucleicAcidsRes.,2007,35(Suppl2):701-706
19FrankAM,PesaventoJJ,MizzenCA,KelleherNL,PevznerPA.Anal.Chem.,2008,80(7):2499-2505
20KouQ,XunL,LiuX.Bioinformatics,2016,32(22):3495-3497
21CaiW,GunerH,GregorichZR,ChenAJ,GeY.Mol.Cell.Proteomics,2015,15(2):703-714
22ParkJ,PiehowskiPD,WilkinsC,ZhouM,MendozaJ,FujimotoGM,GibbonsBC,ShawJB,ShenY,ShuklaAK,MooreRJ,LiuT,PetyukVA,Toli'-N,Paa-Tolic'L,SmithRD,PayneSH,KimS.Nat.Methods,2017,14:909-914
23SunRX,LuoL,WuL,WangRM,ZengWF,ChiH,LiuC,HeSM.Anal.Chem.,2016,88(6):3082-3090
24DUANQiong,TIANBo,CHENZheng,WANGJie,HEZeng-You.JournalofComputerResearchandDevelopment,2018,55(7):1525-1538
段瓊,田博,陳征,王潔,何增有.計算機研究與發展,2018,55(7):1525-1538
25LiW,JiL,GoyaJ,TanG,WysockiVH.J.ProteomeRes.,2011,10(4):1593-1602
26EngJK,MccormackAL,YatesJR.J.Am.Soc.MassSpectrom.,1994,5(11):976-989
27CottrellJS,LondonU.Electrophoresis,1999,20(18):3551-3567
28GeerLY,MarkeySP,KowalakJA,WagnerL,XuM,MaynardDM,YangX,ShiW,BryantSH.J.ProteomeRes.,2004,3(5):958-964
29XiaoCL,ChenXZ,DuYL,SunX,ZhangG,HeY.J.ProteomeRes.,2013,12(1):328-335
30WuFX,GagnéP,DroitA,PoirierGG.RapidCommun.MassSpectrom.,2006,20(8):1199-1208
31TangXJ,ThibaultP,BoydRK.Anal.Chem.,1993,65(20):2824-2834
32ZubarevRA,KelleherNL,McLaffertyFW.J.Am.Chem.Soc.,1998,120(13):3265-3266
33ZubarevRA,HornDM,FridrikssonEK,KelleherNL,KrugerNA,LewisMA,CarpenterBK,McLaffertyFW.Anal.Chem.,2000,72(3):563-573
34SykaJEP,CoonJJ,SchroederMJ,ShabanowitzJ,HuntDF.Proc.Natl.Acad.Sci.USA,2004,101(26):9528-9533
35BiemannK.MethodsEnzymol.,1990,193(193):455-479
36LittleDP,SpeirJP,SenkoMW,O'ConnorPB,McLaffertyFW.Anal.Chem.,1994,66(18):2809-2815
37HornDM,ZubarevRA,McLaffertyFW.J.Am.Soc.MassSpectrom.,2000,11(4):320-332
38JaitlyN,MayampurathA,LittlefeldK,AdkinsJN,AndersonGA,SmithRD.BMCBioinf.,2009,10(1):87-101
39MayampurathAM,JaitlyN,PurvineSO,MonroeME,AuberryKJ,AdkinsJN,SmithRD.Bioinformatics,2008,24(7):1021-1023
40LiuX,InbarY,DorresteinPC,WynneC,PevznerPA.Mol.Cell.Proteomics,2010,9(12):2772-2782
41JeonSH,ChangHS,HurM,KwonKH,OhHB.Bull.KoreanChem.Soc.,2009,30(9):2061-2065
42XiaoK,YuF,FangH,XueB,LiuY,TianZ.Sci.Rep.,2015,5:14755
43XIAOKai-Jie,TIANZhi-Xin.ChineseJournalofChromatography,2016,34(12):1255-1263
肖開捷,田志新.色譜,2016,34(12):1255-1263
44XIAOKai-Jie,TIANZhi-Xin.ChemistryofLife,2017,(1):19-24
肖開捷,田志新.生命的化學,2017,(1):19-24
45TIANZhi-Xin.ChinaPatent,201410593905,2017
田志新.中國專利,201410593905,2017
46LiL,TianZ.RapidCommun.MassSpectrom.,2013,27(11):1267-1277
47CodyRB,HeinRE,GoodmanSD,MarshallAG.RapidCommun.MassSpectrom.,1987,1(6):99-102
48ChuIK,SiuCK,LauJKC,TangWK,MuX,LaiCK,GuoX,WangX,LiN,YaoZ,XiaY,KongXL,OhHB,RyzhovV,TurecˇekF,HopkinsonAC,SiuKWM.Int.J.MassSpectrom.,2015,390:24-27
49SniderRK.J.Am.Soc.MassSpectrom.,2007,18(8):1511-1515
50KaurP,O'ConnorPB.J.Am.Soc.MassSpectrom.,2006,17(3):459-468
51LittleDP,SpeirJP,SenkoMW,O'ConnorPB,MclaffertyFW.Anal.Chem.,1994,66(18):2809-2815
52GriffinLL,McAdooDJ.J.Am.Soc.MassSpectrom.,1993,4:11-15
53MorrisonLJ,BrodbeltJS.Analyst,2015,141(1):166-176
54HoldenDD,McgeeWM,BrodbeltJS.Anal.Chem.,2016,88(1):1008-1016
55YangYJ,LiaoGH,KongXL.Sci.Rep.,2017,7(1):16592