陳旭東
組蛋白賴氨酸甲基化酶(HMTases)可以催化組蛋白的甲基化,參與多種生物學事件,對DNA復制、DNA損傷應激、細胞周期循環、胞質分離及轉錄調節等多方面有重要作用[1]。HMTases可以特異性地將甲基從s-腺苷甲硫氨酸(AdoMet)轉移到組蛋白末端的幾個特定的賴氨酸[2]。核受體結合SET域蛋白家族(NSDs)是HMTases中的一支亞家族,包括NSD1、NSD2(MMSET/WHSC1)和NSD3(WHSC1L1),都包含具有催化活性的SET結構域,該結構域高度保守[3]。NSD1、NSD2及NSD3在小鼠發育中是必須的,敲除NSD1及NSD2的基因會導致小鼠死亡[4]。研究表明,NSDs的突變和擴增與多種發育異常疾病和腫瘤相關[5-6]。NSD1的SET結構域可以特異性地催化H3K36[7]。NSD1的異常表達及活性改變和多種腫瘤有關。現已有多項研究以甲基化酶為靶標,開發抑制藥物,以期待治療相應的疾病[8-9]。本研究擬預測NSD1催化活性區域(NSD1-CD)的B細胞優勢表位,來為應用多肽小片段制備單克隆抗體、表位疫苗及研究其蛋白功能提供重要的依據。報道如下。
1.1 NSD1-CD段氨基酸序列的獲取 NSD1全長氨基酸序列檢索于uniProt蛋白質數據庫(http://www.uniprot.org/),NSD1-CD段的范圍參考Qiao等[10]研究。
1.2 NSD1-CD蛋白的二級結構獲取 自PDB數據庫(https://www.rcsb.org/)獲取NSD1-CD(PDB ID 300I)的三級結構,使用蛋白質二級結構詞典DSSP(Definition of Secondary Structure of Proteins,DSSP)獲取其二級結構。
1.3 NSD1-CD蛋白親水性、極性、抗原性和表面可及性的預測 利用EXPASY服務器提供的親水性參數(Hopp&Woods)、極性參數(Zimmerman)和DNAstar軟件的Protein進行的表面可及性參數(Emini)、抗原性參數(Jameson-Wolf)和柔韌性參數(Karplus-Schulz)方法來對NSD1-CD蛋白B細胞表位進行預測。
1.4 綜合分析 綜合以上預測方法,兼顧各項預測參數推斷NSD1蛋白B細胞表位,采用吳玉章等[11]建立的抗原性指數(AI)綜合評判NSD1-CD B細胞表位的優勢區域。
1.5 結合蛋白質三級結構分析 在PYMOL軟件上標出優勢表位在NSD1-CD上的位置,在uniProt蛋白質數據庫網站上通過Structure模塊的Toggle controls panel工具進行測距。
2.1 NSD1-CD的氨基酸序列 NSD1全長為2 696個氨基酸(長型),相對分子質量為296.65 kDa。NSD1-CD的范圍是1 852~2 082,其中包含3個結構域:PRE-SET(AWS)1 890~1 940,SET 1 942~2 059,POST-SET 2 066~2 082;長為231個氨基酸,相對分子質量為26.53 kDa,具體序列如下:KELRQLQEDRKNDKKPPPYKHIKVNRPIGRVQIFTADLSEIPRCNCKATDENPCGIDSECINRMLLYECHPTVCPAGGRCQNQCFSKRQYPEVEIFRTLQRGWGLRTKTDIKKGEFVNEYVGELIDEEECRARIRYAQEHDITNFYMLTLDKDRIIDAGPKGNYARFMNHCCQPNCETQKWSVNGDTRVGLFALSDIKAGTELTFNYNLECLGNGKTVCKCGAPNCSGFLG。
2.2 NSD1-CD的二級結構 自PDB獲取NSD1-CD的三級結構,使用蛋白質二級結構詞典DSSP獲取其二級結構,提示NSD1-CD蛋白的二級結構中以無規卷曲為主-螺旋、-轉角相對較少。可見無規則卷曲主要位于NSD1全長N端的1 865~1 870、1 879~1 887、1 893~1 910、1 917~1 926、1 940~1 943、1 949~1 953、1 959~1 966、1 992~1 997、2 022~2 026、2 045~2054及2 057~2082。見封二彩圖1和表1。

表1 NSD1-CD的二級結構的構成比 例(%)

2.3 多參數預測NSD1-CD蛋白表位 按照Hopp& Woods、Zimmerman、Jameson-Wolf、Karplus-Schulz及Emini方案分別預測NSD1-CD蛋白的親水性、極性、抗原性、柔韌性和表面可及性。其中高于閾值的肽段即為預測的抗原表位(抗原指數≥0,親水性指數≥0,表面可及性指數≥1,極性指數≥12)。綜合分析NSD1-CD的親水性、極性、柔韌性、表面可及性和抗原性顯示:應用不同參數預測的B細胞抗原表位肽段略有差異,但位于N端的1 856~1 870,1 900~1 902,1 938~1 942,1 957~1 964在多種預測方法中一致。見封二彩圖2和表2。

表2 NSD1-CD親水性、極性、柔韌性、抗原性、表面可及性等參數的預測結果

2.4 NSD1-CD蛋白表位的綜合預測 綜合以上預測方法及AI計算方法,計算NSD1-CD的B細胞表位平均AI,結果顯示人NSD1-CD的1 865~1 869、1 959~1 964平均AI較高,提示其可能為B細胞表位的優勢區域。見表3。

表3 NSD1-CD B細胞表位的平均抗原性指數
2.5 結合蛋白質三級結構分析 自PDB獲取NSD1-CD(PDB ID 300I)的三級結構文件,通過PYMOL標記出SET結構域和優勢表位的位置,可見SET結構域形成了一個“口袋”狀結構,口袋中即為其活性區域,內側可容納一個AdoMet,可催化其轉移甲基至組蛋白上。優勢表位KTDIKK(1 959~1 964)位于SET結構域上,但位于“口袋”的外側底部,距離活性區域較遠(封二彩圖3a)。而優勢表位KKPPP(1 865~1 869)位于PRE-SET(AWS)上,在“口袋”的“口”附近(封二彩圖3b)。在uniProt蛋白質數據庫網站上通過Structure模塊的Toggle controls panel工具進行測距,測量1 961號天冬氨酸(位于優勢表位KTDIKK的中央)和AdoMet的距離,結果為24.22?(封二彩圖4a),測量1 867號脯氨酸(位于優勢表位KKPPP的中央)和AdoMet的距離,結果為13.25?(封二彩圖4b)。


使用生物信息學預測B細胞表位是現如今廣泛使用且高效方便的方法[12-13],目前有多種B細胞表位的預測方法,但由于各種方法的差異性及局限性,不同方法預測的表位差異較大,故研究人員正不斷地改進與完善預測評價體系,使B細胞表位的預測、評價標準化。目前得到公認的具有較好預測結果的方法有二級結構、親水性、抗原性、表面可及性等參數的預測,本研究將以上參數與吳玉章等[11]建立的AI相結合,從而初步地做出科學、合理的預測分析。
由于NSD-1蛋白的甲基轉移活性主要是通過SET結構域實現的,本研究通過截取其中的一部分(NSD-CD),包括包含三個結構域(PRE-SET 1 890~1940,SET1 942~2 059,POST-SET2066~2082),從而減少預測的難度。用多種方法對其B細胞表位進行預測,最終得到了2段優勢B細胞表位,分別位于N端的1 865~1 869及1 959~1 964,其中優勢表位KTDIKK(1 959~1 964)位于SET結構域上,但是距離AdoMet所在的活性區域較遠,1 961號天冬氨酸(位于優勢表位KTDIKK的中央)和Ado-Met的距離為24.22?,影響其活性的可能性較小;而優勢表位KKPPP(1 865~1 869)位于PRE-SET(AWS)上,且距離AdoMet所在的活性區域較近,在uniProt蛋白質數據庫網站上通過Structure模塊的Toggle controls panel工具進行測距,測量1 867號脯氨酸(位于優勢表位KKPPP的中央)和AdoMet的距離,結果為13.25?,對SET結構域的甲基轉移活性有影響的可能性較大。
在Qiao等[10]的研究中,POST-SET結構域如同一個“蓋子”,覆蓋在SET結構域的活性區域表面,被認為對其活性有重要作用,具有作為藥物靶點的可能。但本研究顯示POST-SET段親水性及表面可及性較弱,難以預測出優勢B細胞表位。本研究成功預測了NSD1的B細胞優勢表位,為應用多肽小片段制備單克隆抗體、表位疫苗及研究其蛋白功能提供重要的依據。