基于sigFeature方法的小麥不耐受患者差異蛋白篩選及通路研究*

2022-09-14 09:57:20哈爾濱醫科大學衛生統計學教研室150081王玉鵬劉美娜

中國衛生統計 2022年3期

哈爾濱醫科大學衛生統計學教研室(150081) 趙敏張薇孫琳王玉鵬劉美娜

【提要】目的應用蛋白質組學技術，基于sigFeature變量篩選方法，獲得小麥不耐受患者血清差異表達蛋白；利用富集分析獲得差異蛋白生物學解釋，為小麥不耐受發病機制的研究提供依據。方法收集小麥不耐受患者和對照組血清樣本；應用TMT標記定量蛋白質組學技術獲得蛋白表達數據、sigFeature方法篩選差異表達蛋白；進行差異蛋白GO功能注釋和KEGG富集分析，外部數據集進行差異蛋白驗證。結果 TMT技術鑒定蛋白849個，sigFeature篩選獲得差異蛋白22個。富集分析結果：GO富集分析發現差異蛋白參與血小板脫顆粒、急性期反應等生物學過程；KEGG富集分析發現差異蛋白參與補體與凝血級聯通路。外部驗證結果：ITIH2蛋白的ROC 曲線下面積最大，AUC值為0.8673。結論補體系統抑制和脂質代謝過程的改變是小麥不耐受發生的重要環節；ITIH2蛋白可能是小麥不耐受的關鍵蛋白；本研究從人體血清蛋白質組學的角度，為探究小麥不耐受的發生和調控機制提供依據。

近年來，食物不耐受流行程度大幅度增加，成為世界范圍內的公共衛生問題[1]；食物不耐受是指由于食物成分的化學作用，酶/運輸缺陷等引起的變態反應性疾病，發生率約為15%～20%[2]。小麥不耐受在我國食物不耐受的種類中占有較高的比例[3-4]，但發病機制尚不清楚，尚無從人體血清蛋白質組學方向的研究。作為蛋白質組學的重要分支，血清蛋白質組學可以利用質譜技術分析特定人群血清中的全部蛋白質，從整體水平上研究蛋白質的表達、結構、功能；結合統計學與生物信息學技術，能夠獲得差異蛋白、篩選生物標志物，為疾病發病機制的探索與研究提供依據[5]。

本研究從血清蛋白質組學角度入手，利用串聯質譜定量法(tandem mass tag，TMT)對小麥不耐受患者與對照組血清進行蛋白質定量分析；利用sigFeature變量篩選方法獲得差異蛋白，GO功能注釋和KEGG富集分析解釋差異蛋白生物學功能；并用外部數據集進行差異蛋白驗證，為小麥不耐受發病機制研究提供方向和新思路。

資料與方法

1.研究對象

收集某醫院變態反應科就診患者血清，ELISA方法對人體血清中14種食物進行特異性IgG抗體檢測；根據食物IgG水平將檢測結果分為四個等級：<50U/ml為陰性，記作0級；50～100U/ml為輕度不耐受，記作+1級；100～200U/ml為中度不耐受，記作+2級；>200U/ml為重度不耐受，記作+3級[6]；獲得小麥不耐受患者及對照血清樣本各7例，收集年齡、BMI、日常生活中食物攝入情況、家中是否養動物等基本信息。

2.蛋白質組學分析

TMT是用于標記不同蛋白樣品并進行LC-MS/MS定量研究的體外標記技術。流程如下：①制備不同的蛋白樣品；②Trypsin酶切獲得相應樣品的多肽；③利用不同的TMT標簽標記樣品；④等量混合成一個樣品；⑤LC-MS/MS檢測；⑥數據庫檢索與定量分析。

3.差異蛋白篩選

sigFeature是一種基于支持向量機-遞歸特征消除(support vector machine-recursive feature elimination，SVM-RFE)的特征選擇算法[7]。SVM通過核函數將線性不可分數據映射到高維空間使其線性可分[8]，尤其適用于小樣本、高維數據分類模型構建[9]；由于本研究特征數遠大于樣本數，因此選用線性核函數。SVM-RFE是基于SVM最大間隔原理的序列后向選擇算法[10]，該算法在迭代過程中剔除分類能力較弱的特征，保留分類能力較強的特征，迭代包括三個步驟：第一，訓練SVM模型，獲得每個特征的權重w；第二，根據特征排序標準計算每個特征得分；第三，剔除得分最小的特征，保留其余特征進行下一次迭代。待所有特征均被剔除后，根據特征剔除順序獲得特征重要性排序列表。sigFeature將SVM-RFE與t統計量結合，利用SVM計算權重，t統計量計算不同類別之間的差異，將兩者結果的乘積作為特征排序標準，進行逐步特征選擇。該方法能夠更好地消除噪聲和無關特征，篩選到數量較少、具有更高分類精度和良好生物學功能的特征。假設訓練集{(x1，y1)，…，(xn，yn)，xj∈Rd，yi∈(-1，1)}，xi={xi1，…，xid}是d維的輸入向量，y是分類標簽，則SVM的分類超平面f(x)可用方程式(1)表示，式中w=(w1，w2，…，wd)為權重，b為位移項。支持向量機權重的計算方式如公式(2)所示，αi為拉格朗日乘子。病例組與對照組的分離程度由方程式(3)表示，Δδ越大則兩組間差異越大。n+、n-分別表示病例組和對照組樣本數。

(1)

(2)

(3)

(4)

(5)

(6)

如果兩組樣本數均大于1，采用兩獨立樣本t檢驗方法計算某一特征的組間差異，即公式(7)。由于本研究病例組和對照組樣本數均大于1，因此，通過公式(7)計算特征的重要性排序得分。

(7)

4.數據分析

利用R軟件獲得差異蛋白，并進行GO功能注釋和KEGG富集分析：GO功能注釋分析差異蛋白參與的生物過程、分子功能、細胞組分；KEGG富集分析獲得差異蛋白參與的最主要的代謝和信號轉導途徑。

5.外部驗證

21例血清樣本作為外部驗證數據集，小麥不耐受患者7例，對照14例。繪制驗證數據集ROC曲線并計算曲線下面積；AUC值作為衡量差異蛋白分類性能的指標，取值范圍在0.5至1之間，值越大說明模型預測性能越好。

模擬實驗

本研究利用模擬實驗，比較sigFeature方法與隨機森林(RF)、偏最小二乘法(PLS)在不同參數條件下對小樣本蛋白質組學數據的變量篩選效果。模擬實驗參數設置如下：總樣本量設置為N=6，8，10，12，18，24，30，50，80，100，病例組與對照組樣本量相等；總變量數為1000；差異變量比例為p=3%(30)，5%(50)，8%(80)，10%(100)；變量間相關性設置為r=0.2，0.4，0.6，0.8。比較三種方法在不同參數設置條件下的平衡準確度，以評價三種方法的變量篩選效果：平衡準確度=(靈敏度+特異度)/2。

模擬實驗結果如圖1～4所示。結果顯示，不同相關系數條件下，樣本量較小時，sigFeature方法變量篩選效果最好且較穩定，其次為PLS，RF較差且不穩定；隨著樣本量的增大，三種方法的平衡準確度均增大；當N=100時，sigFeature與PLS方法的平衡準確度趨近于1，高于RF。

圖1 p=3%(30)時，三種方法在不同相關系數下平衡準確度比較

圖2 p=5%(50)時，三種方法在不同相關系數下平衡準確度比較

圖3 p=8%(80)時，三種方法在不同相關系數下平衡準確度比較

圖4 p=10%(100)時，三種方法在不同相關系數下平衡準確度比較

結果

1.基線資料比較

病例組與對照組單因素logistic回歸分析結果見表1，年齡、BMI、水果、蔬菜、瘦肉及肝臟、海鮮、生冷食物、辛辣食物、維生素、是否養動物差異均無統計學意義(P>0.05)，兩組具有可比性，可以進行后續分析。

表1 小麥不耐受發生相關因素logistic回歸分析結果

2.差異蛋白篩選

LC-MS/MS原始數據經過MaxQuant搜庫和定量分析鑒定到849種蛋白質，其中上調465種，下調384種。sigFeature變量篩選獲得蛋白重要性排序列表，排序靠前的22種蛋白對小麥不耐受患者和正常樣本的分類效果最好，其中上調6種，下調16種，見表2。差異蛋白聚類分析結果的熱圖見圖5，根據差異蛋白在不同組間的表達量可以將樣本分為病例組和對照組，兩組間無交叉。

表2 差異表達蛋白

3.富集分析

GO富集分析結果見圖6，差異蛋白參與的生物學過程主要集中在血小板脫顆粒過程、急性期反應過程、細胞蛋白質定位的正調控過程、細胞趨化性過程、白細胞凋亡調控等過程，參與的差異蛋白主要有F8、CLU、GAS6、SAA2、YWHAG、LGALS3、PRG3；細胞組成中，大部分蛋白位于分泌顆粒腔、細胞質囊泡腔、囊泡腔、血小板α顆粒管腔、血小板α顆粒等結構中，參與的差異蛋白主要有F8、CLU、GAS6、PRG3、CAMP、ITIH2、CLU、ITIH2、LGALS3、SAA2；差異蛋白分子功能主要是酶抑制劑活性、化學引物活性、受體酪氨酸激酶結合、蛋白酪氨酸激酶結合、蛋白激酶調節活性等，參與的差異蛋白主要有ITIH2、GAS6、YWHAG、LGALS3、SAA2、CLU、PRG3。KEGG富集分析發現差異蛋白富集在補體與凝血級聯通路。

4.外部驗證結果

sigFeature方法篩選獲得22個差異蛋白，其中13個在驗證數據集中沒有表達，9個在驗證數據集中表達，表達蛋白的AUC分布見表3。驗證數據集ITIH2蛋白的AUC值最大，ROC曲線分析結果見圖7，變量篩選數據集AUC為0.8163，曲線下面積95%置信區間為0.58～1，靈敏度為85.71%，特異度為71.43%；驗證數據集AUC為0.8673，曲線下面積95%置信區間為0.67～1，靈敏度為85.71%，特異度為85.71%。

圖5 差異表達蛋白聚類熱圖

圖6 差異蛋白GO富集分析結果

表3 變量篩選與驗證數據集差異蛋白AUC分布

圖7 ITIH2蛋白ROC曲線分析

討論

sigFeature是一種將SVM-RFE與t統計量結合的方法，具有適用于小樣本高維組學數據，且能夠篩選到分類精度更高的特征的優點，實際研究中主要用于基因表達數據的分類及變量篩選[7]，本文將其用于小樣本蛋白組學數據的研究中。模擬實驗表明sigFeature方法在小樣本蛋白質組學數據中具有較好的變量篩選效果，因此將其應用于小麥不耐受差異蛋白的篩選研究，但該方法計算相對復雜，運算速度較慢。

小麥中的某些蛋白質會使機體產應不耐受反應，引起消化、呼吸、皮膚、神經等多個系統的疾病。隨著小麥年產量的增高，小麥不耐受人數也逐漸增加，因此，研究小麥不耐受致病機制及關鍵調控蛋白具有重要意義。目前關于小麥不耐受的研究較少且多從植物角度入手[11-13]，有研究發現α-淀粉酶抑制劑、ω-5麥醇溶蛋白會引起小麥過敏反應及相關疾病；利用SDS聚丙烯酰胺凝膠電泳技術分析小麥蛋白成分，發現麥谷蛋白可能是引起小麥不耐受的蛋白。本研究從人體血清蛋白質組學角度入手，發現補體與凝血級聯通路是差異蛋白主要參與的代謝通路，ITIH2蛋白是疾病調控的關鍵蛋白。

補體與凝血系統是先天性免疫的重要組成部分，主要由絲氨酸蛋白酶抑制劑及激活劑組成，通路激活后產生級聯反應以抵御病原體入侵，促進傷口愈合，發揮機體的防御功能[14]。補體系統與凝血系統可通過多條途徑相互作用，例如凝血因子XIIa可以激活補體因子C1r從而啟動補體系統，凝血酶可以激活補體系統的C5釋放C5a，C5a對中性粒細胞具有顯著的趨化活性；相反，當抗凝系統被抑制時，補體通過增強血液凝固特性和增強炎癥反應來促進血栓形成，進而增強凝血。補體和凝血級聯通路的差異蛋白為CLU、F8。CLU為簇蛋白，是一種可溶性補體激活調節劑，能夠調節末端補體級聯反應并抑制C9與C5b-8復合物結合，調節促炎性細胞因子的生成，具有抑制補體系統和脂質轉運的作用[15]。有研究發現CLU與雞蛋過敏反應有關，但其機制需要進一步研究[16]。F8為凝血因子VIII，是血液凝固過程的關鍵蛋白，F8的缺乏會導致不同程度的出血紊亂[17]。有研究表明F8與免疫反應有關[18]，本研究首次發現F8與小麥不耐受有關。

ITIH2為間α-胰蛋白酶抑制劑重鏈H2，由絲氨酸蛋白酶抑制劑組成。過去研究發現，α-淀粉酶/胰蛋白酶抑制劑是人類先天免疫反應的誘導劑，與小麥過敏反應有關，通過TLR4-MD2-CD14途徑激活免疫細胞上的Toll樣受體4，誘導抗原呈遞細胞向外周淋巴結遷移，促進炎性趨化因子和細胞因子產生炎癥反應，從而增強人體先天免疫作用[19-20]。本研究發現ITIH2蛋白在小麥不耐受的調控中發揮關鍵作用，外部驗證中ITIH2蛋白的AUC值最高。

小麥不耐受的調控是一個復雜的過程，涉及到許多蛋白質共同參與，目前研究多為植物方向，無法闡明食物攝入后機體代謝過程的改變。因此，從人體血清蛋白質組學角度更容易理解疾病發生、發展的分子機制。本研究立足于人體血清蛋白質組學，發現補體和凝血系統的改變是小麥不耐受發生的重要環節，ITIH2蛋白是小麥不耐受的關鍵調控蛋白，為深入研究疾病的致病機制提供依據。