999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于支持向量機的癌細胞經典分泌蛋白與非經典分泌蛋白識別研究

2020-01-10 03:32:24余樂正柳鳳娟李東海郭延芝李益洲
四川大學學報(自然科學版) 2020年1期
關鍵詞:模型

余樂正, 柳鳳娟, 李東海, 郭延芝, 李益洲

(1. 貴州師范學院化學與材料學院, 貴陽 550018; 2. 四川大學化學學院, 成都 610065)

1 引 言

惡性腫瘤(癌癥)是當今對人類健康和生命威脅最大的疾病之一,并已成為我國人口死亡的首要原因[1]. 由于具有發展速度快、侵襲性強、易轉移復發、預后差等特點,大多數癌癥在晚期才被發現,導致治療難度大,死亡率極高.現代醫學研究結果表明,癌癥越早被發現,其治愈的幾率就越高. 因此,實現對早期癌癥的有效檢測已成為治愈癌癥、延長患者生命的關鍵[2]. 在癌癥的發生發展過程中,腫瘤細胞會釋放出一類反映癌癥存在與生長的物質——腫瘤標志物. 腫瘤標志物可存在于血液、體液、細胞或組織中,主要包括RNA,DNA,蛋白質等生物活性分子[3]. 通過對該類物質的快速準確檢測,可為判斷是否患有癌癥、癌癥類別、癌癥分期、預后效果等提供實驗依據. 由于不同發展階段、不同種類的癌細胞分泌出的蛋白質類型和表達水平不盡相同,近年來分泌蛋白已成為腫瘤標志物的主要來源之一[4-9]. 例如,甲胎蛋白(AFP)、α-L-巖藻糖苷酶(AFU)、高爾基體蛋白73(GP73)等已成為肝癌臨床診斷的主要檢測指標[10],前列腺特異性抗原(PSA)則是前列腺癌最重要的早期檢測指標[11].

根據是否含有N端信號肽,分泌蛋白可簡單分為經典分泌蛋白(CSPs)和非經典分泌蛋白(NCSPs)兩大類[12]. 通過經典分泌途徑與非經典分泌途徑,蛋白質均可被釋放到癌細胞外,并參與癌細胞的相關生理過程. 已有研究證實,不同種類的癌細胞可分泌出相同的蛋白質,且這些蛋白質的分泌主要依賴于非經典分泌途徑[13]. 因此,對癌細胞非經典分泌蛋白進行系統深入的研究,可為尋找到不同種類癌癥間通用的腫瘤標志物提供理論參考. 基于蛋白質序列信息和支持向量機(SVM)算法,通過嚴格的特征篩選,本文構建了一個二元分類器以快速準確地識別癌細胞非經典分泌蛋白. 對于測試集,本方法總的預測準確率為99.81%,表明本方法可作為一種輔助工具用于不同種類癌癥間通用蛋白標志物的篩選.

2 材料與方法

2.1 材 料

本實驗所用數據主要來自于人類癌癥分泌蛋白質組數據庫(HCSD)[14]. HCSD已收錄13種癌癥的分泌蛋白數據,如肝癌、肺癌、乳腺癌、前列腺癌、胃癌、結直腸癌、鼻咽癌、宮頸癌、膠質母細胞瘤、膀胱癌、胰腺癌、卵巢癌、淋巴瘤等. 從該數據庫中共得到23 225條癌細胞分泌蛋白,包括5 263條CSPs與17 962條NCSPs. 此外,從前期工作中[8],收集到147條CSPs與102條NCSPs作為獨立測試集.

2.2 建模方法

作為現今最流行的機器學習算法之一,支持向量機已被廣泛應用于解決各種分類問題. 由于采用了結構風險最小化準則,并具有堅實的理論支撐,支持向量機可較好地處理小樣本、高維度、非線性、局部極小點等問題[15]. 在前期各類分泌蛋白的識別研究中[16-18],支持向量機均表現出良好的應用效果,故本文也采用支持向量機來構建預測模型.

2.3 模型的性能評估參數

為客觀準確地評估模型的實際預測性能,本文選取了以下4個評價參數:靈敏度(SE),特異性(SP),準確率(ACC)和馬氏相關系數(MCC)[19].

(1)

(2)

(3)

MCC=

(4)

公式(1)~(4)中,TP為真陽性,即正樣本被準確識別的數量;FP表示假陽性,即負樣本被錯誤識別為正樣本的數量;TN表示真陰性,即負樣本被準確識別的數量;FN表示假陰性,即正樣本被錯誤識別為負樣本的數量.

3 實 驗

3.1 訓練集與測試集

為去除掉原始數據中冗余的序列信息,提高模型的穩定性,以相似度閾值為25%,利用CD-HIT Suite[20]對原始數據進行處理后,共得到761條CSPs和2 715條NCSPs. 隨機提取其中的70%作為訓練集,剩余的30%作為測試集[21],故訓練集最終由533條CSPs和1 901條NCSPs組成,而測試集則包含228條CSPs及814條NCSPs.

3.2 特征提取與表征

除所用實驗數據與建模方法外,特征篩選在蛋白質的分類預測研究中也發揮著非常重要的作用. 本研究分別采用氨基酸組成、自協方差變量、位置特異性得分矩陣以及信號肽來表征蛋白質中氨基酸的序列信息、鄰接效應、進化信息及結構信息.

3.2.1 氨基酸組成 氨基酸組成(AAC)代表了20種常見氨基酸在蛋白質序列中出現的頻率,每條蛋白質均被描述為一個20維的數字向量.

3.2.2 自協方差變量 在蛋白質的分類研究中,自互協方差(ACC)常用于計算蛋白質序列中氨基酸殘基間的鄰接效應. 自互協方差共包含兩種變量,即相同描述符間產生的自協方差變量(AC)與不同描述符間形成的互協方差變量(CC). 由于自協方差變量的維數遠小于互協方差變量的,且前者對鄰接效應的貢獻度遠大于后者[22],故本文只采用自協方差變量來表征氨基酸殘基間的鄰接效應. 此外,前面的研究工作[23]已對自協方差變量的相關計算公式進行了詳細描述,此處不再贅述. 由于本研究選用了疏水性、等電點、極性、轉移自由能、側鏈體積等5個理化性質,且氨基酸間的最大距離取值為5,故每條蛋白質最終被轉化為一個25維的數字向量.

3.2.3 位置特異性得分矩陣 由于能有效表征蛋白質序列中氨基酸殘基的進化信息[24],位置特異性得分矩陣(PSSM)已被廣泛應用于各種蛋白質的分類研究. 利用PSI-BLAST程序(期望值閾值為10-3)對Swiss-Prot數據庫進行搜索,并經3次迭代后,獲得了每條蛋白質的位置特異性得分矩陣. 通過相關公式[23]對這些矩陣進行統一處理后,每條蛋白質均被轉換為一個20維的數字向量.

3.2.4 信號肽 是否含有N端信號肽是經典分泌蛋白與非經典分泌蛋白結構間最顯著的差異,故信號肽已成為區分兩者的一個重要特征. 作為目前預測能力最強、應用范圍最廣的信號肽識別軟件,SignalP 4.1[25]被用于蛋白質N端信號肽的識別,并通過D-score值予以表征.

3.3 蛋白質替代模型

基于上述特征,本文共建立了7個蛋白質替代模型:模型1僅含氨基酸組成(AAC);模型2僅含位置特異性得分矩陣(PSSM);模型3為氨基酸組成與自協方差變量融合形成的偽氨基酸組成(PseAAC);模型4為氨基酸組成與位置特異性得分矩陣融合形成的偽位置特異性得分矩陣(PsePSSM);模型5由氨基酸組成與信號肽融合而成;模型6由偽氨基酸組成與信號肽融合而成;模型7由偽位置特異性得分矩陣與信號肽融合而成.

3.4 模型的構建

本文最終的支持向量機預測模型是通過libsvm 3.12 (http://www.csie.ntu.edu.tw/~cjlin/libsvm/)工具箱建立起來的. 選擇徑向基函數(RBF)為模型核函數,并利用網格搜索法對模型的正則化參數C和核函數參數γ進行優化.此外,作為最客觀的模型性能檢測方法之一[26],留一法(Jackknife test)被用于構建最終的預測模型.

4 結果與討論

4.1 特征篩選及替代模型的確定

基于3.3節描述的7個蛋白質替代模型,本文共構建了7個支持向量機預測模型,相關訓練結果均列于表1中.

表1不同蛋白質替代模型對訓練結果的影響

Tab.1 Performance of different protein substitution models

模型Cγ準確率模型18.00.585.209 5模型28.00.588.783 9模型32.00.587.921 1模型42.00.591.166 8模型50.50.031 2599.752 5模型6320.007 812 599.671 3模型72.00.599.671 3

根據模型1與模型2的訓練結果,PSSM對蛋白質的表征能力略優于AAC,表明PSSM的確能較好地反映蛋白質序列中氨基酸殘基的進化信息. 模型3、模型4的訓練結果表明,AC和PSSM的加入的確能有效提高模型的預測性能,且PSSM所包含的信息量多于AC的. 比較前4個模型與后3個模型的訓練結果,信號肽的加入使得模型5~7的預測性能均有較大幅度的提升,表明信號肽在CSP與NCSP的分類研究中的確發揮著重要作用.同時,正是由于信號肽對CSP和NCSP過于強大的區分能力,使其掩蓋了蛋白質替代模型PseAAC與PsePSSM之間的性能差異.雖然模型5的預測準確率最高,但模型7的優化參數最為合理,包含的信息量更多,且兩者之間的預測準確率相差很小,故本文選擇模型7作為最終的蛋白質替代模型.

4.2 模型的實際應用

利用3.1節構建的測試集,對模型5~7的實際預測性能進行了比較,相關測試結果均列于表2中.

表2不同SVM模型對測試集的預測結果

Tab.2 Prediction results of different SVM models obtained by analyzing the test sets

蛋白質類型CSPsNCSPs合計測試集數據2288141 042模型5準確預測數2288051 033準確率 (%)10098.9899.14模型6準確預測數2288071 035準確率 (%)10099.1499.33模型7準確預測數2268141 040準確率 (%)99.1210099.81

如表2所示,雖然模型5、模型6準確識別出所有228條CSPs,但它們對NCSPs的預測性能均弱于模型7. 模型7不僅準確識別出測試集中所有814條NCSPs,其對癌細胞分泌蛋白總的預測準確率與MCC值也最高(99.81%與99.44%),表明以模型7為最終的蛋白質替代模型是正確的.

為進一步比較模型5~7的實際預測性能,通過2.1節提到的獨立測試集再次進行了檢測. 模型5~7均準確識別出所有147條CSPs,且模型5將2條NCSPs錯誤預測為CSPs,而模型6和模型7僅錯誤預測1條NCSP. 進一步的研究發現,三個模型均錯誤預測的蛋白質(Q86UK5)在UniProt數據庫中被標注為膜蛋白,SignalP 4.1也預測其為膜蛋白. 由于該蛋白質的D-score值為0.438,與SignalP 4.1的默認值(0.45)極為接近,這可能使得三個預測器均將其錯誤識別為CSP. 這一結果表明在區分經典分泌蛋白和非經典分泌蛋白時,還應注意區分分泌蛋白與膜蛋白.

5 結 論

經仔細分析癌細胞經典分泌蛋白與非經典分泌蛋白的各種特征,本文基于支持向量機算法構建了一個二元分類器以快速準確地識別癌細胞非經典分泌蛋白. 研究結果表明,本方法對癌細胞非經典分泌蛋白具有較好的預測性能,可作為一種輔助工具用于篩選不同種類癌癥間通用的蛋白標志物.后續研究將嘗試構建一個可快速準確區分不同種類癌細胞分泌蛋白的多元分類預測器,從而為尋找到每類癌癥的特異性腫瘤標志物提供理論參考.

猜你喜歡
模型
一半模型
一種去中心化的域名服務本地化模型
適用于BDS-3 PPP的隨機模型
提煉模型 突破難點
函數模型及應用
p150Glued在帕金森病模型中的表達及分布
函數模型及應用
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
3D打印中的模型分割與打包
主站蜘蛛池模板: 国产理论精品| 99国产精品国产高清一区二区| 成人在线亚洲| 国产偷国产偷在线高清| 在线观看av永久| 欧美在线国产| 91免费观看视频| 亚洲欧美一区在线| 无码网站免费观看| 亚洲天天更新| 免费人成又黄又爽的视频网站| 青草精品视频| 亚洲αv毛片| 日本www在线视频| 91探花国产综合在线精品| 亚洲视频三级| 波多野结衣在线一区二区| 国产精品亚洲综合久久小说| 国产AV无码专区亚洲A∨毛片| 91www在线观看| 久久综合干| 一区二区三区国产精品视频| 无码专区国产精品一区| 97国产在线观看| 成人在线观看一区| 国产第三区| 欧美啪啪网| 色噜噜综合网| 亚洲伊人久久精品影院| 欧洲欧美人成免费全部视频| 国产精品无码AⅤ在线观看播放| 亚洲精品爱草草视频在线| 日本尹人综合香蕉在线观看| 亚洲欧美精品一中文字幕| 99re精彩视频| 欧美日韩国产高清一区二区三区| 老汉色老汉首页a亚洲| 美女扒开下面流白浆在线试听| 91视频免费观看网站| 色成人综合| 日韩高清成人| 精品乱码久久久久久久| 欧美综合在线观看| 亚洲综合国产一区二区三区| 一区二区三区国产精品视频| 重口调教一区二区视频| 久久超级碰| 日韩人妻少妇一区二区| 中国成人在线视频| 无码久看视频| 精品国产中文一级毛片在线看 | 国产精品99久久久| 精品久久久久久中文字幕女| 久久无码免费束人妻| 欧美日韩国产一级| 国产一级裸网站| 国产欧美在线观看一区| 91欧美在线| 热久久这里是精品6免费观看| www.youjizz.com久久| 粉嫩国产白浆在线观看| 精品無碼一區在線觀看 | 成人av专区精品无码国产| 久久精品嫩草研究院| 国产精品区网红主播在线观看| 国产成人啪视频一区二区三区| 毛片免费在线视频| 国产精品无码久久久久AV| 亚洲国产中文在线二区三区免| 又黄又湿又爽的视频| 亚洲色图综合在线| 在线免费观看AV| 亚洲男人的天堂久久香蕉网| 日韩成人在线网站| 91丨九色丨首页在线播放| 亚洲最大福利视频网| 国产一区二区三区日韩精品| 99激情网| 欧美五月婷婷| 青青青草国产| 国产www网站| 色哟哟国产成人精品|