999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于色譜峰形優劣的代謝組學峰檢測參數優化算法比較

2024-08-23 00:00:00盛陽昊王玨蔣躍平
分析化學 2024年1期

關鍵詞代謝組學;峰檢測;centWave;集成學習

代謝組學通過對小分子代謝物譜的系統研究,有助于全面了解生物體中小分子代謝物在受刺激或擾動后的變化[1],在基礎研究和臨床實踐中發揮著越來越重要的作用[2-3]。氣相色譜-質譜聯用(GC-MS)、液相色譜-質譜聯用(LC-MS)和核磁共振(NMR)是目前代謝組學最常用的通用分析技術[4]。在代謝組學研究中,上述分析技術均存在優缺點,其中,LC-MS具有樣品處理簡單、快速、高通量、高分辨率以及可覆蓋樣本中大部分代謝物等優點,近年來該技術的運用越來越廣泛[5-6]。基于LC-MS的代謝組學研究會產生大量的數據,而對質譜數據的預處理(Datapre-processing)、統計分析(Statisticalanalysis)和代謝物注釋(Metaboliteannotation)是代謝組學數據處理需要解決的主要問題[7]。峰檢測(Peakpicking)是數據預處理的第一步,也是最重要的一步,為后續的多元統計分析提供了初始的代謝物特征矩陣[7-9]。

目前,研究者開發了多種數據預處理工具,包括質譜供應商提供的商業軟件,如Agilent公司的MassHunterProfinder軟件、Thermofisher公司的CompoundDiscoverer軟件等。此外,還有一些廣泛使用的開源軟件,如XCMS[10]、MZmine2[11]、MetAlign[12]和MAVEN[13]軟件等。在這些軟件中,XCMS(包括R版本和Online[14])是目前應用最廣泛的軟件之一,其后添加的centWave算法廣泛應用于高分辨質譜的峰檢測,相比于XCMS中原有的matchedFilter算法[10],基于連續小波變換的centWave可以適應不同的峰寬[15]。然而,centWave算法中需要設置的關鍵參數較多,使用者必須熟悉所使用的色譜和質譜的相關信息,并根據得到的具體數據進行手動調節;若參數設置不當,通常會導致結果較差。為了對新學者更加友好且得到更好的centWave參數,Manier等[16]以峰面積的變異系數為優化指標開發了centWaveSweep算法;Libiseller等[17]以同位素色譜峰數量為優化指標開發了自動調整centWave參數的算法IPO(Isotopologueparametersoptimization)。

近來,Albóniga等[18]比較了專家手動調整參數和IPO參數優化算法自動調整參數后的優化效果,結果表明,在峰面積可重復性方面,IPO比手動調整得到的結果更好。然而,該研究經過數據處理后得到了15個候選特征,其中只有8個候選特征有良好的色譜峰形且可被準確積分,去除3個同位素峰后,只有5個特征能夠進行后續研究。Myers等[9]同樣在多個不同的數據集中發現centWave算法得到了大量的假陽性峰(即噪聲峰因沒有合適峰形而不能準確積分的色譜峰)。

目前,centWave參數優化的結果比較均基于色譜峰面積的重復性[16-18],并未考慮色譜峰的峰形優劣,但較差的峰形可能使得下游生物標志物的分析出現假陽性結果[9,18]。為了克服以往只使用峰面積可重復性作為centWave參數優化評價指標的局限性,本研究增加了優良峰形色譜峰比例和可信色譜峰(同位素峰)比例這2個指標,對centWave參數優化算法進行了全面比較。此外,為了快速準確地區分色譜峰形的優劣,本研究建立了以樹模型為基學習器的3個機器學習模型,并比較了不同模型的區分效果。采用基于centWave的峰檢測參數優化算法對代謝物標準品和尿液2個數據集和3種評價指標進行了綜合比較分析。本研究有助于更好地理解不同優化算法的優點和局限性,為參數優化算法的選擇及其后續改進提供參考。

1實驗部分

1.1儀器與試劑

6545quadrupole-time-of-flight(Q-TOF)高分辨質譜儀,配備具有Jetstream技術的電噴霧離子源(美國Agilent公司);1290Infinity超高效液相色譜儀(美國Agilent公司);D2012plus高速離心機(中國大龍公司)。乙腈(質譜級,純度≥99.9%,德國Merck公司);甲酸(質譜級,純度≥98%,美國Sigma公司)。實驗用水為超純水(18.2MΩ·cm)。

1.2樣本處理

健康人尿液來自實驗室2名健康志愿者,采集后于?80℃保存。實驗前,尿液于室溫下融化,各取100μL,共200μL,加入200μL質譜級甲醇,渦旋振蕩2min,15000r/min離心10min,取上清液200μL,加入200μL超純水稀釋,待測。

1.3色譜及質譜條件

WatersAcquityBEHHSST3色譜柱(100mm×2.1mm,1.8μm),柱溫40℃,進樣量為5μL,流速350μL/min,柱溫箱溫度為4℃。流動相A為0.1%甲酸溶液,流動相B為含0.1%甲酸的乙腈溶液;流速350μL/min。梯度洗脫:0min,10%B;0~6min,10%~60%B;6~12min,60%~100%B;12~15min,100%B;15~20min,10%B。

質譜離子源參數如下:毛細管電壓4000V,毛細管出口電壓(Fragmentorvoltage)125V,噴嘴電壓0V,干燥器溫度(Drygastemperature)325℃,流速10L/min,鞘氣溫度(Sheathgastemperature)350℃,流速11L/min,噴霧室壓力(Nebulizerpressure)45psi(1psi=6.89kPa)。質譜數據采集模式為全掃描模式(Full-scan),采集范圍m/z100~1000,采集頻率2.5Hz,檢測器模式2GHzExtendeddynamicrange。質譜運行中采用參比離子進行校正,參比離子為m/z121.050873和m/z922.009798。

1.4非靶向代謝組學公共數據集

除了自建的尿液非靶向數據外,本研究還從Metabolights(ID:MTBLS1572)下載了公開的非靶向代謝組學數據進行補充,該數據由代謝物標準品(濃度為8.3ng/mL)混合進樣后得到,色譜柱為WatersACQUITYUPLCBEHC18(1.0mm×100mm,1.7μm),采用Agilent1290InfinityⅡ超高效液相色譜儀和BrukerImpactⅡ超高分辨率四極桿-飛行時間質譜儀,掃描模式為全掃描,速度2Hz。

1.5數據處理

1.5.1數據集預處理

質譜采集的數據由ProteoWizard轉化成mzXML格式。質譜數據預處理和可視化均在R環境(Ver.4.1)下完成。峰檢測由XCMS包中centWave算法完成,其中,待優化的初始參數為XCMSOnline中對應質譜儀所推薦的參數。centWave優化參數分別由IPO和centWaveSweep算法得到。centWave算法優化的關鍵參數為ppm、minpeakwidth、maxpeakwidth、mzdiff、prefilter和snthresh。

1.5.2峰形分類特征矩陣生成

為建立峰形分類集成學習模型,首先參考文獻[9]對色譜峰的優良峰形進行如下定義:(1)峰的邊緣點上的離子強度小于峰最高點離子強度的50%(峰完整性,防止對峰進行部分積分);(2)峰旁邊未被相似強度的不規則噪音峰包圍;(3)只能包含一個尖峰(防止對嚴重分裂峰進行積分)。相關圖示說明見電子版文后支持信息圖S1。

根據定義,為了使集成學習模型更好地分類,選擇了6種峰形評價指標[19-21]作為色譜峰特征,即色譜峰對稱性(Symmetry,SYM)、色譜峰最大邊界比值(Maxboundaryratio,MBR)、色譜峰信息熵(Entropyindex,EI)、色譜峰高斯相似性(Gaussiansimilarity,GS)、峰面積三角形(由兩端點和峰頂點組成)相似性(Trianglepeakareasimilarityratio,TPASR)和色譜峰分裂指數(Splitindex),從不同角度對峰形進行評價,具體公式見電子版文后支持信息表S1。

1.5.3集成學習區分峰形模型的建立

峰形分類選用3種以樹模型為基學習器(Base-learner)的集成學習(Ensemblelearning)算法:隨機森林(Randomforest)、自適應提升(Adaboost)和梯度提升樹(Gradientboostingdecisiontree),由python包sklearn(ver.0.20.3)實現。模型訓練數據集由人工根據上一部分定義對峰形好壞進行劃分。為降低過擬合和提高模型泛化性能,采用五折交叉驗證對訓練集進行超參數調整和評價模型性能。由于該問題為二分類問題且訓練集為平衡數據集,本研究引入準確率(Accuracy)和F1分數(F1score)2個指標對模型區分效果進行評價。

2結果與討論

2.1整體研究流程和方法建立

本研究考察了IPO和centWaveSweep兩種算法對centWave參數優化的效果,采用不同的評價指標將使用優化參數的centWave生成的所有色譜峰與XCMSOnline推薦的默認參數得到的所有色譜峰進行比較。

比較流程如圖1所示,為了全面比較centWave參數的優化效果,測試數據分為兩類,由代謝物標準品配制的混合溶液樣本和健康人尿液樣本組成。采用可信峰比例、可重復峰比例、優良峰形色譜峰比例3種指標對生成的色譜峰進行考察。

可信色譜峰比例定義為可信色譜峰數量占全部色譜峰數量的百分比,可信色譜峰的判別標準為該峰是否有同位素峰,由IPO包中的findIsotopes函數計算得到。

可重復色譜峰比例定義為可重復色譜峰數量占全部色譜峰數量的百分比,可重復色譜峰為該峰在不同的進樣批次中相對標準偏差(RSD)lt;30%的色譜峰。

優良峰形色譜峰比例定義為優良峰形色譜峰數量占全部峰數量的百分比,優良峰形色譜峰具體定義見1.5.2節。

XCMSOnline推薦的centWave參數以及經IPO和centWaveSweep優化后的centWave參數如表1所示。相比于XCMSOnline的推薦參數,IPO和centWaveSweep兩種算法優化得到的最小色譜峰寬均變大,而最小色譜峰寬參數過小會導致造成色譜峰分裂。另外,centWaveSweep根據色譜峰面積RSD進行優化,預過濾參數和信噪比閾值這2個參數均比推薦參數大幅提高。

2.2基于集成學習的峰形區分模型的建立及優良峰形比例比較

為了快速對得到的峰形進行分類,選用3種集成學習算法:隨機森林、自適應提升和梯度提升樹(圖2)。模型建立方法如下:首先用XCMS包中getEIC函數得到色譜峰的強度向量和時間向量,并根據這兩個向量計算6個色譜峰形評價指標。將每個色譜峰的6個峰形評價指標和1個標簽(峰形優劣,其中訓練集標簽為人工標注)得到的特征矩陣作為區分模型的輸入,用五折交叉驗證在訓練集上對不同算法的超參數進行優化,得到各算法超參數最優組合如下:隨機森林n_estimators=1000,max_depth=5,max_features=6;自適應提升n_estimators=300,learning_rate=0.5;梯度提升樹n_estimators=1000,learning_rate=0.1,max_depth=4。各算法效果如表2所示,3種集成學習算法除梯度提升樹外,準確度均大于90%,F1分數均大于0.9。其中,隨機森林的準確率和F1分數最高。因此,本研究選擇隨機森林進行色譜峰形區分。

在兩種不同來源的樣本中,采用峰形優劣區分模型對兩種優化算法和默認參數得到的色譜峰進行優良峰形色譜峰比例比較。在代謝物標準品樣本中,IPO和centWaveSweep算法優化參數后得到的優良峰形色譜峰比例分別為53.5%和50.2%,而默認參數為53.6%。對于尿液樣品,IPO和centWaveSweep算法優化參數后得到的優良峰形色譜峰比例分別為35.3%和43.4%,而默認參數為41.7%。

從不同算法得到優良峰形色譜峰比例可知,對于代謝物標準品,centWaveSweep算法得到的優良峰形色譜峰比例最低,但不同算法和默認參數得到的優良峰形色譜峰比例相差幅度不大(lt;5%);對于尿液樣本,IPO算法得到的優良峰形色譜峰比例最低,但相差幅度與代謝物標準品樣本類似,考慮到區分模型的準確率為93.5%,可認為兩種優化算法及默認參數得到的優良峰形色譜峰比例并沒有差異。

值得注意的是,無論是優化參數算法,還是默認參數,其優良峰形色譜峰比例均較低(lt;60%)。雖然兩種優化算法相比于默認參數得到的優良峰形色譜峰的比例并無差異,但經過優化參數算法后得到的色譜峰完整性指標(色譜峰最大邊界比值)在不同的數據集上均顯著優于默認參數(Wilcoxtest,plt;2.2×10–16),說明優化算法通過調整最小色譜峰寬和最大色譜峰寬可顯著提高色譜峰的完整性。

2.3不同算法的可信峰和可重復色譜峰比例及標準品代謝物檢測數量比較

將XCMSonline默認參數與IPO和centWaveSweep算法優化后得到的參數代入centWave算法進行峰檢測,通過比較精確質量數和保留時間(MTBLS1572資源頁面上的metadata數據),得到不同參數下可檢測到的代謝物標準品數量。在默認參數下沒有得到丁?;?L-肉堿(Butyryl-L-carnitine)和泛酸(Pantothenicacid);經IPO參數優化后沒有得到精氨酸琥珀酸(Argininosuccinicacid)、泛酸(Pantothenicacid)和脫氧胞苷(Deoxycytidine);centWaveSweep參數優化后沒有得到乙酰-L-谷氨酸(Acetyl-L-glutamicacid)、精氨酸琥珀酸(Argininosuccinicacid)、脫氧胞苷(Deoxycytidine)和泛酸(Pantothenicacid)。采用推薦參數可以檢測到最多的化合物,而centWaveSweep算法得到的參數可檢測到的代謝物最少,這可能由于在代謝物濃度較低的情況下,其預過濾參數過高而導致低濃度代謝物由于峰強度小而直接被過濾。

如圖3A所示,在默認參數下,代謝物標準品樣本可信色譜峰數量為1377,共得到10557個峰,可信色譜峰比例為13.0%;經過IPO算法優化參數后,可信色譜峰數量由1377提高到1481,而色譜峰總數由10557下降到9196,可信峰比例為16.1%;centWaveSweep算法由于預過濾參數過高而使得較多色譜峰被過濾,可信色譜峰數量為1349,色譜峰總數為8563,可信色譜峰比例為15.7%。在默認參數下,尿液樣本共得到80208個色譜峰,可信色譜峰數量為17954,可信色譜峰比例為22.3%;經過IPO算法優化參數后,可信色譜峰數量由17954提高到18896,色譜峰總數由80208下降到77735,可信色譜峰比例為24.3%;centWaveSweep算法同樣由于預過濾參數過高而導致很多色譜峰被過濾,可信峰色譜數量為5053,色譜峰總數為15263,可信峰比例為33.1%。

如圖3B所示,在默認參數下,代謝物標準品樣本的可重復色譜峰比例為86.9%;經過IPO算法優化參數后,可重復色譜峰比例提升為90.9%;經過centWaveSweep算法優化參數后,可重復色譜峰比例提升到91.7%。在默認參數下,尿液樣本可重復色譜峰比例為63.5%;經過IPO算法優化參數后,可重復色譜峰比例略微提升,為64.8%;經過centWaveSweep算法優化后,可重復色譜峰比例大幅提升至78.0%。

總體而言,經過IPO和centWaveSweep算法優化后的參數,可信色譜峰比例和可重復色譜峰比例這兩個常規評價指標比默認參數均有不同程度的提升。值得注意的是,在經過centWaveSweep算法優化后,所得到的峰檢測參數雖然使得可信色譜峰的比例高于默認參數(尤其是在特定情況下,例如在尿液樣本中該比例顯著增加),但相較之下,保留的特征峰和檢測出的化合物種類數量反而減少,這可能與算法采用峰面積相對于標準偏差進行參數優化的方法有關。

2.4基于3種評價指標評價參數優化算法的局限性

IPO和centWaveSweep兩種優化算法的基本原理均是采用不同的實驗設計(Designofexperiments,DoE),根據某一指標對centWave算法的參數進行優化。其中,IPO采用Box-Behnken實驗設計,隨著需要調節的參數增多,算法運行時間呈指數級增加,該算法基于同位素離子數量進行優化,可能會引入過多的噪聲峰;centWaveSweep采用簡單的孤立因子設計,實驗次數顯著減少,但當各參數交互影響較大時,可能得不到最好的參數組合。此外,centWaveSweep算法根據峰面積的RSD進行優化,將會導致預過濾參數明顯提高,可能會過濾掉某些低濃度但有顯著改變的代謝物。

經過IPO和centWaveSweep算法優化后的參數,在代謝物標準品樣本和尿液樣本中,可信色譜峰比例和可重復色譜峰比例比默認參數均有不同幅度提升。然而,這兩種優化算法與默認參數相比,其優良峰形色譜峰比例在不同類型樣本中并無明顯差異。此外,不論是優化后參數,還是默認參數,其比例都相對較低(lt;60%)。由算法的基本原理可知,優化的標準并不包括色譜峰峰形,所以優良峰形色譜峰比例與默認參數相比并無明顯差異。

在代謝組學實際應用過程中,非優良峰形色譜峰由于峰形較差(如多重峰和不完整峰等),不適合繼續作為潛在生物標志物繼續進行分析。兩種參數優化算法均產生了大量非優良峰形色譜峰(優良峰形色譜峰比例均低于60%),這樣可能會導致下游的分析會降低檢驗效能,或由于潛在特征峰無法準確積分而產生假陽性結果[18]。

3結論

本研究比較了IPO和centWaveSweep兩種峰檢測優化算法對centWave參數優化的效果。結果表明,兩種優化算法在可信色譜峰比例和可重復色譜峰比例方面均比XCMSOnline默認參數取得了更好的優化結果。通過建立區分峰形優劣的機器學習模型,發現兩種算法得到的優化后參數與默認參數相比,優良峰形色譜峰比例并無明顯差異,并且優良峰形色譜峰比例較低。過多的不良峰形色譜峰可能會降低下游統計分析的檢驗效能,或由于潛在特征峰無法準確積分而產生假陽性結果。本研究結果提示在現有參數優化算法改進或新的算法開發過程中,可能需要將峰形優劣作為評價指標,并且在代謝組學具體實踐過程中需要對得到的潛在生物標志物進一步確認。

主站蜘蛛池模板: 欧美日韩一区二区在线免费观看| 亚洲国产日韩视频观看| 欧美日本在线一区二区三区| 亚洲资源站av无码网址| 日韩在线1| 久久永久视频| 一级毛片在线播放| 国产资源站| 久久a毛片| 97人妻精品专区久久久久| 久久精品亚洲专区| 亚洲最大情网站在线观看| 欧美在线网| 亚洲天堂免费在线视频| 国产精品久久久久久久伊一| 国产精品hd在线播放| 国产视频入口| 国产成人区在线观看视频| 99视频精品全国免费品| 狠狠色狠狠综合久久| 亚洲美女久久| 久久人人妻人人爽人人卡片av| 亚洲自拍另类| 日本久久网站| 第九色区aⅴ天堂久久香| 欧美日韩第二页| 亚洲一区第一页| 国产精品亚洲片在线va| 亚洲黄色视频在线观看一区| 久久国产精品嫖妓| 99r在线精品视频在线播放| 久久精品免费看一| 色播五月婷婷| 亚洲美女一级毛片| 99精品热视频这里只有精品7| 伊人久久精品无码麻豆精品 | 国产成人超碰无码| 亚洲性视频网站| 波多野结衣久久精品| 婷婷在线网站| 国产精品太粉嫩高中在线观看| 欧美性久久久久| 久视频免费精品6| 国产精品久久久久久久久久久久| 亚洲AV永久无码精品古装片| 国产精品视频第一专区| 精品少妇人妻一区二区| 色AV色 综合网站| 亚洲人成日本在线观看| 一本大道AV人久久综合| 欧美伦理一区| 欧美一级高清片欧美国产欧美| 99re热精品视频中文字幕不卡| 亚洲AV成人一区国产精品| 一级成人a毛片免费播放| 国产成人艳妇AA视频在线| 亚洲三级a| 亚洲AV无码一区二区三区牲色| 国产精品视频白浆免费视频| 91久久天天躁狠狠躁夜夜| 日韩精品无码免费专网站| 538国产在线| 国产精品大白天新婚身材| 国内老司机精品视频在线播出| 欧美激情综合一区二区| 国产免费久久精品99re不卡| 久久精品嫩草研究院| 思思热精品在线8| 欧美精品v欧洲精品| 无码福利日韩神码福利片| 97se亚洲综合在线天天| 精品1区2区3区| 最新日本中文字幕| 99精品在线视频观看| 亚洲动漫h| 99精品国产自在现线观看| 亚洲三级成人| 国产精品开放后亚洲| 99在线视频免费观看| 中文字幕无码中文字幕有码在线| 国产成人8x视频一区二区| 伊人AV天堂|