謝媛媛,蘇加坤,應旭輝,羅娟敏,王義明,邵燈寅,羅國安,蔡繼寶*
(1.清華大學 化學系,北京 100084;2.江西中煙工業有限責任公司,江西 南昌 330096; 2.珠海清大弘瑞生物科技有限公司,廣東 珠海 519085)
?
研究報告
基于人工智能技術的煙氣暴露大鼠代謝生物標志物篩選方法研究
謝媛媛1,蘇加坤2,應旭輝1,羅娟敏2,王義明3*,邵燈寅2,羅國安1,蔡繼寶2*
(1.清華大學 化學系,北京 100084;2.江西中煙工業有限責任公司,江西 南昌 330096; 2.珠海清大弘瑞生物科技有限公司,廣東 珠海 519085)
該研究將主成分分析、偏最小二乘判別分析等多元統計分析方法用于煙草血漿、尿液和肺組織代謝組學數據的分析,以揭示暴露于不同煙氣中大鼠血漿、尿液和肺組織中內源性生物標志物的整體變化情況,篩選潛在生物標志物;將血樣、尿樣和肺組織代謝輪廓譜分析得到的生物標志物進行整合,運用神經模糊網絡模型對標志物進行縮減,并用人工神經網絡評價模型預測能力,確定煙氣暴露不同時間(7,14,30 d)以及不同煙氣暴露對大鼠內源性代謝物變化影響“因果效應”密切相關的關鍵生物標志物群,明確不同煙氣對大鼠機體損傷機制的異同。
人工神經網絡;模糊邏輯;代謝組學;煙氣暴露;關鍵生物標志物群
代謝組學是表征生物體內源性代謝物的整體及其受內在或外在因素影響的科學,采用恰當的數據分析方法,從基于質譜或核磁共振波譜的代謝組學研究中獲取的內源性小分子化合物的“海量”信息中發掘有用信息是代謝組學研究的重要內容之一[1-2]。
多元數據分析技術是目前代謝組學研究中的常用方法,但主成分分析(PCA)、偏最小二乘(PLS)和偏最小二乘判別分析(PLS-DA)等目前廣泛應用的數據處理技術對多類(類別≥3)樣本進行同時分類和預測的能力較差,限制了代謝組學研究在臨床疾病診斷或療效評價上的應用。此外,通過質譜檢測得到的代謝物的質譜響應變化與真實濃度及其最終的生理變化之間是非線性的關系,而目前常用的多元統計分析技術多為線性的數據處理方法,勢必會造成有用信息的丟失,得到錯誤結果。針對這些問題,學者們開始探索新的數據分析技術。目前支持向量機(SVM)[3]、模糊c均值(Fuzzy c-means)[4]和人工神經網絡(ANN)[5]等不同特點和功能的數據處理方法均已被用于代謝組學的研究,在一定程度上改善了分類結果模糊的問題,并應用于很多醫藥領域,例如藥物制劑、臨床疾病診斷等[6-7]。被稱為“灰箱”模型(Grey box model)的神經模糊邏輯(Neurofuzzy logic)[8],結合了神經網絡的適應性學習能力和模糊邏輯(Fuzzy logic)的普遍表達能力,可用以解釋輸出變量得到的過程,在一定程度上解決了神經網絡的“黑箱”問題。
本研究結合神經模糊邏輯和神經網絡模型各自的優勢,提出“運用神經模糊邏輯模型對潛在生物標志物進行縮減,并用人工神經網絡對模型預測能力進行評價”的代謝組學生物標志物發現方法,對前期煙氣暴露大鼠血漿、尿液和肺組織代謝輪廓譜分析獲取的生物標志物進行整合分析,篩選了不同煙氣暴露對大鼠內源性代謝物變化影響“因果效應”密切相關的關鍵生物標志物群,以期明確不同煙氣對大鼠機體損傷機制的異同。
1.1 試劑與儀器
LC-MS級乙腈和HPLC級甲醇購自美國Fisher公司,甲酸購自Acros公司(純度98%,比利時)。亮氨酸-腦啡肽(純度≥97%,Leucine-enkephalin,LE)標準品購于Sigma公司。超純水(18.2 MΩ)由本實驗室Milli-Q超純水系統(Millipore,Bedford,MD,USA)制備。Waters AcquityTM超高效液相色譜系統(Waters,Millford,MA,USA),配備高壓二元梯度泵、可控溫自動進樣器(最低4 ℃)和二極管陣列檢測器。質譜檢測器為Waters Premier TOF飛行時間質譜儀(Waters,Millford,MA,USA),配有ESI電離源接口和Lock-spray接口。
1.2 動物實驗及樣本分析前處理
1.2.1 動物實驗 90只Wistar大鼠分成 3組(對照組、吸食普通卷煙組和吸食某品牌卷煙組),每組30只,每組再分成3個小組,每個小組10只,分別煙氣暴露7,14,30 d。普通卷煙和吸食某品牌卷煙組均由江西中煙工業有限責任公司提供。煙氣暴露在特制的裝置內進行。每只大鼠每天分別暴露20 min,吸煙時煙氣濃度采用阻擋法,阻擋率設置為70%,控制溫度為(22±2)℃,濕度保持在(21±0.5)%,氧氣濃度保持在(21±0.5)%,壓力為(101 325±40)Pa。在煙氣暴露7,14,30 d時,給大鼠稱重,在代謝籠中收集大鼠24 h的尿液,經麻醉后在肝門靜脈處取血約6~8 mL,放入經肝素鈉處理過的 10 mL 離心試管中,迅速在3 000 r/min下離心10 min,取上層血漿。各生物樣品在-80 ℃下保存。同時取大鼠肺組織,用生理鹽水洗凈并用濾紙吸干水分,稱重,于-80 ℃下保存。
1.2.2 生物樣本前處理 取凍融后的樣品100 μL,加入400 μL甲醇,渦旋1 min,充分混勻以沉淀蛋白,之后在4 ℃下13 000 r/min離心15 min,取上清液并加入300 μL超純水稀釋,用0.22 μm濾膜過濾。
取凍融后的肺組織樣品,按1∶3(g/mL)加入生理鹽水進行勻漿。取200 μL勻漿液,加入600 μL甲醇,渦旋2 min,4 ℃下10 000 r/min離心15 min,取上清液過0.22 μm濾膜。
質量控制(QC)樣品的制備:將煙氣暴露14 d的所有待測大鼠血漿樣本取出等量部分混合均勻后,按樣品處理方法處理;尿樣、肺組織QC樣品的制備同血漿樣本。
1.3 UPLC/Q-TOF-MS測定條件
色譜分離采用Waters公司AcquityTM-BEH C18反相分析柱(100 mm×2.1 mm,1.7 μm i.d.,Waters,MA,USA),柱溫為40 ℃,流速為0.4 mL/min。自動進樣器溫度設定4 ℃,每次進樣4 μL。流動相:A為純乙腈;B為0.1%甲酸水溶液,采用梯度洗脫方式洗脫樣品,各樣品梯度設置如下:①血樣:0~3 min,5%~50%A;3~7 min,50%~60%A;7~10 min,60%~70%A;10~14 min,70%~95%A;14~17 min,95%A;17~19 min,95%~5%A;19~24 min,5%A;②尿樣:0~8 min,5%~50%A;8~10 min,50%~95%A;10~13 min,95%A;13~15 min,95%~5%A;15~19 min,5%A;③肺組織:0~2 min,20%~55%A;2~11 min,55%~75%A;11~12 min,75%~95%A;12~15 min,95%A;15~16 min,95%~20%A;16~19 min,20%A。
質譜為電噴霧離子源(ESI),分析采用V模式,在負離子模式下采集數據。檢測參數設置如下:脫溶劑氣流量600 L/h,脫溶劑氣溫度350 ℃,錐孔氣流量40 L/h,離子源溫度120 ℃,毛細管電壓2 500 V,錐孔電壓30 V。質譜掃描范圍為100~1 500m/z,掃描時間0.2 s,掃描間隔0.02 s。采用2 ng/mL亮氨酸-腦啡肽(Leucine-enkephalin,LE)溶液為鎖定質量校準液進行實時質量校正,質量校準選擇“DRE”模式,流速2 μL/min。質量軸校準采用甲酸鈉溶液(0.05 mol/L)進行。
1.4 數據處理
質譜數據處理采用Waters公司Markerlynx軟件(Waters,MA,USA)進行色譜峰自動識別和峰匹配,然后將所得數據導入SIMCA-P軟件(Umetrics AB,Ume.,Sweden)進行多元統計分析。采用PCA觀察樣本的聚集、離散狀態以及離群點。采用有監督的PLS-DA判定造成這種聚集和離散的主要差異變量,根據變量權重值(VIP)找到與吸煙密切相關的差異表達代謝物。運用MassLynx軟件中的i-Fit功能,對所篩查到的具有差異的代謝物進行分析,計算其可能的分子式,再結合得到的精確質量數,在數據庫(如KEGG,http://www.genome.jp;HMDB,http://www.hmdb.ca)中檢索以鑒定標志物。
1.5 人工神經網絡
將代謝組學研究獲取的血漿、尿液和肺組織中潛在生物標志物的數據及其包含的樣本按組別順序排列,屬于同一組別的樣本有同樣的組別號,然后將代謝組學數據中的代謝物信息定義為輸入變量(全局變量),將樣本的組別號定義為輸出變量;使用模糊邏輯和神經網絡的軟件FormRules(Intelligensys Ltd,UK),對所有數據進行分析,建立模糊邏輯模型(NeuroFuzzy logic model),篩選出對模型建立貢獻較大的變量集合(縮減變量),采用人工神經網絡軟件INForm(Intelligensys Ltd,UK)建立人工神經網絡模型(ANN model),比較全局變量與縮減變量的預測準確率,當縮減變量與全局變量的準確率相當時,認為縮減變量集合可以代表全局變量的信息,即為潛在生物標志物[9]。
2.1 代謝輪廓譜分析結果[10-11]
運用液相色譜-質譜聯用技術的代謝組學方法研究了含有天然本草添加劑卷煙對大鼠代謝的影響。分別分析了煙氣暴露7,14,30 d時空白組大鼠、吸食普通卷煙大鼠及吸食含有天然本草添加劑的某品牌卷煙大鼠的血漿、尿液和肺組織樣本,并采用偏最小二乘判別分析(PLS-DA)對數據進行模式識別,分別獲取能夠表征各煙氣暴露時期大鼠血漿、尿液和肺組織損傷程度的潛在生物標志物,如表1所示。

表1 煙氣暴露大鼠血漿、尿液和肺組織中損傷生物標志物
(續表1)

No.Potentialbiomarkers(trend)RelatedpathwaySample13Methylhippuricacid(↑)?Fattyacidbeta?oxidationUrine14Cresolsulfuricacid(↓)Urine15Benzoylphosphoricacid(↑)EnergymetabolismUrine16LysoPE(16∶0/0∶0)(↑)PhospholipidmetabolismLung17LysoPC(16∶0)(↓)?PhospholipidmetabolismLung1820?Hydroxyeicosatetraenoicacid(↑)ArachidonicacidmetabolismLung19PG(18∶3/20∶3)(↓)PhospholipidmetabolismLung20Palmitoleicacid(↑)?FattyacidsmetabolismLung21Docosahexaenoicacid(↑)FattyacidsmetabolismLung22Arachidonicacid(↑)?ArachidonicacidmetabolismLung23Linoleicacid(↓)?LinoleicacidmetabolismLung24Docosapentaenoicacid(↓)FattyacidsmetabolismLung25Palmiticacid(↑)?FattyacidsmetabolismLung26Oleicacid(↑)?FattyacidsmetabolismLung
“↑”:up regulated;“↓”:downregulated,compared with normal control group;* :confirmed with reference substances
2.2 神經模糊網絡模型參數的優化
為了得到最優的縮減模型,找出重要的標志物,需對模型參數進行優化,以煙氣暴露7 d的樣品為例(圖1),通過對交叉驗證(CV)、結構風險最小化(SRM)、留一驗證(LOOCV)、貝葉斯信息標準(BIC)和最小描述長度(MDL)等模型參數進行優化,其中Model-2(SRM模型)和Model-5(MDL模型)得到了相同的縮減標志物,且R2值均為最高,說明通過本模型得到的5個縮減生物標志物可表征煙氣暴露7 d時對大鼠內源性代謝物的損傷。





圖1 煙氣暴露7 d大鼠血液生物標志物的神經模糊網絡模型參數優化
2.3 神經模糊網絡模型的建立及人工神經網絡對模型預測能力的評價
2.3.1 煙氣暴露7 d生物標志物的ANN分析結果 煙氣暴露7 d標志物縮減神經網絡模糊模型給出了5個重要標志物,其變量貢獻率為所有標志物的98.91%。該5個標志物是血x2、血x5、血x7、肺x11、尿x1,分別為花生四烯酸、油酸、LysoPC(20∶4)、PG(18∶3/20∶3)和檸檬酸。從subModel-1的規則來看,血漿中生物標志物油酸的水平與尿液中生物標志物檸檬酸的水平和肺組織中磷脂類生物標志物PG(18∶3/20∶3)的水平具有相關性,對分組(Y)有貢獻。從模型預測結果來看,所有變量集平均R2為85.1,縮減變量集平均R2為88.4,因此縮減變量略優于所有變量。
2.3.2 煙氣暴露14 d標志物的ANN分析結果 煙氣暴露14 d標志物縮減神經網絡模糊模型給出了6個重要標志物,其變量貢獻率為所有標志物的93.71%。該6個標志物是血x2、血x5、肺x10、肺x11、尿x1和尿x4,分別為花生四烯酸、油酸、二十二碳五烯酸、PG(18∶3/20∶3)、檸檬酸和3-羥基-3甲基-2-羥基吲哚。與煙氣暴露7 d的縮減變量相比,少了1個LysoPC(20∶4),而多了二十二碳五烯酸和3-羥基-3-甲基-2-羥基吲哚。前者是亞麻酸的氧化產物,組織受損后含量減少,與多種疾病(如冠心病、糖尿病)相關;后者的含量在吸煙組中均有不同程度降低,其降低與氧化損傷相關,可能是煙氣暴露14 d后體內氧化損傷程度進一步加重。從模型預測結果來看,所有變量集平均R2為89.4;縮減變量集平均R2為88.1,縮減變量與所有變量相當。
2.3.3 煙氣暴露30 d標志物的ANN分析結果 煙氣暴露30 d標志物縮減神經網絡模糊模型給出了7個重要標志物,其變量貢獻率為所有標志物的96.05%。該7個標志物是血x2、血x3、血x6、肺x10、尿x1、尿x2和尿x3,分別為花生四烯酸、LysoPC(16∶0)、LysoPC(18∶2)、二十二碳五烯酸、檸檬酸、去氫抗壞血酸和磷酸胍基乙酸。根據subModel-3的規則來看,血漿中生物標志物花生四烯酸的水平與尿液中生物標志物檸檬酸的水平具有相關性,對分組(Y)有貢獻。根據subModel-4的規則來看,血漿中生物標志物LysoPC(18∶2)的水平與肺組織中生物標志物二十二碳五烯酸的水平具有相關性,對分組(Y)有貢獻。從模型預測結果來看,所有變量集平均R2為96.6;縮減變量集平均R2為95.81,縮減變量與所有變量相當。
將在不同煙氣下暴露7,14,30 d的血樣、尿樣和肺組織代謝輪廓譜分析得到的生物標志物進行整合,運用神經模糊網絡模型對標志物進行縮減,并用人工神經網絡對模型預測能力進行評價,得到煙氣暴露不同時間(7,14,30 d)與不同煙氣暴露對大鼠內源性代謝物變化影響“因果效應”密切相關的關鍵生物標志物群,如表2所示。

表2 各生物樣品標志物的ANN篩選結果
本研究采用模糊邏輯算法對煙氣暴露不同時間的代謝輪廓譜數據進行分析,建立了模糊神經網絡模型,篩選出對模型建立貢獻較大的變量,采用人工神經網絡模型通過預測準確率的比較判斷縮減后的變量集合是否可代表所有變量的信息。如表2所示,在不同時間點得到的縮減生物標志物不盡相同,推測可能與煙氣暴露時間不同,對實驗動物病理生理狀態的損傷程度不同,反映在實驗動物代謝表型亦不相同有關。對不同時間點樣本進行數據處理時找到的不同的關鍵生物標志物可能會為煙氣損傷機體病理毒理過程的闡釋提供一定的參考。
在血漿樣本中得到了多個磷脂代謝相關的標志物,已有文獻報道吸煙會引起磷脂降解[10,12],體內磷脂代謝異??赡芘c煙氣中氧化性物質的吸入對機體細胞膜、脂蛋白、脂質等產生影響有關[12-14],而磷脂代謝的異常會增加心血管疾病的風險[15],特別是花生四烯酸水平的升高是心血管疾病的重要標志之一[16],同時也是機體發生炎癥反應的重要標志之一[12],而炎癥的發生與心血管疾病、癌癥等疾病相關[17-18]。在尿液中得到了一些與能量代謝相關的標志物,其中磷酸胍基乙酸是體內合成肌酸的主要內源性物質,而肌酸是細胞內能量新陳代謝的重要分子和能量暫時存儲的場所[19]。磷酸胍基乙酸和檸檬酸在體內的水平降低說明吸煙對大鼠的能量代謝有一定的影響。
本研究基于液相色譜-質譜聯用技術構建了大鼠暴露于不同卷煙煙氣中7,14,30 d時血漿、尿液及煙氣損傷的主要靶組織——肺組織的代謝輪廓譜,表征了不同煙氣對大鼠內源小分子代謝物組的影響。采用并結合神經模糊邏輯和神經網絡模型各自的優勢,提出了“運用神經模糊邏輯模型對潛在生物標志物進行縮減,并用人工神經網絡對模型預測能力進行評價”的代謝組學生物標志物發現方法。發現了與吸煙危害密切相關的代謝生物標志物,揭示吸煙可引起炎癥反應和氧化損傷等機體損傷。采用人工神經智能技術對不同時間點代謝輪廓譜分析的標志物進行聚焦和篩選,得到不同生物標志物。人工神經網絡篩選到的變量不只是根據某一種物質的含量變化,更重要的是考慮了變量之間的相互作用,因此對于人工智能技術尋找到的標志物,不僅要對每一個標志物進行定量,還需對該標志物集合的所有代謝物進行研究,以尋找變化規律。本文通過人工神經智能技術找到了煙氣暴露不同時間區分不同煙氣暴露組的關鍵生物標志物,后續研究中尚需對這些關鍵生物標志物及其所在代謝循環中與它們關系密切的生物標志物精確定量分析,以期為煙氣損傷機體病理毒理過程的闡釋提供一定的參考。
[1] Luo G A,Wang Y M ,Liang Q L ,Liu Q F.SystemsBiologyforTraditionalChineseMedicine.Beijing:Science Press(羅國安,王義明,梁瓊麟,劉清飛.中醫藥系統生物學.北京:科學出版社),2010.
[2] Luo G A,WangY M,Liang Q L,Liu Q F.SystemsBiologyforTraditionalChineseMedicine(P512).Hoboken:John Wiley & Sons,Inc.2012.
[3] Bullinger D,Fr?hlich H,Klaus F,Neubauer H,Frickenschmidt A,Henneges C,Zell A,Laufer S,Gleiter C H,Liebich H,Kammerer B.Anal.Chim.Acta,2008,618(1):29-34.
[4] Li X,Lu X,Tian J,Gao P,Kong H,Xu G.Anal.Chem.,2009,81(11):4468-4475.
[5] Shao Q,Rowe R C,York P.Eur.J.Pharm.Sci.,2006,28(5):394-404.
[6] Bourquin J,Schmidli H,van Hoogevest P,Leuenberger H.Pharm.Dev.Technol.,1997,2(2):111-121.
[7] Khan J,Wei J S,Ringnér M,Saal L H,Ladanyi M,Westermann F,Berthold F,Schwab M,Antonescu C R,Peterson C,Meltzer P S.Nat.Med.,2001,7(6):673-679.
[8] Xie Y Y,Li L,Shao Q,Wang Y M,Liang Q L,Zhang H Y,Sun P,Qiao M Q,Luo G A.RSCAdv.,2015,5:75111.
[9] Xia J F.ResearchandApplicationofNewMetabolomicsMethodsontheBasisofLiquidChromatographyTandemMassSpectrometry.Shanghai:East China University of Science(夏建飛.基于液質聯用技術的代謝組學新方法的研究與應用.上海:華東理工大學),2010.
[10] Su J K,Ying X H,Luo J M,Wang Y M,Xu D,Luo G A,Cai J B.J.Instrum.Anal.(蘇加坤,應旭輝,羅娟敏,王義明,徐達,羅國安,蔡繼寶.分析測試學報),2016,35(12):1521-1527.
[11] Ying X H,Su J K,Xie Y Y,Wang Y M,Luo J M,Luo G A,Guo L,Cai J B.J.Chin.MassSpectrom.Soc.(應旭輝,蘇加坤,謝媛媛,王義明,羅娟敏,羅國安,郭磊,蔡繼寶.質譜學報 ),2017,in printing.
[12] Vulimiri S V,Misra M,Hamm J T,Mitchell M,Berger A.Chem.Res.Toxicol.,2009,22(3):492-503.
[13] Kaplan M,Aviram M.Clin.Chem.Lab.Med.,1999,37(8):777-787.
[14] Vayssier-Taussat M,Camilli T,Aron Y,Meplan C,Hainaut P,Polla B S,Weksler B.Am.J.Physiol.HeartCirc.Physiol.,2001,280(3):H1293-H1300.[15] Lu Z L.Chin.J.Cardiol.(陸宗良.中華心血管病雜志),2001,29(5):62-64.
[16] Yalcin M,Aydin C.Clin.Exp,Pharmacol,Physiol.,2009,36(4):447-453.
[17] Coussens L M,Werb Z.Nature,2002,420(6917):860-867.
[18] Willerson J T,Ridker P M.Circulation,2004,109(21 Suppl 1):I2-I10.
[19] Wang L S,Zhang Y Y,Shan A S.Chin.Anim.Husband.Vet.Med.(王連生,張圓圓,單安山.中國畜牧獸醫),2010,37(6):13-16.
Study on Screening of Cigarette Smoke Exposure Biomarkers for Rat′s Metabolites on the Basis of Artificial Intelligence Technologies
XIE Yuan-yuan1,SU Jia-kun2,YING Xu-hui1,LUO Juan-min2,WANG Yi-ming3*,SHAO Deng-yin2,LUO Guo-an1,CAI Ji-bao2*
(1.Department of Chemistry,Tsinghua University,Beijing 100084,China;2.Tobacco Jiangxi Industrial Co.,Ltd.,Nanchang 330096,China;3.Zhuhai QingdaHongrui Biotechnology Co.,Ltd.,Zhuhai 519085,China)
Multivariate statistical analysis methods,principal component analysis and partial least square discrimination analysis,were applied in this study for the data mining of cigarette smoke exposure metabolomics on plasma,urine and lung samples,in order to characterize the holistic influences of cigarette smoke exposure,and screen potential biomarkers.The screened biomarkers obtained from the metabolic profiling analysis on plasma,urine and lung were integrated and reduced by neurofuzzy logic.The predictability of the established model with this focused biomarkers were evaluated by artificial neural networks.Key biomarkers were closely related to different smoke exposure time(7,14,30 days),and different kinds of cigarette smoke exposure on the endogenous metabolites in rats were found in this study,and the damage mechanism of cigarette smoke exposure on rat′s organism was discussed.
artificial neural networks;neurofuzzy logic;metabolomics;cigarette smoke exposure;key biomarkers
2016-11-14;
2016-12-25
中國煙草總公司重大專項項目(110201401025(JH-03))
10.3969/j.issn.1004-4957.2017.06.001
O657.63;Q411
A
1004-4957(2017)06-0705-06
*通訊作者:王義明,教授,研究方向:生命分析化學,Tel:010-62781688,E-mail:wangyiming1688@163.com 蔡繼寶,研究員,研究方向:煙草化學,Tel:0791-88286946,E-mail:jbcai@ustc.edu.cn