趙景維,朱虹霓,曹 藝,黃晉卿
(1.香港科技大學(xué)深圳研究院,廣東 深圳 518057;2.湖北師范大學(xué) 先進(jìn)材料研究院,湖北 黃石 435002)
長期的壓力會導(dǎo)致身體內(nèi)與壓力相關(guān)的生物標(biāo)志物一直保持在很高的水平,可能會增加長期焦慮和抑郁的風(fēng)險[1, 2]。在血液中,與壓力相關(guān)的生物標(biāo)志物包括皮質(zhì)醇、腎上腺素、睪酮等應(yīng)激激素[3]。其中,腎上腺素還與睪酮的分泌相關(guān),這使得血液中腎上腺素濃度的監(jiān)測能帶來更多的壓力相關(guān)信息[3]。此外,血紅蛋白是一種將氧氣從肺部輸送到其他器官和組織以支持身體活動的蛋白質(zhì),是血液中與應(yīng)激激素共存的主要成分,分析這些與壓力相關(guān)的生物標(biāo)志物的濃度水平對于健康監(jiān)測和風(fēng)險評估具有重要的意義。
拉曼光譜法作為一種光學(xué)診斷技術(shù),可直接探測分子的化學(xué)鍵振動,具有快速的分析速度、可靠的結(jié)果以及無破壞性的特點[4]。近年來,人工智能算法被應(yīng)用到光譜分析領(lǐng)域中,顯著提高了數(shù)據(jù)處理效率和準(zhǔn)確度。但是,目前還沒有從水相混合物中定量分析多種生理指標(biāo)分子的工作。這是因為很多生物分子通常具有一些相似的振動基團(tuán),導(dǎo)致他們的光譜峰變寬和相互重疊[3]。例如,Kirsten Gracie等人利用位于1 611 cm-1的拉曼峰對血清中皮質(zhì)醇進(jìn)行定量分析[5],但這是一個經(jīng)常出現(xiàn)光譜峰重疊的區(qū)域[6]。因此,我們需要繼續(xù)研究更好的方法來識別和量化在接近生理條件下復(fù)雜混合物中的多種生理指標(biāo)分子。
皮質(zhì)醇 (≥99%)、L-腎上腺素 (≥99%)、血紅蛋白(凍干粉)和二甲基亞砜 (DMSO)(≥99.0%)購自 Sigma-Aldrich.皮質(zhì)醇、腎上腺素和血紅蛋白分別溶解在 5% 二甲基亞砜 (DMSO) 水溶液中,將這些儲備溶液以不同的體積比混合,制備得到566 組含有不同量皮質(zhì)醇、腎上腺素和血紅蛋白的樣品溶液。
使用共聚焦拉曼顯微鏡(in-Via,Renishaw,Gloucestershire,英國)采集光譜數(shù)據(jù)。樣品溶液放在 20 倍顯微鏡物鏡下,使用 514.5 nm,功率為 25 mW的激光進(jìn)行拉曼光譜測量。每次測量的采集時間為 20 秒,光譜重復(fù)10次測量進(jìn)行累積疊加。拉曼光譜掃描范圍為500 cm-1至2 000 cm-1,光譜分辨率為 1 cm-1.
原始拉曼光譜先進(jìn)行基線校正、去除宇宙射線和扣除溶劑背景的預(yù)處理,然后將全部光譜數(shù)據(jù)隨機(jī)分為兩組:將75%的數(shù)據(jù)作為訓(xùn)練集,將25%的數(shù)據(jù)作為測試集。訓(xùn)練集的光譜數(shù)據(jù)用來構(gòu)建多目標(biāo)人工智能算法模型,其中包含3個獨立的模型分別用來分析皮質(zhì)醇、腎上腺素和血紅蛋白的含量。調(diào)整每個獨立模型的超參數(shù),優(yōu)化生成評估指標(biāo)。
使用支持向量回歸(SVR)、決策樹(DT)、隨機(jī)森林(RF)和eXtreme Boost(XGBoost)建立多目標(biāo)回歸模型,對每一種生理指標(biāo)分子進(jìn)行含量分析,計算預(yù)測結(jié)果的判定系數(shù)(R2)和均方根誤差(RMSE)來評價性能。一般來說,R2的數(shù)值越高并且RMSE的數(shù)值越低代表模型的結(jié)果預(yù)測性能越好。由于多目標(biāo)回歸模型是由三個單目標(biāo)回歸變量構(gòu)建的,分別用于皮質(zhì)醇、腎上腺素和血紅蛋白的定量分析,因此本研究采用平均(R2)和平均RMSE來檢驗不同模型的整體準(zhǔn)確性。操作指南和源代碼分享于網(wǎng)絡(luò)數(shù)據(jù)庫:https://doi.org/10.14711/dataset/BP30DS.
圖1a)展示了含有不同濃度的皮質(zhì)醇、腎上腺素和血紅蛋白樣品溶液的三角形關(guān)系示意圖。圖中,位于三個角落處的圓形點代表只含有皮質(zhì)醇、腎上腺素或血紅蛋白的單一樣品溶液,位于三條邊緣的三角形點代表它們的二元混合樣品溶液,位于三角形內(nèi)的星形點代表它們的三元混合樣品溶液。圖1b)分別展示了通過這些數(shù)據(jù)處理后得到的皮質(zhì)醇(b1)、腎上腺素(b2)和血紅蛋白(b3)的拉曼光譜。在皮質(zhì)醇的拉曼光譜中,在1 609 cm-1處有一個明顯的峰,歸屬于C=C伸縮振動模式[7]。腎上腺素的光譜特征包含777 cm-1(NH彎曲)、1 290 cm-1(面內(nèi)環(huán)變形、脂肪族H-O-C-H彎曲和鏈扭曲的耦合)、1 468 cm-1(面內(nèi)環(huán)變形和CH彎曲的耦合)和1 609 cm-1(面內(nèi)環(huán)變形、環(huán)內(nèi)C-O-H彎曲和C=C拉伸的耦合)[6,8]。血紅蛋白光譜中的峰主要歸屬于其氧合狀態(tài)下的血紅素基團(tuán),顯示特征峰位于1 373 cm-1的對稱pyr半環(huán)拉伸,1 561 cm-1的CβCβ拉伸,1 582 cm-1的不對稱CαCm拉伸,1 609 cm-1的乙烯基C=C拉伸,1 637cm-1的不對稱CαCm拉伸[9]。如圖1b)中虛線標(biāo)記所示,皮質(zhì)醇、腎上腺素和血紅蛋白的拉曼特征峰在1 609 cm-1處重疊,這主要是來源于它們化學(xué)結(jié)構(gòu)中的C=C拉伸振動[6]。除此之外,皮質(zhì)醇、腎上腺素和血紅蛋白的其他光譜特征峰的強(qiáng)度較弱,增加了區(qū)分和量化各成分含量的難度。圖1c)展示了這些生理指標(biāo)分子在二元混合物和三元混合物溶液中的拉曼光譜。皮質(zhì)醇和腎上腺素(C1)、腎上腺素和血紅蛋白(C2)、皮質(zhì)醇和血紅蛋白(C3)、二元混合物(體積比為 1∶1)以及皮質(zhì)醇、腎上腺素和血紅蛋白(C4)三元混合物(體積比為 1∶1∶1)的光譜明顯變得更加復(fù)雜。值得注意的是,位于1 609 cm-1處的重疊峰出現(xiàn)了變寬和扭曲[6]。盡管拉曼光譜中包含了豐富的分子特征信息,但對于從多元混合物的水溶液中分別對皮質(zhì)醇、腎上腺素和血紅蛋白的進(jìn)行定量分析仍然具有挑戰(zhàn)性。

圖1 a)皮質(zhì)醇、腎上腺素和血紅蛋白的樣品三元圖;b)皮質(zhì)醇(b1)、腎上腺素(b2)和血紅蛋白(b3)的拉曼光譜圖;c)皮質(zhì)醇和腎上腺素(c1)、腎上腺素和血紅蛋白(c2)、皮質(zhì)醇和血紅蛋白(c3)的二元混合物以及皮質(zhì)醇、腎上腺素和血紅蛋白(c4)的三元混合物的拉曼光譜圖
分別使用支持向量回歸 (SVR)、決策樹 (DT)、隨機(jī)森林 (RF) 和 eXtreme Boost (XGBoost),可搭建出基于光譜信息的多目標(biāo)回歸模型,基于不同人工智能算法的模型進(jìn)行全面超參數(shù)優(yōu)化后,用于從混合物的拉曼光譜中分別分析皮質(zhì)醇、腎上腺素和血紅蛋白的含量。例如,通過支持向量回歸 (SVR) 來學(xué)習(xí)隨三種組分在不同體積比的光譜特征,可將如圖1c中所展示的混合拉曼光譜進(jìn)行多組分定量分析,結(jié)果如下:皮質(zhì)醇和腎上腺素的二元混合物拉曼光譜(C1)分析值為0.52∶0.49∶-0.01,真實值為0.50∶0.50∶0.00(皮質(zhì)醇:腎上腺素:血紅蛋白溶液體積比)、腎上腺素和血紅蛋白二元混合物拉曼光譜(C2)分析值為0.00∶0.53∶0.43,真實值為0.00∶0.50∶0.50(皮質(zhì)醇:腎上腺素:血紅蛋白溶液體積比)、皮質(zhì)醇和血紅蛋白的二元混合物拉曼光譜(C3)分析值為0.50∶0.06∶0.51,真實值為0.50∶0.00∶0.50(皮質(zhì)醇:腎上腺素:血紅蛋白溶液體積比)、皮質(zhì)醇、腎上腺素和血紅蛋白的三元混合物的拉曼光譜圖(C4)分析值為0.23∶0.43∶0.30,真實值為0.33∶0.33∶0.33(皮質(zhì)醇:腎上腺素:血紅蛋白溶液體積比)。圖2展示了四個模型的奇偶校驗圖,包括每個模型分別用于從混合物的拉曼光譜中分析皮質(zhì)醇、腎上腺素和血紅蛋白的含量時的預(yù)測值與真實值的所有數(shù)據(jù)點。在針對每個組分的分析散點圖中,橫坐標(biāo)代表從樣品溶液制備中獲知的各組分之間體積比的真實值,縱坐標(biāo)代表模型分析預(yù)測結(jié)果,圓形點代表從訓(xùn)練集的光譜數(shù)據(jù)分析中獲得的結(jié)果,三角形點代表從測試集的光譜數(shù)據(jù)分析中獲得的結(jié)果。在針對不同體積比的皮質(zhì)醇、腎上腺素和血紅蛋白的定量分析中,模型整體性能的良好程度由標(biāo)繪點沿對角線(方程y=x)的接近度定義,表明在每個數(shù)據(jù)點下模型的預(yù)測精度都非常高。紅色和綠色繪圖點之間的偏差越小,表明該模型對于訓(xùn)練集和測試集數(shù)據(jù)分析的通用性越高。顯然,在使用支持向量回歸(SVR)、隨機(jī)森林(RF)和eXtreme Boost (XGBoost)分析皮質(zhì)醇、腎上腺素和血紅蛋白的奇偶校驗圖中,大多數(shù)標(biāo)繪點位于奇偶校驗圖的對角線附近。但是,使用決策樹(DT)分析生成的標(biāo)繪點分散在整個奇偶校驗圖中,存在欠擬合的情況。

圖2 使用a)支持向量回歸 (SVR)、b)決策樹 (DT)、c)隨機(jī)森林 (RF)、d)eXtreme Boost (XGBoost) 在每個數(shù)據(jù)點下分別針對皮質(zhì)醇、腎上腺素和血紅蛋白的分析預(yù)測性能的奇偶校驗圖
通過計算確定系數(shù)R2和單種成分含量評估的均方根誤差RMSE的平均值,獲得每個模型的平均R2和平均RMSE作為評估指標(biāo)。因此,平均R2和平均RMSE的數(shù)值可以用來量化不同模型針對混合樣本溶液中三種成分含量分析的整體預(yù)測準(zhǔn)確性。其中,平均R2可以代表整體精度,而平均RMSE被視為多目標(biāo)回歸模型中的損失函數(shù),也可以用于最佳超參數(shù)組合選擇。從對于訓(xùn)練集和測試集的光譜數(shù)據(jù)分析結(jié)果來看,性能良好的模型應(yīng)該能獲得較高的平均R2值和較低的平均RMSE值。更重要的是,模型對于訓(xùn)練集和測試集的光譜數(shù)據(jù)分析而獲得的平均R2和平均RMSE之間的相似值可能暗示著模型的通用性。反之,若模型對于訓(xùn)練集和測試集的光譜數(shù)據(jù)分析而獲得的評估指標(biāo)之間存在巨大差異,則可能表明過度擬合或欠擬合。
表1和表2分別展示了使用支持向量回歸 (SVR)、決策樹 (DT)、隨機(jī)森林 (RF) 和 eXtreme Boost (XGBoost) 對于訓(xùn)練集和測試集的光譜數(shù)據(jù)針對混合物中皮質(zhì)醇、腎上腺素和血紅蛋白進(jìn)行定量分析而獲得的平均R2和平均RMSE.

表1 不同模型使用訓(xùn)練集進(jìn)行分析的評估指標(biāo)比較

表2 不同模型使用測試集進(jìn)行分析的評估指標(biāo)比較
其中,支持向量回歸(SVR)和隨機(jī)森林(RF)在對于訓(xùn)練集和測試集的光譜數(shù)據(jù)分析中都能獲得平均R2大于0.9的高數(shù)值,表明這兩種模型對成分含量分析的預(yù)測精度高于90%。此外,考慮到模型的通用性,本研究還比較了這兩種模型對于訓(xùn)練集和測試集的光譜數(shù)據(jù)分析而獲得的兩項評價指標(biāo)之間的絕對差異。使用支持向量回歸(SVR)對于訓(xùn)練集和測試集數(shù)據(jù)分析之間的平均R2的絕對差異(0.0207)小于使用隨機(jī)森林(RF)對于訓(xùn)練集和測試集數(shù)據(jù)分析之間的平均R2的絕對差異(0.0837),表明支持向量回歸(SVR)在平均R2方面的評估下可認(rèn)為是更通用的模型,可以很好地測量因變量與自變量的方差比例[10]。并且,使用支持向量回歸(SVR)對于訓(xùn)練集和測試集數(shù)據(jù)分析之間的平均RMSE的絕對差異(0.0147)小于使用隨機(jī)森林(RF)對于訓(xùn)練集和測試集數(shù)據(jù)分析之間的平均RMSE的絕對差異(0.0611)。就平均RMSE而言,支持向量回歸(SVR)是一種更通用的模型,它可以更好地做出與真實值誤差更小的準(zhǔn)確預(yù)測。根據(jù)總體評估數(shù)值,在本研究中,支持向量回歸(SVR)和隨機(jī)森林(RF)都可以被認(rèn)為是用于拉曼光譜分析的四種模型中最好的模型。
基于機(jī)器學(xué)習(xí)算法在分析混合物中皮質(zhì)醇、腎上腺素和血紅蛋白含量的性能表現(xiàn),光譜數(shù)據(jù)的多目標(biāo)回歸分析模型還可以繼續(xù)改進(jìn)。由于多目標(biāo)回歸模型是由三個獨立模型構(gòu)建的,同一種算法不一定對每種成分分析都能獲得最優(yōu)秀的預(yù)測性能,因此可以通過搭配不同種算法來分別針對不同目標(biāo)成分進(jìn)行分析,例如用支持向量回歸(SVR)來量化皮質(zhì)醇和血紅蛋白,搭配隨機(jī)森林(RF)來進(jìn)行腎上腺素的定量分析,最終提高針對所有目標(biāo)成分含量分析的預(yù)測準(zhǔn)確性。此外,因為深度學(xué)習(xí)算法通常優(yōu)于經(jīng)典機(jī)器使用更多數(shù)據(jù)學(xué)習(xí)算法,無需人工干預(yù)數(shù)據(jù)預(yù)處理[11]。搭建分析模型時還可以通過使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來獲得比支持向量回歸 (SVR) 更高的預(yù)測精度值,實現(xiàn)由于94%的多目標(biāo)組分含量分析準(zhǔn)確率。總體而言,由于三種與壓力相關(guān)的生理指標(biāo)分子的拉曼光譜數(shù)據(jù)具有高維復(fù)雜性以及微弱和重疊的光譜特征,需要搭建和優(yōu)化基于機(jī)器學(xué)習(xí)算法的多目標(biāo)回歸模型來針對每種組分進(jìn)行定量分析,將來可以結(jié)合更先進(jìn)的算法來進(jìn)一步改進(jìn)模型,實現(xiàn)更高的分析預(yù)測準(zhǔn)確率。
通過將拉曼光譜與機(jī)器學(xué)習(xí)相結(jié)合,建立多目標(biāo)回歸分析模型,可以實現(xiàn)在二元和三元水相混合物中針對每種與壓力相關(guān)的生理指標(biāo)分子進(jìn)行定量分析。在針對皮質(zhì)醇、與睪酮相關(guān)的腎上腺素、以及血紅蛋白的模型優(yōu)化和比較中,支持向量回歸 (SVR) 在對于訓(xùn)練集的光譜數(shù)據(jù)分析中獲得平均R2的最高值0.9352和平均RMSE的最低值0.0826,特別適合針對皮質(zhì)醇和血紅蛋白的含量分析。使用隨機(jī)森林 (RF) 可以獲得0.9003的平均R2和0.1013的平均RMSE,也具有優(yōu)秀的分析預(yù)測性能,尤其適合針對腎上腺素的含量分析。構(gòu)建的分析模型還可以通過結(jié)合不同的機(jī)器學(xué)習(xí)算法并添加額外的組件來得到進(jìn)一步的改進(jìn),比如通過使用卷積神經(jīng)網(wǎng)絡(luò) (CNN) 來獲得比支持向量回歸 (SVR) 更高的預(yù)測精度值,實現(xiàn)由于94%的多目標(biāo)組分含量分析準(zhǔn)確率。結(jié)果表明,盡管與壓力相關(guān)的生理指標(biāo)分子具有重疊的光譜特征,通過拉曼光譜和多目標(biāo)回歸機(jī)器學(xué)習(xí)算法的結(jié)合,可以實現(xiàn)在二元和三元混合水溶液中針對每種生物標(biāo)志物的準(zhǔn)確量化,有望解決多目標(biāo)成分光譜定量分析的難題,將來在健康監(jiān)測的應(yīng)用中發(fā)揮關(guān)鍵性作用。