蘇仲端
(廣東工業大學信息工程學院,廣州 510006)
嗅覺感知是嗅覺系統對氣體分子進行加工編碼的結果[1],氣味分子通過與嗅上皮不同的嗅覺受體進行特異性結合,將外界刺激轉化為動作電位,經過神經網絡傳遞給大腦。然而,生物嗅覺系統復雜的運行機制使嗅覺研究的進展緩慢,多年以來,我們無法通過一個給定的氣味分子來預測該氣味的味道。以洛克菲勒大學的Andreas Keller為領導的團隊于2015年開展了一個名為“夢想嗅覺預測挑戰賽”(The DREAM Olfaction Prediction Challenge)的比賽,其中官方給定了476種氣味分子的4884種物理化學特征(簡稱物化)數據,49名志愿者提供的21種嗅覺感知(簡稱嗅感)評價,20多支參賽隊伍運用各種機器學習算法對上述氣味分子進行感知預測[1]。基于“夢想嗅覺預測挑戰賽”,本文的思想是以476個單分子化合物的物化特征作為研究數據,以構建有效的氣味物化特征空間和氣味的嗅感評價模型為研究目的,通過特征選擇和提取方法,確定適配不同嗅感評價的最佳特征空間,最終實現從氣味特征空間到嗅感評價空間的映射,對實現理想的機器嗅覺感知系統具有重大理論指導作用。本文的研究內容如下:
(1)對獲取的高維氣味物化特征X進行降維,以21種嗅感評價作為目標y,采用特征選擇方法(隨機森林)和特征提取方法(PCA),形成不同的特征空間。
(2)基于嶺回歸(Ridge Regression)模型,對獲取到的特征空間進行學習,得到嗅感評價結果。
(3)實驗結果分析,對比回歸模型應用于不同的氣味特征空間的結果。
本實驗數據集分為兩個,嗅感評價數據集和氣味物化特征數據集,其關系如圖1所示。

圖1 數據集之間的關系
(1)嗅感評價數據集。嗅感評價是49位志愿者對有高低濃度的476種氣味提供的21種給定的嗅覺感知評分,評分是0~100分,21種嗅覺感知評分的標簽(簡稱嗅感描述符)為Intensity(強度)、Pleasantness(愉悅度)和其他19種等。考慮到個體差異性的因素,本文預處理該數據集的方法是:對沒有評分的空值取0值代替,每種氣味分子的嗅感評分取均值,高濃度和低濃度的評分合并一起,最后得到一個大小為476×21的嗅感評價數據集。
(2)物化特征數據集。本文使用的氣味物化特征(即分子描述符)數據集來自本團隊實驗室的DRAGON 7軟件,對比“夢想嗅覺預測挑戰賽”官方通過DRAGON 6軟件給定的分子描述符為4884個,而DRAGON 7涵蓋了5270個分子描述符,包括組成描述符、分子性質描述符、拓撲描述符和幾何描述符等。本文獲取分子描述符的方法是,預先人工整理476種氣味分子的CID編號,其中CID編號是國際生物學用來標識分子結構化合物的數字編號,然后把CID編號導入PubChem公開化學物質數據庫種,以獲取476種分子的Smile數據,最后將Smile導入DRAGON 7軟件,即可獲取到氣味物化特征數據集,大小為476×5270。考慮到數據集維度較大,并且為了剔除過多的噪聲,本文對該數據集的預處理方法是:①為了減少無效特征,故刪除缺失值大于5%的列;②對剩余的缺失值用其所在列的平均值填補;③為了減少數據因量綱不同造成不良印象,故提前對數據進行標準歸一化。最后得到一個大小為476×2779的物化特征數據集。
隨機森林是采用分類樹和回歸樹作為基模型的bagging集成學習方法,同時也是廣泛使用的特征選擇方法。大量實驗結果表明,隨機森林算法對存在異常值的數據和噪聲數據具有很好的魯棒性,適合處理高維數據,預測準確率很高,并能給出變量的重要度評分,其變量重要度度量能作為特征選擇的一種工具,近年來已被廣泛運用于分類、回歸預測以及異常點檢測等問題[1]。隨機森林算法能計算變量重要度(variable importance),這也是作為特征選擇的根本依據。假設一個數據集X的特征有m個,即X1,X2,X3,…,X i,…,X m,其中計算第i個特征的重要度評分為VI M i G in i,即第i個特征在所有決策樹中節點分裂不純度的平均改變量[2]。因此要計算變量重要度,需要使用基尼指數,它表示一個被隨機選中的樣本被誤分的比例:

在節點m中類別k的概率是p mk。在節點m處前后的基尼指數變化量為

這里的G I l和G I r分支前后的基尼指數。若X i遇到的節點(第j棵樹)為集合M,X i在該樹的變量重要度評分為

假設一共有n棵樹,則有

最后,對之前得到的重要度評分做歸一化處理:

按照上述原理給2779個特征進行重要度排序,即可進行特征選擇,這里設置一個特征重要性的閾值,大于該閾值的特征保留下來,其中閾值的大小為特征重要性的均值。隨機森林的特征選擇結果如表1所示。

表1 隨機森林的特征選擇結果
主成分分析方法(PCA),是一種廣泛且常用的降維算法,它是由卡爾·皮爾遜于1901年發明,用于分析數據及建立數理模型,在原理上與主軸定理相似。之后在1930年左右由哈羅德·霍特林獨立發展并命名。PCA的主要思想是將n維特征映射到k維上,這k維是全新的正交特征也被稱為主成分,簡言之,新的維度是舊的維度的線性組合。主成分分析法只能識別出總體的變異,而不能區分組間和組內的變異,不能有效地利用數據中的非線性組合[3]。我們假設輸入數據集X為m×n維,X=(x1,x2,x3,…,x m),進行樣本中心化,得

得到協方差矩陣:

分解協方差矩陣,從大到小進行排序得到的特征值,為λ=(λ1,λ2,…,λk),其特征向量為w=(w1,w2,…,w k),得到特征向量矩陣W,并將轉置后的W乘以x(i):


作為PCA重要評估指標,選擇累計方差貢獻率需要高于90%。本實驗中所選取的維度為50,對應的累計方差貢獻率為91.26%。

圖2 PCA降維結果
嶺回歸、吉洪諾夫正則化(Tikhonov Regularization)是專用于共線性數據分析的有偏估計回歸方法,由Hoerl和Kennard于1970年提出的。嶺回歸實質上是一種改良的最小二乘估計法,通過放棄最小二乘法的無偏性,以損失部分信息、降低精度為代價獲得回歸系數更為符合實際、更可靠的回歸方法,對病態數據的擬合要強于最小二乘法[4]。嶺回歸算法雖然存在一定的主觀性,但針對自變量之間存在多重共線性、線性回歸方差大等問題,人工去調控嶺參數能較好地解決。
最小二乘法回歸是一種無偏估計,而嶺回歸則在其基礎上帶了二范數懲罰。在最小二乘法中,矩陣X通常是列滿秩的:

其中定義損失函數為Xθ和y兩者殘差的平方:

在損失函數基礎上加上一個正則化項:

這里定義Γ=αI,I是單位矩陣,對上式求導得到最小化目標函數:

其中θ(α)隨α變化的軌跡,稱為嶺跡[5]。在本文中引入相關指數R2和均方根誤差RMSE來對模型擬合程度進行評估。R2的取值范圍是0~1,越靠近1,擬合程度越高,反之擬合程度越低,RMSE的取值越靠近0,擬合程度越高。在本實驗中,根據兩種評估指標,采用5折循環交叉驗證對結合3種特征空間的嶺回歸模型進行評估。
在本文中,使用未經降維的物化特征數據集訓練的Ridge Regression模型結果作為Baseline。其中觀察到Ridge Regression模型中的參數α大于1000后,各個指標的變化甚小,故設置范圍是0~1000,步長為10,經過調試確定了在每種特征空間模型下的最優參數α,如表2所示。

表2 嶺回歸模型α參數設定
將每個氣味描述符(嗅感評價)都作為目標,輸入隨機森林和PCA得到的特征空間到學習器,其中訓練集和測試集按照數據集的70%和30%的比例劃分,修改參數調優后,在測試集上的結果如表3、表4所示(其中Random Forest簡稱RF),同時畫出相對應的嶺跡圖,見圖3、圖4。

圖3

圖4

表3 RMSE評估比較

表4 R 2評估比較
將基于兩種特征篩選方法的模型的預測結果與Baseline的預測結果進行對比,兩種標準下的結果相差無幾。以R2為標準,兩種算法在對一些特定的嗅感描述符具有提升效果,基于隨機森林算法的模型中有11個模型優于Baseline,基于PCA算法的模型中有6個模型優于Baseline,而在其他的嗅感評價模型上低于Baseline。
(1)首先僅取3種模型的21種嗅感描述符R2的平均值進行比較:PCA(0.159)<Baseline(0.169)<隨機森林(0.179)。運用PCA算法進行特征提取減少特征維度數98.20%,但是在求21種嗅感描述符的綜合性能效果較差;運用隨機森林算法進行特征選擇將平均提升模型性能5.78%,平均減少特征維度數88.38%。
(2)在Baseline的基礎上,將隨機森林算法優選出的11個模型和PCA算法優選出的6個模型,取代Baseline上原有的模型,得出的R2的平均值比較為:Baseline(0.169)<改進PCA(0.170)<改進隨機森林(0.227)。可以看到改進后的PCA算法模型綜合性能有所提升,而改進后的隨機森林算法的模型性能提升明顯,平均提升模型性能33.04%。
本文主要是通過兩種不同的特征篩選方法挖掘數據集更深層的關系,形成較為合適的特征空間,利用不同方法得到氣味的物化特征空間作為輸入,嗅感評價作為輸出,使用機器學習方法構建從氣味的物化特征空間到嗅感評價的映射模型。由實驗結果可知,基于特征選擇的Ridge Regression模型比基于特征提取的Ridge Regression模型預測效果更好,為對氣味物質嗅感的自動評定做出了一定的貢獻,為構建更好的嗅感評價模型奠定基礎。