基于密度最大值聚類的奶酪風味鑒別模型

2019-03-25 10:57:34干佳儷譚勵寧曉輝王蓓孫踐知

中國乳品工業 2019年2期

干佳儷，譚勵，寧曉輝，王蓓，孫踐知

（1.北京工商大學計算機與信息工程學院，食品安全大數據技術北京市重點實驗室，北京100048；2.火箭軍總醫院，北京100088；3.北京工商大學食品學院，北京市食品風味化學重點實驗室，北京100048）

0 引言

奶酪是盛行歐美的發酵乳制品，我國西式餐飲加速發展促進了奶酪市場需求。通常成熟的奶酪風味俱佳[1-4]，目前西方的奶酪風味研究已成體系[5-8]，而我國尚屬積累階段[9-11]。奶酪研究均關注風味組分萃取分離[12-16]，高效利用風味組分區分樣品鮮見報道[17-20]。

DBSCAN算法對密度不均的樣本集聚類[21-23]效果較差，Rodriguez等在Science提出密度最大值聚類—DPC(Clustering by fast search and find of Density Peaks)[24]，克服了基于距離聚類只能發現“類圓形”的缺點。模糊規則選擇簇中心[25]、勢熵提取最優閾值[26]、引入密度比例[27]、基尼指數的自適應截斷距離[28]、密度差分聚類[29]等均有優化DPC算法。

鑒于國內奶酪基本依賴進口[30-31]，本文將提出一種自動提取奶酪風味物質特征的密度最大值聚類算法，并采用支持向量機(Support Vector Machine，SVM)進行成熟級別分類。

1 實驗

1.1 材料與數據采集

本文實驗材料樣本庫包括切達奶酪和馬蘇里拉奶酪，其中切達奶酪樣本共21個，其產地分布如圖1所示，馬蘇里拉奶酪樣本共24個，其產地分布如圖2所示，圖1、2中數字標記均為樣本編號。奶酪樣本庫的奶酪類別為：淡味、中味、濃味。奶酪樣本庫經北京工商大學奶酪風味研究室萃取、分離、定量及定性等分析手段獲得奶酪樣本庫的揮發性風味物質信息，其中切達奶酪揮發性風味物質有28種，馬蘇里拉奶酪揮發性風味物質有23種，奶酪庫風味組成具體信息如表1所示。將所得奶酪樣本庫的揮發性風味物質信息作為本文的研究對象。

圖1 切達奶酪樣本產地分布

圖2 馬蘇里拉奶酪樣本產地分布

表1 奶酪庫揮發性風味物質信息

1.2 DPC算法的食品鑒別模型

1.2.1 DPC算法自動提取特征風味物質

給定數據集Φ,數據點i,j∈Φ,DPC算法主要分兩步：

（1）計算每個數據點的局部密度ρi

式中：dij為數據點i到其他數據點j的距離；dc為一個截斷距離；ρi為到數據點的距離小于dc的數據點的個數。

（2）高局部密度點距離δi

式中：δi為數據點i到距離最近且比自身局部密度ρi大的數據點j的距離。當數據點i是數據集中局部密度最大的點時，高局部密度點距離δi為

最理想的簇中心同時具備以下兩個條件：①局部密度大于周圍鄰居數據點的局部密度；②距離比自身局部密度大的簇中心的距離相對較遠。因此本文中將每種化合物作為數據點，對每個數據點的局部密度和高局部密度點距離的乘積即ρiδi進行降序排列，ρiδi值越大越有可能是聚類中心[24]，再結合ρi-δi決策圖，確定聚類簇中心，即后續用于類別鑒定的特征風味物質，每種奶酪樣本保留特征風味物質的數值，作為輸入SVM算法的數據點，進行分類。

截斷距離dc的選取決定了DPC算法聚類效果的好壞，如果過大會使得所有數據集歸為一類，如果dc過小會使得每個數據點自成一類。另外，DPC算法需要通過ρi-δi決策圖確定ρi和δi均較大的點作為聚類中心。DPC算法參數的閾值需要人工選擇，在一定程度上影響了算法的客觀性以及降低了算法的執行效率。本文將在DPC算法上進行改進，使其不需要通過決策圖確定聚類中心，而是能夠自動確定聚類中心提取奶酪特征風味物質，提高分類效率，達到更好地聚類效果和更高的分類準確率。

自動提取奶酪特征風味物質的算法如表2所示，最終輸出的聚類中心即為奶酪特征風味物質。

表2 自動提取特征算法

1.2.2 奶酪風味鑒別模型的建立

提取特征風味物質后，采用支持向量機建立快速鑒別模型。支持向量機中核函數的參數和誤差懲罰因子C是影響SVM性能的關鍵因素，即對誤差的容忍程度，C越小容易欠擬合，反之容易過擬合，泛化能力變差。核函數主要分為線性核、多項式核、Sigmoid核和Gauss徑向基核。一般采用最廣的是徑向基函數。本文采用網格搜索GridSearchCV的方式調整SVM模型的參數，主要流程如圖3所示。

1.2.3 實驗設置

本實驗特征提取環節分四組進行：第一組保留所有奶酪揮發性風味物質，第二組采用DBSCAN聚類提取特征風味物質，第三組采用K-Means聚類提取特征風味物質，第四組采用改進的密度最大值聚類（DPC）算法提取特征風味物質。其中第四組將設定不同的截斷距離dc值，然后通過1.2.1中的方式自動獲取局部密度ρi和高局部密度點距離δi，得到不同的特征風味物質組合。基于上述奶酪特征風味物質組合進行樣本分類，評價指標采用精確率（precision）、召回率（recall）、f1-score（精確率和召回率的調和平均值）、準確率（accuracy）。

圖3 DPC算法的奶酪風味鑒別模型流程

2 結果與分析

2.1 DPC算法提取風味物質特征參數設置

密度最大值聚類算法首先要確定截斷距離dc的大小，文獻[24]中提出設置dc使得每個數據點的平均鄰居個數約為數據點總數的1%～2%。但是實際應用中面對不同數量級的樣本，存在很大差異，不能有效的進行聚類，因此本實驗中設置不同截斷距離dc，使得數據點的平均鄰居個數分別為數據點總數的5%～10%，10%～20%，20%～30%，30%～40%。

2.2 切達奶酪基于DPC提取特征的樣本分類

切達奶酪在不同dc值的情況下，ρi-δi決策圖如圖4所示。根據1.2.1中算法自動選取聚類中心，即化合物特征如表3。分別將密度最大值聚類（DPC）提取到的切達奶酪風味物質特征輸入支持向量機分類模型，進行cv=5折交叉驗證，得到如圖5在不同切達奶酪類別上的精確率、召回率以及f1-得分，f1-得分兼顧了分類模型的精確率和召回率，是精確率和召回率的一種調和平均數，f1-得分越高說明分類模型性能越好，越穩定。綜合圖4可以看出，當取值使得每個數據點的平均鄰居個數約為數據點總數的20%～30%時，切達奶酪的特征風味物質組合為：丁酸乙酯、2-庚酮、檸檬烯、2-壬酮、辛酸乙酯、呋喃酮、δ-癸內酯、δ-十二內酯，分類模型性能最好，具有較高的精確率（96%）、召回率（95%）以及f1-得分（95%），能夠很好的區分負樣本和識別正樣本。

表3 不同dc值的切達奶酪風味物質特征組合

圖4 不同dc/%值的切達奶酪風味物質特征決策

圖5 不同dc值的切達奶酪分類評價指標

2.3 馬蘇里拉奶酪基于DPC提取特征的樣本分類

馬蘇里拉奶酪在不同dc值的情況下，ρi-δi決策圖如圖6，根據1.2.1中算法自動選取聚類中心，即化合物特征如表4。將三組不同馬蘇里拉奶酪風味物質特征輸入支持向量機分類模型，進行cv=5折交叉驗證，每組分類結果的精確率、召回率、f1-得分如圖7所示，可以看出當dc取值使得每個數據點的平均鄰居個數約為數據點總數的10%～20%時，馬蘇里拉的特征風味物質組合為：苯甲醛、月桂醛、γ-十二內酯、癸醛、十一醛，分類模型性能最好，能夠很好的區分負樣本和識別正樣本，f1-得分為96%。

圖6 不同dc值的馬蘇里拉奶酪風味物質特征決策

2.4 基于不同聚類算法提取特征的分類結果比較分析

為了驗證改進的DPC模型提取特征的性能，本文將其與DBSCAN聚類、K-means聚類以及保留原始特征風味物質的樣本輸入支持向量機模型進行分類比較分析，評價指標采用f1-得分和準確率，f1-得分越高，說明分類模型越穩健，準確率是一個直觀的評價指標，是對整體樣本分類結果正確率的評價。

圖7 不同dc值的馬蘇里拉奶酪分類評價指標

表4 不同dc值的馬蘇里拉奶酪風味物質特征組合

切達奶酪通過DBSCAN聚類提取的特征風味物質組合為：丁酸乙酯、2-庚酮、檸檬烯、癸醛、2-十一烷酮、癸酸乙酯、月桂醛、δ-癸內酯，通過K-means聚類提取的特征風味物質組合為：δ-壬內酯、2-甲基-丙酸、己酸、己酸乙酯、乙酸、2,3-丁二酮、壬酸，由表5可以看出切達奶酪原始揮發性風味物質、DBSCAN聚類特征以及K-means聚類特征在支持向量機模型上的分類f1-得分和準確率均在70%以下，而本文改進的自動獲取聚類中心的DPC聚類特征在支持向量機上分類結果很好，特征風味物質組合為：丁酸乙酯、2-庚酮、檸檬烯、2-壬酮、辛酸乙酯、呋喃酮、δ-癸內酯、δ-十二內酯，f1-得分、準確率均高達95%，很大程度的提高了分類器的穩健性和分類果。

馬蘇里拉奶酪通過DBSCAN聚類提取的特征風味物質組合為：3-己酮、戊酸甲酯、苯甲醛、γ-十二內酯、乙酸乙酯、癸醛、十一醛，通過K-means聚類提取的特征風味物質組合為：乙酸乙酯、呋喃酮、壬醛、丁酸、2-壬酮、己酸乙酯、δ-十二內酯，分類結果的f1-得分和準確率對比如表5，可以看出馬蘇里拉奶酪原始揮發性風味物質、DBSCAN聚類特征以及K-means聚類特征在支持向量機模型上的分類f1-得分和準確率均在88%左右，本文改進的自動獲取聚類中心的DPC聚類提取的特征組合為：苯甲醛、月桂醛、γ-十二內酯、癸醛、十一醛，將分類結果的f1-得分提高了0.9個百分點，為96%，準確率提高了0.8個百分點，為96%，使得分類器在馬蘇里拉奶酪樣本上同樣表現穩健，能夠很好的區分負樣本，識別正樣本。

表5 不同聚類模型提取奶酪風味物質特征分類f1-得分以及準確率對比

3 結論

綜合以上實驗，結合不同聚類算法的比較分析，本文改進的基于密度最大值聚類的奶酪鑒別模型，優勢在于能夠自動獲取聚類中心，不需要輸入劃分簇的個數，當聚類間距相差很大時，也能夠有很好的聚類效果，如果保留原始所有特征風味物質，將加大分類模型的運算空間，因此采用本文提出的模型提取風味物質特征后再分類，節省了運算空間，還提高了分類準確率以及f1-得分，而且分類效果均優于DBSCAN聚類和K-means聚類提取的風味物質特征，其中DBSCAN聚類和K-means聚類在切達奶酪樣本上表現較差，馬蘇里拉奶酪樣本表現一般，但是改進的基于密度最大值聚類的奶酪鑒別模型在兩種樣本上均表現良好，使得分類模型穩健、適用性強。

本文針對密度最大值聚類算法進行改進，使其能夠自動獲取聚類中心，適用于奶酪樣本的風味特征提取，再結合支持向量機算法建立奶酪風味鑒別模型，在分類精確率、召回率、準確率及運算空間等方面比傳統的奶酪類別分析方法都有所改善提升。