馬子嶸
(福建省交通科研院有限公司,福州 350004)
改性瀝青是在基質(zhì)瀝青品質(zhì)基礎(chǔ)上的改性,性能優(yōu)良的基質(zhì)瀝青是改性瀝青路用性能優(yōu)良的重要保障。在瀝青生產(chǎn)方面很少有造假現(xiàn)象,但經(jīng)過第三方“二次加工”的改性瀝青則不一樣。由于最終用戶僅接收成品改性瀝青,對基質(zhì)瀝青無法監(jiān)管,以次充好、勾兌造假以及品牌造假等現(xiàn)象頻現(xiàn)。目前檢測單位一般只對到場的改性瀝青檢測,而對基質(zhì)瀝青的真假偽劣情況無從知曉,難以管理。
為了保證瀝青路面質(zhì)量,更好地服務(wù)公路建設(shè)發(fā)展,通過技術(shù)手段實(shí)現(xiàn)對基質(zhì)瀝青品牌的識別具有十分重要的現(xiàn)實(shí)意義。紅外光譜技術(shù)能夠?qū)Σ牧衔镔|(zhì)結(jié)構(gòu)特性進(jìn)行便捷、快速、高效的研究分析。近年來,該技術(shù)被廣泛應(yīng)用于瀝青材料的研究上。
各種化合物都具有其特征的紅外光譜,瀝青也不例外,可以通過對其的特殊官能團(tuán)紅外光譜分析進(jìn)行定性分析和定量測定[1,2]。通過對不同品牌瀝青的紅外測試,開展譜圖數(shù)據(jù)庫建設(shè)工作,建立瀝青紅外指紋譜圖快速檢測系統(tǒng),用于識別瀝青品牌,避免瀝青品牌假冒、混兌調(diào)和、以次充好的問題。
采用德國布魯克TENSOR Ⅱ型紅外光譜儀與純金剛石晶體ATR配件。在紅外譜圖繪制方面采用OPUS軟件。
使用ATR配件,將瀝青樣品用不同方式制成厚薄較均勻的薄膜狀,直接置于設(shè)備的測量窗上進(jìn)行測試。試驗(yàn)中總共采用了固態(tài)壓膜成型法、溶劑法與熔融成膜法3種方法。最終確定采用第三種方法即熔融成膜法進(jìn)行。具體方法為:將瀝青樣本135℃加熱攪拌均勻后,放至70℃烘箱內(nèi)保溫待用。加熱金屬樣品匙,在不同取樣位置,點(diǎn)取瀝青并均勻涂抹在金剛石樣品窗上后,進(jìn)行測試[3]。
采用該法進(jìn)行瀝青樣本的紅外譜圖繪制,整個測試過程步驟少,操作簡單;一次試驗(yàn)后采用煤油與無水乙醇進(jìn)行清潔試驗(yàn)窗與樣品臺的工作,安全便捷;試驗(yàn)背景單一,即背景的差異性對瀝青樣本的紅外譜圖數(shù)據(jù)影響非常小;試驗(yàn)中僅需要考慮水汽與二氧化碳的影響即可。從結(jié)果上看,測試的精確度很高,重復(fù)性與復(fù)現(xiàn)性好。
實(shí)驗(yàn)室收集了多種品牌大量的瀝青樣本。對每個樣品在5個不同位置取樣,進(jìn)行4000 cm-1~400cm-1波段的測試,繪制紅外譜圖。
儀器輸出的紅外光譜圖,橫坐標(biāo)為波數(shù),總計2520個波數(shù),縱坐標(biāo)為吸光度。全譜吸光度樣本量:110×5,即550個樣本,特征量即波數(shù),2520個。
從紅外光譜圖來看,各品牌瀝青無法通過人眼進(jìn)行區(qū)分,需要借助數(shù)據(jù)分析算法實(shí)現(xiàn)品牌鑒別。同時,樣本數(shù)據(jù)集不均衡,4個品牌瀝青的樣本量分布為70∶17∶10∶3,絕大多數(shù)常見的機(jī)器學(xué)習(xí)算法對于不平衡數(shù)據(jù)集都不能很好地工作,分類判決總會傾向于多數(shù)類,導(dǎo)致了對少數(shù)類樣本的識別率低下;另外該數(shù)據(jù)集呈現(xiàn)出明顯的低樣本高特征量的特征,特征量為2520個,是樣本量的4.58倍,導(dǎo)致無法使用通用的分析工具如SPSS直接建模。
針對上述問題,解決方案如下:
使用Octave軟件進(jìn)行數(shù)據(jù)的處理、分析工作;
采用特征構(gòu)造的方法實(shí)現(xiàn)降維,對原始特征進(jìn)行優(yōu)化、組合,將組合后的特征作為新特征輸入模型。擬采用的兩種特征構(gòu)造方法為:主成分分析(PCA)、峰面積替代特征峰數(shù)據(jù);
采用分類器集成的方式,即通過結(jié)合多個分類器的輸出,來增強(qiáng)分類器準(zhǔn)確率;
將多分類問題,即原來的四分類問題轉(zhuǎn)化為二分類問題,屬于A品牌的歸為正類,其他類歸為負(fù)類。
3.3.1波段積分計算峰面積,生成峰面積樣本數(shù)據(jù)集
運(yùn)用光譜儀自帶的OPUS軟件,針對瀝青選取了10個特殊峰段,如“2990-2878”、“1636-1546”、“825-787”等峰段采用A、B兩種方法進(jìn)行積分計算,得到峰面積結(jié)果。結(jié)果大量數(shù)據(jù)分析,A方法比B方法的差異性更大,對不同瀝青有更強(qiáng)的判斷能力,最終應(yīng)用A方法來處理。
3.3.2使用Z-score標(biāo)準(zhǔn)化方法對數(shù)據(jù)進(jìn)行歸一化處理。3.3.3主成分分析,對原始特征進(jìn)行降維重構(gòu)
S_lambda(i)>= 0.99,計算結(jié)果K=9,即提取前9個新的特征代替原始特征,累積貢獻(xiàn)率分別為:0.69447、0.91346、 0.93802、0.95825、0.97033、0.97897、0.98389、0.98746、0.99018。
3.3.4將樣本數(shù)據(jù)集按7∶3的比例隨機(jī)劃分訓(xùn)練集、測試集
經(jīng)過數(shù)據(jù)預(yù)處理,得到6份數(shù)據(jù)集:吸光度訓(xùn)練集、吸光度測試集;吸光度PCA訓(xùn)練集、吸光度PCA測試集;峰面積訓(xùn)練集、峰面積測試集。
在對現(xiàn)有樣本建模的基礎(chǔ)上,找到可以進(jìn)行品牌準(zhǔn)確分類的模型。當(dāng)新樣本入庫時,能夠快速鑒別其品牌屬性。
多個分類器集成的方式,對適用的分類器算法逐一進(jìn)行訓(xùn)練、測試。根據(jù)訓(xùn)練集、測試集的準(zhǔn)確率,進(jìn)行初步篩選,剔除欠擬合或過擬合,且無法調(diào)優(yōu)的模型;再對保留下來的分類器算法進(jìn)行集成。
初步選定8個模型:基于吸光度PCA數(shù)據(jù)的邏輯回歸、多項(xiàng)式邏輯回歸模型、神經(jīng)網(wǎng)絡(luò)模型、FISHER判別分析模型;基于峰面積數(shù)據(jù)的多元線性邏輯回歸模型、多元非線性邏輯回歸模型、FISHER判別分析模型;考慮到神經(jīng)網(wǎng)絡(luò)作為近年來發(fā)展最快速的機(jī)器學(xué)習(xí)模型,具備較強(qiáng)的學(xué)習(xí)能力,能夠支持低樣本高特征量的數(shù)據(jù)集,因此嘗試對原始特征即基于吸光度數(shù)據(jù)建立神經(jīng)網(wǎng)絡(luò)模型[4-6]。
神經(jīng)網(wǎng)絡(luò)模型:采用3層神經(jīng)網(wǎng)絡(luò),即兩層隱藏層+一層輸出層。其中隱藏層的神經(jīng)元數(shù)量作為超參數(shù),在建模過程中進(jìn)行調(diào)優(yōu),輸出層神經(jīng)元數(shù)量為1;激活函數(shù)采用sigmoid函數(shù)。因?yàn)闃颖玖枯^少,直接使用全樣本批次梯度下降算法,優(yōu)化網(wǎng)絡(luò)參數(shù)。
邏輯回歸模型:邏輯回歸(Logistic Regression)是機(jī)器學(xué)習(xí)中的一種分類模型,由于算法的簡單和高效,在實(shí)際中應(yīng)用非常廣泛。首先,生成特征量的線性函數(shù);其次,將其作為sigmoid函數(shù)的參數(shù)建立相應(yīng)的決策函數(shù),當(dāng)計算結(jié)果大于等于閾值,視為正類,否則為負(fù)類;最后通過梯隊(duì)下降算法進(jìn)行參數(shù)求解。通過邏輯回歸分析,可以判別一個新樣本屬于A品牌的概率。
多項(xiàng)式邏輯回歸模型:在邏輯回歸模型的基礎(chǔ)上進(jìn)行改進(jìn),嘗試增加模型容量,即提升算法的復(fù)雜度,為樣本添加二項(xiàng)式特征項(xiàng)。
FISHER判別分析模型:在已知研究對象分成若干類型,且已取得各種類型的一批已知樣品的觀測數(shù)據(jù),在此基礎(chǔ)上根據(jù)某些準(zhǔn)則建立判別式,確定的原則是使兩類間的類間離差最大,而類內(nèi)離差最小;當(dāng)建立了判別式以后,可以將新樣品的特征值代入判別式求出Y值,然后與判別臨界值對比歸類。
針對神經(jīng)網(wǎng)絡(luò)、邏輯回歸模型,均采用梯隊(duì)下降算法進(jìn)行參數(shù)求解。模型中涉及的超參數(shù)分別有神經(jīng)網(wǎng)絡(luò)層數(shù)、隱藏層神經(jīng)元數(shù)量、正則化了λ、分界閾值。本文采用驗(yàn)證集訓(xùn)練以上超參數(shù),最終確定的超參數(shù)為:神經(jīng)網(wǎng)絡(luò)隱藏層為2、神經(jīng)元數(shù)量為5、正則化λ依次為0.005(吸光度PCA+神經(jīng)網(wǎng)絡(luò))、0.01(吸光度神經(jīng)網(wǎng)絡(luò))、0.01(峰面積邏輯回歸)、1(峰面積多項(xiàng)式邏輯回歸)、分界閾值為0.7。
經(jīng)過訓(xùn)練、驗(yàn)證和測試,最終生成8個模型的準(zhǔn)確率,見表1。

表1 模型評估
吸光度PCA的邏輯回歸模型訓(xùn)練集準(zhǔn)確率為89%、驗(yàn)證集為65%,吸光度PCA的FISHER判別模型準(zhǔn)確率僅為66.7%,模型欠擬合,不予采用;
吸光度PCA的多項(xiàng)式邏輯回歸模型,訓(xùn)練集準(zhǔn)確率達(dá)到98%,驗(yàn)證集僅為35%,說明該模型出現(xiàn)過擬合,只有繼續(xù)需要增加樣本量才能進(jìn)行優(yōu)化;
其它5個模型均有不錯的表現(xiàn),訓(xùn)練集、驗(yàn)證集準(zhǔn)確率均較高。因此將這5個模型進(jìn)行進(jìn)一步的集成。
分類器集成即通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),也被稱為多分類器系統(tǒng)。可以獲得比單一學(xué)習(xí)器更加顯著的泛化性能。
一般結(jié)構(gòu)是:先產(chǎn)生一組“個體學(xué)習(xí)器”,再用某種策略將它們結(jié)合起來。結(jié)合策略主要有平均法、投票法和學(xué)習(xí)法等。本文要解決的是分類問題,因此使用投票法選擇輸出最多的類,即少數(shù)服從多數(shù)。
建模完成后項(xiàng)目組先后收集了兩次共計10個瀝青樣本,每個樣品依例在5個不同位置取樣,編制盲樣進(jìn)行紅外光譜繪制,并采用以上5個分類器集成的模型進(jìn)行分類,輸出結(jié)果均與實(shí)際值一致,準(zhǔn)確率達(dá)到100%。
采用紅外光譜分析技術(shù)和機(jī)器學(xué)習(xí)算法,對入庫瀝青進(jìn)行特征提取及品牌識別。經(jīng)過模型驗(yàn)證,機(jī)器學(xué)習(xí)算法能夠正確識別瀝青品牌。在實(shí)際應(yīng)用環(huán)境中能夠發(fā)揮打擊不良商家,保護(hù)正規(guī)廠商利益的作用,同時避免客戶使用假冒偽劣產(chǎn)品,確保工程質(zhì)量。
但是瀝青品牌眾多,樣本的收集需要與瀝青廠商直接對接,且市面上沒有瀝青品牌開放數(shù)據(jù)庫,樣本數(shù)據(jù)的收集具有一定的難度。因此,后續(xù)會在逐步收集、完善各品牌瀝青譜圖數(shù)據(jù)庫的同時,進(jìn)一步探索小樣本量特別是單樣本量的品牌鑒別模型,借鑒目前深度學(xué)習(xí)較為成熟的人臉識別領(lǐng)域中的一次學(xué)習(xí)算法,在下階段多品牌小樣本的條件下,嘗試探索Siamese網(wǎng)絡(luò)在瀝青紅外光譜品牌識別方面,進(jìn)行遷移學(xué)習(xí)的可能性。