孔清清,丁香乾,宮會麗*,李忠任,唐興宏,于春霞
(1.中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100;2.云南中煙工業(yè)有限責任公司 技術(shù)中心,云南 昆明 650024)
基于隨機森林結(jié)合博弈論的特征選擇算法在近紅外光譜分類中的應(yīng)用研究
孔清清1,丁香乾1,宮會麗1*,李忠任2,唐興宏2,于春霞2
(1.中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266100;2.云南中煙工業(yè)有限責任公司 技術(shù)中心,云南 昆明 650024)
針對近紅外光譜中的噪聲和冗余信息導(dǎo)致分類模型識別率低的問題,提出了隨機森林結(jié)合博弈論的特征選擇算法。該算法首先根據(jù)隨機森林對特征重要性進行度量,優(yōu)選出對分類具有一定相關(guān)性的特征;然后利用改進的夏普利值結(jié)合互信息計算優(yōu)選特征的權(quán)重,從加權(quán)后的特征集合中去掉冗余得到最優(yōu)特征子集。為了驗證算法的有效性,將其應(yīng)用于煙葉產(chǎn)地識別模型,實驗結(jié)果表明,該文所提出的特征選擇算法對煙葉產(chǎn)地識別效果較好,分類識別率可達95.88%。
近紅外光譜;隨機森林;特征選擇;夏普利值;產(chǎn)地識別
近紅外光譜分析技術(shù)具有快速、高效、無損、無害等特點,已被廣泛應(yīng)用于煙草、食品、石油等領(lǐng)域[1-5]。煙葉產(chǎn)地的鑒別對卷煙計算機輔助設(shè)計和維護過程起著重要作用。煙葉產(chǎn)地的鑒別大多通過專家感官評吸和化學(xué)成分分析,但這些方式不僅增加了工作量,并且會因主觀因素導(dǎo)致識別率低[6]。為了解決這些問題,研究者嘗試采用近紅外模式識別對煙葉產(chǎn)地進行鑒別。……