劉建清
摘要:物質濃度與其不同顏色讀數間存著非線性關系,用物質顏色讀數辨識物質濃度是一個多維非線性數據處理問題。傳統比色法是一種人工檢測物質濃度的方法,但該方法常因人對顏色的敏感差異和觀測誤差導致對物質濃度出現不準確的判斷。為克服這傳統人工檢測物質濃度的不足,建立了基于 Bayes逐步判別分析模型的物質濃度辨識方法,實例分析表明該方法具有很高的精確度,用該方法進行物質濃度辨識完全可行。
關鍵詞:物質濃度;模式識別;Bayes逐步判別分析;概率
中圖分類號:TP7 文獻標識碼:A 文章編號:1007-9416(2018)09-0062-03
比色法是目前常用的一種檢測物質濃度的方法,即把待測物質制備成溶液后滴在特定的白色試紙表面,等其充分反應以后獲得一張有顏色的試紙,再把該顏色試紙與一個標準比色卡進行對比,就可以確定待測物質的濃度檔位了。由于每個人對顏色的敏感差異和觀測誤差,使得這一方法在精度上受到很大影響。隨著照相技術和顏色分辨率的提高,希望建立顏色讀數和物質濃度的數學模型,即只要給模型輸入照片中的顏色讀數就能夠通過計算獲得待測物質的濃度,而模型的精度直接關系著待測物質濃度的準確性,見于監測數據呈現明顯的類狀或族狀,可以將物質濃度判斷問題歸結為類別辨誤問題或模式識別問題。為此,本文在已知顏色讀數和相應物質濃度實驗數據的基礎上建立了基于Bayes逐步判別分析的物質濃度識別模型,該模型是實質上是一種多元非線性概率回歸分析模型,實例分析表明用該模型預測物質濃度具有很高的精確度,好于支持向量機[1-2]、神經網絡[3-4]等辨識模型,值得工程技術人員借鑒。
1 Bayes逐步判別分析簡介
判別分析的是在已知分類數目的情況下,利用統計方法和某個準則對任意給定的一個樣品判斷其所屬的類別。
Bayers準則適合于多個類別(3個或3個以上)判別,它把M(M≥3)組(類)樣品看成M個總體U1,U2,…,UM(這些總體服從正態分布),對于待判樣品(為變量數),在 Bayers準則下計算屬于各總體的后驗概率,,…,(利用多元正態分布概率密度計算),最后將歸屬于后驗概率最大的那一組(類)[5-6]。
2 數據來源及模型建立
2017年全國大學生數學建模C題給出一組二氧化硫的濃度與其顏色的讀數,如表1所示。
首先按濃度大小分類,將濃度為0,20,30,50,80,100,150對應的樣本分別看成一類,共7類,類別值分別為1,2,3,4,5,6,7。當類別值為1時,則對應的濃度為0;當類別值為2時,則對應的濃度為20;當類別值3時,則對應的濃度為30;當類別值4時,則對應的濃度為50;依次類推。
將表1中二氧化硫指標數據及相應類別值列導入SPSS19中,選擇“分析”|“分類”|“判別”命令,按提示對話框完成所有操作,得到的Bayes準則[7-8]下逐步線性判別函數為:
模型信息:如表2所示。
第一特征根2895.620,能夠解釋所有變異的99.1%。
表3中的Sig均為0,說明7個典型判別方程的判別能力都是顯著的,并且剔除掉了指標(色調H)。下面給出模型的反向檢驗結果。
將表1中樣本的4個指標值代入上述式(1)~(7)求每個樣本的類別值(Y1,Y2,Y3,Y4,Y5,Y6,Y7,無需轉化成后驗概率),以最大值原則歸類,計算結果見表4。
下面給同3個測試樣本(2017年全國大學生數學建模C題),見表5。
將表6中3個樣本的特征指標值代入式(1)至式(7),求得樣本屬于各類的類別值,并按最大類別值歸類,如表6所示。
可見預測精度為100%,說明多項Bayes逐步判別概率回歸模型具有非常高的擬合預測能力,用物質濃度預測、以及其他模式識別或類別辨識完全可行。
3 結語
Bayes逐步判別回歸模型是一種基于概率的多元非線性問題的處理方法。實例分析表明該方法用于類別辨識或模式識別具有很高的精確度。對樣本物質濃度進行適當類別劃分,用表征濃度的特征數值創建多項logistic回歸模型,并用統計軟件SPSS估算模型系數,通過對建模樣本和測試樣本的擬合預測精度的分析,準確度均達到100%,表明該模型預測效果很好,值得工程技術人員借鑒。
參考文獻
[1]平源.基于支持向量機的聚類及文本分類研究[D].北京:北京郵電大學,2012.
[2]谷文成,柴寶仁,滕艷平.基于粒子群優化算法的支持向量機研究[J].北京理工大學學報,2014,(7):705-709.
[3]張建強,高世家,趙霽紅.艦船RCS特征提取與GA-BP神經網絡分類研究[J].艦船科學技術,2016,(3):125-130.
[4]張紹兵.基于神經網絡的規則提取與分類算法的研究[D].哈爾濱:哈爾濱工程大學,2006.
[5]王江榮,文暉,張克功,等.基于極大似然估計的logistic回歸模型在煤與瓦斯突出危險等級評價中的應用[J].煤,2015,(2):22-24,39.
[6]謝中華.MATLAB統計分析與應用40個案例分析[M].北京:北京航空航天大學出版,2010.
[7]楊維忠,張甜.SPSS統計分析與行業應用案例詳解[M].北京:清華大學出版社,2011.
[8]王江榮.基于SPSS的貝葉斯逐步線性判別法在煤炭種類識別中的應用[J].選煤技術,2014,(5):64-67.