姚春燕 歐陽 付佳 劉念
摘 要: 文章對玉米光譜響應數據和蛋白含量的生化檢測值進行橫向、縱向整理分析與比較,分析蛋白含量引起光譜響應數據的變化,最終通過多元線性回歸得到單一成分光譜分析模型.并且采用殘差分析方法,從殘差圖中將異常點剔除,從而達到模型的優(yōu)化.
關鍵詞: 控制變量法 多元線性回歸 最大似然理論 偏最小二乘法 殘差分析
近紅外光譜定量分析就是利用化學分析數據和近紅外光譜數據建立模型,確定模型參數,然后以這個模型定量預測某些信息.
首先從廣西某屆研究生數學建模競賽題中獲取玉米樣品的光譜響應數據和蛋白含量的生化檢測值,建立單一成分光譜分析模型.
在研究該模型中,最關鍵的是要找出蛋白含量的生化檢測值與光譜相應數據之間的關系模型.對此,可根據前100個樣品的光譜響應數據和蛋白含量的生化檢測值,從而檢測我們所建立的模型是否合理.因其中的營養(yǎng)成分和影響因素不唯一,我們采用控制變量法,即當纖維含量與脂肪含量相同的情況下,為建立模型提供了明確的方向.
1.數據的分析
首先篩選出9組纖維含量與脂肪含量相同的樣品,具體反應如下表所示:
2.數據的處理
2.1光譜波長的選取
對9組樣品的光譜響應數據與光譜波長的變化作多元線性回歸(如圖1所示),設波長為自變量X、每一組樣品的光譜響應數據為因變量Y.通過對9組樣品所顯示的圖像進行分析,我們可得出蛋白含量在光譜波長為這些范圍內時波動是最大的,詳細可見下圖:
對9組樣品圖像的峰值進行分析,得出7個波長值,即光譜響應數據在該七個波長處光譜響應數據波動最活躍,七個光譜波長對應的光譜響應數據如表2所示:
2.2回歸分析
根據上表的七個波長分別得出前100樣品光譜響應數據的對應值建立線性回歸方程來預測因變量.設七個波長為自變量,波長對應的前100樣品光譜響應數據的對應值為因變量.得出蛋白含量與前100樣品光譜響應數據單一成分的光譜分析模型:
3.結論分析
3.1殘差分析
對上述公式進行殘差分析,并對異常數據進行剔除,用剩余數據重新建立回歸方程,提高回歸方程質量.對殘差在置信帶以外的數據都要進行檢查,辨別是否是異常數據,如果是異常數據就要剔除.(如圖2所示)
從殘差圖可看出數據的殘差離零點的遠近,當殘差的置信區(qū)間均包含零點,這說明回歸模型符合原始數據,否則可視為異常點,從而剔除7個異常點,即干擾數據.
3.2顯著性檢驗
對多元線性回歸進行回歸方程及各自變量的偏回歸系數于常數項的顯著性檢驗.
從表3看出多元線性回歸相關系數為0.000<0.05,具有顯著性水平.
另外下圖表明該模型的殘差服從正態(tài)分布.
其對應的線性回歸方程為:
剩余標準差為1.1232,說明此回歸模型的顯著性較好.
4.結論
通過模型的建立與分析,得到了比較良好的蛋白含量與前100樣品光譜響應數據單一成分的光譜分析模型: