劉世奇 劉趙涵
華北水利水電大學水利學院(450007)
根據實測數據建立數學模型,并對模型進行評價。我們以物質濃度為因變量,以B,G,R,H,S為自變量,運用多元回歸的思想建立函數表達式,運用MATLAB軟件進行求解,并求出各個系數,進而得到函數關系式,即只要輸入顏色讀數,就能得到對應的二氧化硫的濃度值。雖然求出了顏色讀數與濃度的表達式,但該式并不能表示實際所對應的函數值(二氧化硫濃度)存在一定的誤差。如當我們將二氧化硫濃度為20 ppm時的顏色讀數帶入函數表達式時所求出來的濃度值并不等于20 ppm。這里我們不妨將實際濃度與所得濃度作差比較得到偏差加以平方得到殘差值和進而得出該模型的優劣。
設隨機變量y與普通自變量B,G,R,H,S滿足線性關系:
y=b0+b1B+b2G+b3R+b4H+b5S+ε
其中 b0,b1,b2,b3,b4,b5, 是待定系數,ε是隨機誤差。
yt=b0+b1Bt+b2Gt+b3Rt+b4Ht+b5St+ε,(t=1,2,L,n)
其中,ε1,ε2,L,εn……相互獨立且服從同一正態分布。

組的解b^0,b^1,b^2,b^3,b^4,b^5就是待定系數 b0,b1,b2,b3,b4,b5的最小二乘估計值,即y^t=b^0+b^1B+b^2G+b^3Rt+b^4Ht+b^5S
我們運用MATLAB進行輔助運算,運算過程及運算結果,得出b^0,b^1,b^2,b^3,b^4,b^5。 于是y^=5 028.8+0.4R-7.2B-14.5S-14.6H,但這個模型與原數據真實模型還有一定的誤差,從表1中我們可以看出相關系數r2=0.891,查閱資料發現r2越接近于1,函數模型對于原數據的擬合程度越好??梢哉J為,該模型對原數據的符合程度為89.1%。
利用模型原理,建立兩個新的模型。這兩個新模型對于原模型來說,一個是在數據量上進行減少,一個在顏色維度上進行減少。

表1 數據對模型的影響

表2 二氧化硫濃度

1)數據量對模型的影響:利用建立的函數模型,在數據的選擇上我們設置一個限制,就是減少每組二氧化碳濃度所對應的顏色讀數,利用公式:y^=L^0+L^1B+L^2G+L^3R+L^4H+L^5S建立數據量減少時物質濃度與顏色讀數的多元回歸模型。
2)顏色維度對于函數模型的的影響:在數據選擇上決定刪去色調H,建立一個與之前相比少一維的函數回歸模型即:y^=K^0+K^1B+K^2G+K^3R+K^4S,運用MATLAB進行運算,來討論數據量對模型的影響。從表1中我們發現:
r2的值與之前相比更接近于1,而F檢驗、殘差均方RMSE也都比原模型數據要好。所以當減少數據量的時候,并不會對原模型造成影響。當對顏色維度進行減少時,r2的值與之前模型相比更接近于1,殘差均方RMSE也比顏色維度減少前要小。所以我們得出結論:當顏色維度減少時,并不會影響原模型。
我們將二氧化硫濃度與顏色讀數模型進行檢驗,檢驗其是否符合實際情況;隨機挑選幾組數據帶入到我們求解出來的函數模型,運用Excel,計算實際二氧化硫濃度Y與計算出來的二氧化硫濃度Y(見表 2)。
顏色讀數與物質濃度模型的建立,是為了減少觀測者由于色差和對顏色敏感程度的影響,從而達到科學、精準、方便地獲取待測物質濃度的一種方法。我們運用了統計回歸、模糊數學的方法和思想,使得該模型更具有科學性和可靠性
本模型中我們使用線性回歸的方法,很好地反映了要素之間的數量關系。本模型更具有普遍性,在相同類型的情況下,依然能對問題很好地建模。
我們在進行模型假設的時候,假設了所有顏色讀數與物質濃度都是線性關系,忽略了數據的非線性關系,從而造成了一定的誤差。在數據選擇上我們是將數據平均后再帶入模型的,并不能代表數據的整體趨勢。
本模型具有很好的應用前景,如我們可以將本模型進行改進應用到汽車受損部位的修補,可以運用此模型進行化學物質的檢驗,或者對食品進行營養物質的檢測。