大連理工大學 王子雄
數學建模的大致思路為:用數學的語言描述、簡化、抽象實際問題,運用計算機分析得出模型結果,再回到實際中檢驗模型的效果,通過靈敏度檢驗觀察模型的穩定性,在確定模型的可行性后對未來情況進行預判,或者給出相對于現狀更優化的解決方案。數學建模的一般步驟為:情景分析→模型假設→模型求解→模型分析→模型檢驗等。
在數學建模過程中經常會遇到大量數據需要整理、分析,即數據處理。在建立模型的初始階段,對數據的分析有助于我們尋求變量間的關系,形成初步想法;有些模型還可以從大量觀測數據中,利用統計的方法直接建立,如回歸分析法、時序分析法等;還經常利用數據來估計模型中出現的參數值,甚至還利用數據進行模型檢驗,比較模型運算出的理論值與相應實際數據的大小。由此數據處理非常重要,下面介紹數據處理常用的方法和使用的軟件。
在數學建模過程中,需要計算數據的平均值、中位數、標準差、方差、最大值、最小值、置信度等。事實證明,只需要Excel,就可以解決這些基本的數據處理問題。Excel可以實現對數據的分類、篩選、排序等操作,讓我們對數據有一個初步的認知。我們還可以用Excel繪制直方圖、散點圖、折線圖,從而反映數據的分布信息,隨時間的走勢以及不同數據所占比等信息。
回歸分析是一種常用的數據分析方法,用來尋找自變量和因變量之間的關系,包括線性回歸和 Logistic 回歸。它從一組數據出發,確定多個變量之間的具體函數關系之后,再對這些數據之間關系的可信度進行檢驗。在具體問題中,我們經常會遇到一件事情受到多個因素影響的情況,回歸分析的原則是保留產生主要影響的變量,剔除影響不顯著的變量,從而減小誤差,使結果更貼合實際情況。回歸分析一般用來觀察未來數據的走勢,作出預判,從而為決策者提供一些建議或解決方案。Matlab中的regress(),polyval()等函數都能進行回歸分析。
在建模比賽中,經常會遇到一類問題:尋找自變量x與因變量y的函數關系,這時候我們就需要采用插值與擬合的分析方法。插值是指在平面內有一些離散的點,通過規定格式的函數曲線將這些點連起來,進而尋找離散點之外的其他地方的數值。常見的插值方法有Lagrange多項式插值、Hermite插值、分段線性插值和三次樣條插值等。擬合也是已知一些離散點(x1,y1),(x2,y2)…(xn,yn),不同于插值的是,擬合不要求所得函數經過全部點,只要求在某種意義下在這些點處的偏差最小。最常用的方法是最小二乘法。具體操作為:先選定一組函數r1(x),r2(x),…rn(x),它們是擬合函數的組成部分,函數f(x)=a1r1(x)+a2r2(x)+…+anrn(x),其中,系數a1,…,an為待定系數,再利用最小二乘法確定系數,即:

求出a1,a2,…an使得J(a1,a2,…an)最小。特別的,如果是多項式擬合,matlab提供命令polymit(x,y,n),n為最高次數,xy為擬合數據,a為所求的多項式系數。
該方法應對的是高維數據問題。已知數據一共有n維指標:x1,x2…xn,變量之間存在一定的相關性,信息有重疊。因此要通過主成分分析方法克服相關性與重疊,通過原指標的一些線性組合:

反應原指標的大部分信息,從而達到降維的目的。Matlab中的pcacov函數即可實現主成分分析的功能。該函數的調用方法如下:[vec1,lamda,rate]=pcacov(temp),temp為相關系數矩陣,vec1為主成分的系數矩陣,lamda為特征值矩陣,rate為特征值各自的貢獻率。
數據處理在數學建模中起著極其重要的作用,采用準確合理的數據處理方法能夠完成看似復雜的實際問題,化繁為簡,將定性分析變為定量分析,更科學可靠。上述方法均為作者在參加數學建模比賽中用到的方法,易于理解且實用性強。掌握了Matlab的這些功能,可以大大提高數學建模的效率。
[1]施吉林,張宏偉,金光日.計算機科學計算[M].北京:高等教育出版社,2013(8).
[2]司守奎,孫兆亮.數學建模算法與應用[M].北京:國防工業出版社,2015(4).