程曉燕,趙有益,武若飛,馬 鈺,黎 虹
(甘肅農業大學 理學院,甘肅 蘭州 730070)
《SAS及其應用》是本校應用統計學專業開設的一門專業核心課程,主要內容包括SAS編程基礎和數據預處理、利用SAS進行描述統計分析、利用SAS進行參數統計推斷和非參數統計推斷分析、利用數據之間的統計關系通過SAS建立方程模型等.本校《SAS及其應用》課程在理論教學和實踐教學學時(32+16)分配中,占有較大的比例.《SAS及其應用》課程的開設為應用統計學專業學生在政府、銀行、航空、保險、精算、電子商務等部門從事數據分析等相關工作打下了堅實的基礎.
SAS(Statistics Analysis System)軟件以其高效、快捷、可靠等特點在眾多統計分析軟件中脫穎而出,是目前全球最流行的數學統計軟件之一[1].SAS軟件是模塊集成化的大型應用軟件,有訪問數據、管理儲存數據、處理圖形、開發應用、分析數據等方面的強大功能,應用范圍廣泛,操作容易上手,編程語句簡潔,通常只需短小的語句即可完成一些復雜的運算和擬合[2].SAS軟件的分析功能強大,統計方法新穎,分析問題準確度高.軟件實現了從基本統計數量的計算到各種各樣試驗設計因子的方差分析、相關分析及回歸分析、多變量之間分析、模型擬合等分析.
數學建模是一種通過將現實問題轉化為數學問題,運用數學的抽象性和準確性,深入研究問題的本質規律和特征,得出解決實際問題的有效方法和策略[3].數學建模是培養大學生應用能力、創新能力和實踐能力的一個重要途徑和有效載體[4].研究表明,有競賽經驗的大學生創新能力強于沒有競賽經驗的大學生.參加數學建模競賽獲獎的大學生,尤其是國家級獎項獲得者創新能力水平高于未參加競賽的大學生創新能力水平[5].大數據時代背景下,數學建模中任何割裂分析問題能力與數據執行能力聯系的做法已經無法應對大數據對數學建模能力提出的挑戰.因此,軟件的應用和編程是必然的應對選擇[6].SAS軟件在數學建模中可用于模型的擬合、求解、檢驗和圖表的繪制[7].SAS以一個通用的數據步(DATA步)產生數據集,然后調用不同的過程(PROC步)完成數據分析.《SAS及其應用》課程在數學建模中的作用至關重要,已成為不可或缺的機器學習課程.
本文以2021年和2022年全國大學生數學建模競賽題為背景,運用SAS軟件進行分析和解決問題,展示SAS統計軟件在數值分析、繪圖、建立方程模型等方面的優勢,體現《SAS及其應用》在數學建模過程中的重要作用,為培養大學生利用SAS軟件和相關統計知識解決實際問題的能力、創新能力和實踐能力提供參考.
2021年全國大學生數學建模競賽B題:
乙醇制備過程中,催化劑組合(即:Co負載量、Co/SiO2和HAP裝料比、乙醇濃度的組合)和溫度都會對C4烯烴的選擇性及C4烯烴收率產生影響.研究分析乙醇催化偶合制備C4烯烴的工藝條件有著很重要的價值.因此,需要建模解決不同催化劑的組合下,乙醇轉化率、C4烯烴的選擇性分別與溫度的關系;探討給定溫度時不同的催化劑組合在不同的時間下的結果;選擇催化劑組合與溫度,使得在相同實驗條件下C4烯烴收率盡可能高.
2022年全國大學生數學建模競賽C題:
風化是文物發掘和保護過程中最大的難題.由于空氣中各種氧化類物質的存在,出土的文物必然受到自然界中各種不利因素的破壞.玻璃是絲綢之路早期貿易往來的寶貴物證,但古代玻璃極易受埋藏環境的影響而風化,在風化過程中,內部元素與環境元素進行大量交換,導致其成分比例發生變化,從而影響對其類別的正確判斷.因此,需建立相關數學模型,對玻璃文物的類型,紋飾和顏色進行對比分析,由玻璃的類型分析化學成分含量的規律及所給數據預測文物風化前的化學成分含量,并對其敏感性和合理性進行合理分析.
由于SAS軟件不能直接識別題目中所提供的Excel數據文件,因此需要建立SAS數據集.其具體方法是通過SAS軟件菜單欄里‘file’的下拉菜單中‘Import Data’導入數據并保存為SAS數據集sasuser.model1和sasuser.model2,生成SAS數據文件.
2.2.1 SAS軟件繪圖
作為一種數據分析的簡單有效工具,統計圖形能直觀顯示數據信息和結構.
(1)繪制散點圖
散點圖主要用于考察兩個變量之間的關系.針對2021年全國大學生數學建模競賽B題,建立關于不同催化劑組合下,乙醇轉化率、C4烯烴的選擇性分別與溫度的關系和給定溫度時不同的催化劑組合在不同時間下的模型.利用SAS程序“proc gplot data=sasuser.model1; plot(乙醇轉化率C4烯烴選擇性)*溫度;run;”和“proc gplot data=sasuser.model1;plot(C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇轉化率、碳數4-12脂肪醇選擇性、甲基苯甲醛和甲基苯甲醇)*時間;run;”繪制出乙醇轉化率、C4烯烴的選擇性與溫度和給定溫度時不同的催化劑組合在不同時間下的散點圖(圖1-圖4).

圖1 溫度與乙醇轉化率(%)和 C4烯烴選擇性的EXPDEC2擬合及EXPDEC2擬合

圖2 時間與C4烯烴選擇性和乙烯選擇性的SINE擬合及LOGISTIC擬合

圖3 時間與乙醛選擇性和乙醇轉化率的LOGISTIC擬合及EXPDEC2擬合

圖4 時間與碳數為4-12脂肪醇選擇性和甲基苯甲醛和甲基苯甲醇的LOGISTIC擬合及GAUSS擬合
(2)繪制直方圖
直方圖用于顯示變量取值的頻數分布.針對2022年全國大學生數學建模競賽C題,首先利用SAS程序“proc corr data=sasuser.model2 spearman kendall hoeffding; var變量名;run;”分析表面無風化與其玻璃類型、紋飾和顏色的相關關系.再通過“proc univariate data=sasuser.model2; histogram分化玻璃所含成分;run;”繪制無分化玻璃所含成分的直方圖(圖5-圖6).
以生活中的實例作為思考,讓學生認識到數學來源于生活并應用于生活,生活中處處有數學.教學中本著以學生發展為本的理念,通過學生合作探究、展示方法、共享成果、體驗樂趣,發展學生的數學觀察能力,培養學生思維的發散性和嚴謹性.
2.2.2 SAS軟件擬合模型表達式
(1)非線性回歸模型
根據所繪制的散點圖可以明顯看出,隨著溫度的上升,乙醇轉化率和C4烯烴的選擇性也明顯以非線性趨勢上升.隨著時間的推移,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇轉化率、碳數為4-12脂肪醇選擇性和甲基苯甲醛和甲基苯甲醇分別呈現正弦函數圖像變化、生物生長趨勢變化和高斯函數圖像變化.因此,選擇過程名nlin和過程選項data=sasuser.model1,method=marquardt,convergeparm=1e-8,converge=1e-8,alpha=0.05及以下模型:


擬合乙醇轉化率和C4烯烴的選擇性隨著溫度變化的趨勢(圖1)以及在給定溫度350 ℃度條件下,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇的轉化率、碳數為4-12脂肪醇、甲基苯甲醛和甲基苯甲醇隨時間變化的趨勢(圖2-圖4).
(2)概率模型
根據所繪制的直方圖,發現無分化玻璃所含成分符合正態分布、指數分布、對數正態分布和韋布爾分布,故選擇程序“proc univariate data=sasuser.model2;var分析數據的變量;histogram / normal(mu=est sigma=est)lognormal(zeta=est sigma=est theta=est)exponential(sigma=est theta=est)weibull(sigma=est c=est theta=est);run;”建立文物表面有無風化化學成分含量的模型并對風化點檢測數據進行了風化前化學成分含量的預測(圖5-圖6).

圖5 高鉀無分化玻璃二氧化硅和氧化鉀含量分布圖

圖6 鉛鋇無分化玻璃氧化鉛和氧化鈣含量分布圖
從整理數據提升到方法強化,由軟件程序延伸到數學模型,變“知識本位”為“學生本位”,提高學生的模型識別的能力,培養學生思維的深刻性和靈活性,使《SAS及其應用》的學習成為提高學生數學素養的有效途徑.
2.2.3 SAS軟件檢驗模型顯著性
(1)判定系數檢驗法
判定系數是表示一個隨機變量與多個隨機變量關系的數字特征,用來反映回歸模型中因變量變化可靠程度的一個統計指標,一般用符號“R2”表示.通過程序“proc nlin data=sasuser.model1 plot=fit;parms alpha1=6 beta1=20 beta2=-2,alpha2=1 beta3=0.02;model因變量=模型表達式;run;”運行結果發現,乙醇轉化率、C4烯烴的選擇性與溫度的EXPDEC2模型的判定系數分別為R2=0.99664和R2=0.99775.給定溫度時,C4烯烴選擇性、乙烯選擇性、乙醛選擇性、乙醇的轉化率、碳數為4-12脂肪醇、甲基苯甲醛和甲基苯甲醇隨時間變化的SINE、LOGISTIC、LOGISTIC、EXPDEC2、LOGISTIC、GAUSS模型的判定系數為R2=0.73552,R2=0.97071,R2=0.99623,R2=0.97072,R2=0.98296,R2=0.86036,R2均大于0.5,擬合效果顯著.
(2)偏差檢驗法
在顯著性水平0.05下,模型均通過程序“proc univariate data=sasuser.model2;var分析數據的變量;histogram/noplot normal(mu=est sigma=est)lognormal(zeta=est sigma=est theta=est)exponential(sigma=est theta=est)weibull(sigma=est c=est theta=est);ods select goodnessoffit;run;”實現Kolmogorov-Smirnov,Cramer-von Mises和Anderson-Darling檢驗,并通過

模型得到了對應的預測值(見表1,表2),預測值和實測值之間的偏差均小于10%,模型擬合效果顯著.

表1 高鉀無風化玻璃二氧化硅氧化鉀實測實值和預測值

表2 鉛鋇無風化氧化鉛和氧化鈣實測實值和預測值
教學中本著以學生發展為本的理念,引導學生主動參與、積極探索,培養學生的數學應用意識和實踐能力.讓學生利用現實生活學數學,同時把學到的數學知識運用到現實生活中去,真正體現數學知識源于生活,而最終服務于生活.
通過《SAS及其應用》在以上兩個數學建模中的應用發現,一是深刻體現了SAS統計分析軟件在數學建模過程中重要的作用.實際上,在已有明確的解題思路的情況下,SAS統計分析軟件可高效完成高強度的運算和高精度的擬合;在沒有相關思路和方法的情況下,SAS統計分析軟件可以通過直觀的圖形輔助引導建模進一步實施,尋找最優的建模思路和方法.二是實現了理論教學與實際問題的融合、軟件方法與數學知識的融合、課內教學與課外實踐的融合.三是清晰明了的運行結果增強了學生對SAS程序的深刻理解,建模全過程的成功體驗加深了建模過程的記憶,全面提升課堂教學的廣度、深度和效度.四是激發了學生學習《SAS及其應用》課程的積極性和主動性,鼓勵學生大膽嘗試、勇于探索、敢于創新,磨練思維品質.總之,《SAS及其應用》課程在數學建模中的應用,提高了學生解決實際問題的能力,順應了就業市場的需求,有助于促進大學生成為當代社會所需要的應用型人才.