摘要:針對機器學習課程中回歸模型教學面臨的挑戰,結合OBE理念設計基于近紅外光譜回歸分析的實驗教學案例。該案例以玉米秸稈木質素含量作為回歸目標,采用PLSR、SVR、RF方法建立回歸模型,旨在提升學生對回歸模型的理解和應用能力。實驗課程教學實踐結果表明,該案例有效提升了學生的學習效果。
關鍵詞:OBE理念;機器學習;實驗教學;回歸模型;木質素含量檢測
中圖分類號:G642" " " 文獻標識碼:A
文章編號:1009-3044(2025)17-0177-04
開放科學(資源服務) 標識碼(OSID)
機器學習是人工智能的基礎課程,也是我校軟件工程專業的一門重要專業選修課,機器學習在工業、農業、醫療等領域應用廣泛[1-3]。該課程的學習需要學生具備一定的數學基礎和工程思維,知識點多且比較復雜,對學生來說,難度相對較大。以往機器學習的課程教學,主要以講授為主,實驗項目設計較為匱乏,學生學習一般以方法學習為主,對于機器學習整體項目流程和知識結構掌握不足,導致學生難以將所學知識應用到實際問題中[4]。成果導向教育(Outcomes-Based Education,OBE) 強調以學生為中心,以成果為導向,基于OBE理念的教學方法能夠顯著提高學生的成績和學習興趣[5-8],為解決這一問題提供了新的思路。
本文基于OBE理念,設計了一個玉米秸稈木質素含量檢測的回歸實驗案例,旨在提升學生的實踐能力和創新能力。
2 實驗教學設計
2.1 實驗環境介紹
回歸模型實驗教學課程中,實驗內容涉及機器學習課程很多重要知識點,按照采集數據、特征工程、建模、模型優化、結果分析的流程進行實驗項目設計,其中實驗環境如下:
Python版本:3.8.3
Python編輯器:Jupyter Notebook(Anaconda3)
Python工具包:numpy、pandas、matplotLib、preprocessing、decomposition、manifold、svm等
2.2 相關技術介紹
實驗項目的設計遵循OBE理念,對數據分別使用PCA和LE進行維數簡約,分別建立PLSR、SVR和RF回歸模型,對預測結果進行對比分析,并根據預測結果對回歸模型進行優化。
1) OBE理念。基于OBE理念的機器學習課程,以課程目標為導向,針對機器學習課程的特點,關注學生的個性化發展和創新能力培養,并以此為基礎設計實驗內容,幫助學生在學習的過程中達到預期的學習成果。
2) 特征工程。主成分分析(Principal Component Analysis, PCA) [9]是一種基于特征值分解的線性降維方法,利用正交變換將原始特征轉換為一組新特征,根據重要性從大到小排列,達到維數簡約的目的,能夠較好地處理具有線性關系的數據集。拉普拉斯特征映射算法(Laplacian Eigenmaps, LE) [10]是一種基于圖譜理論的流形學習算法,將高維空間中的無向有權圖嵌入低維空間,其基本思想是高維空間中的距離相近樣本點映射到低維空間后盡可能地靠近,能夠較好地處理具有非線性關系的數據集。
樣本劃分方法包括RS、KS、SPXY。RS隨機劃分樣本集,在實驗中不具有重復性,光譜-理化值共生距離算法(Sample set portioning based on joint x-y distance,SPXY) [11]在KS算法的基礎上,結合樣本和理化值計算樣本間距離劃分樣本集。
3) 回歸模型與參數優化。偏最小二乘回歸(Partial Least Squares Regression, PLSR)[12]是一種經典的多元線性回歸模型,集合了主成分分析、多元線性回歸、相關分析的優點,在對具有較高緯度的小樣本數據集進行回歸分析時,預測結果較好。PLSR中主因子個數f對模型的預測精度有一定影響,f在實驗中通過實驗確定。
基于統計學習理論的支持向量機回歸(Support Vector Regression,SVR) [13]算法在處理線性和非線性問題時,具有較強的魯棒性和預測能力,SVR尋找一個最優超平面,使樣本點到超平面的總方差最小。SVR模型中,c為懲罰因子,即對誤差的懲罰程度,c越大,懲罰越大,模型越復雜,對于誤差容忍度越小。g為核函數參數,反應支持向量的相關程度。g越大,支持向量越少,模型越簡單。c、g的取值對模型結果具有一定影響。
隨機森林回歸(Random Forest Regression,RF) [14]是一種基于決策樹的集成學習模型。在訓練樣本中隨機選擇若干特征生成一棵決策樹,若干決策樹組成隨機森林,對每棵樹的預測結果進行平均和投票,得出最終結果。RF算法魯棒性強,預測準確性高。決策樹的棵數n通過實驗確定。
對于模型的預測結果,使用決定系數R2和均方誤差MSE作為回歸模型的評價指標。R2越大、MSE越小,說明回歸模型預測性能越強,預測結果越準確。
2.3 實驗內容設計
1) 玉米秸稈數據集
我國玉米秸稈每年的產量巨大,主要用途有飼料、肥料、燃料等。木質素是玉米秸稈的重要組成成分,是一種用途廣泛的工業原料。木質素含量的測定對實現木質素的利用和轉化,降低工業使用成本和增加經濟效益、環境效益等方面具有重要意義。
實驗選取的玉米秸稈數據集[15]是一組由黑龍江八一農墾大學提供近紅外光譜數據,共188個玉米秸稈數據,每個樣本1 845個特征,使用木質素含量作為標簽。學生使用的數據為經過多元散射校正預處理后的數據,玉米秸稈光譜圖如圖2所示。
2) 特征工程
引導學生對數據進行降維。玉米秸稈數據共1 845個特征,除了樣本化學成分分析外,還有一些冗余特征,這些特征的存在影響回歸模型的精度和穩定性。為了消除冗余特征的影響,在回歸建模之前,分別使用PCA算法和LE算法對玉米秸稈數據進行降維。PCA降維時,選取累計主成分貢獻率達到99.99%時的主成分數量作為維數d。其主成分累計貢獻率如圖3所示,橫坐標為PCA主成分數目,縱坐標為累計貢獻率。在d取值為41時,累計貢獻率達到99.99%,因此,取m=41建立回歸模型。LE的近鄰點個數k和維數m通過實驗得到,其中k取值為7,m取值為55。
采用SPXY將降維后的玉米秸稈數據按照7∶3的比例劃分為訓練集和預測集。其中,訓練集共132個樣本,測試集共56個樣本。
3) 回歸建模與結果分析
玉米秸稈數據分別建立PLSR、SVR、RF模型,木質素含量回歸模型預測結果如表1所示。
SVR模型采用徑向基核函數,對于懲罰因子c和核函數參數g首先給定一個具體的值,得到訓練集和測試集的R2和MSE。如對原始全光譜數據,c=1,g=0.1,得到訓練集R2和MSE分別為0.734 9、0.357 3,測試集R2和MSE分別為0.771 2、0.344 5,引導學生思考,是否可以通過調整c和g的值,使R2達到0.8以上?調整c=10,g=0.3,得到訓練集R2和MSE分別為0.804 1、0.264 1,測試集R2和MSE分別為0.830 3、0.255 6。引導學生發現結論并提出問題:根據上述結果可以發現,修改c、g的值,會得到不同的R2和MSE,那么在c、g取何值時,能夠得到最好的R2和MSE呢?c、g的取值怎樣實現自動取值呢?引入網格搜索概念,網格的交叉點即為c、g的取值,代入SVR模型使用十折交叉驗證得到最優c、g。對于全光譜、降維后光譜數據,分別使用網格搜索尋找最優值,c為10,當采用原始全光譜建模時,模型g為1,其余模型g為10。通過實驗,選擇10作為PLSR的因子數;對于RF模型的分類器個數,PCA降維后模型分類器個數為6,其余模型分類器個數為8。
由表1可知,經過PCA和LE降維后建立的三種回歸模型優于全譜模型,說明對光譜數據降維能夠在降低光譜數據維度的同時提高預測準確率。對于SVR模型,LE降維后模型存在擬合現象,可能是LE重構特征時,擬合噪聲數據,導致模型在測試集上的泛化能力較差。對于RF模型,原始全光譜模型擬合嚴重,可能由于原始光譜數據的特征中含有噪聲信息對模型造成干擾。對比表1中所有模型,LE降維后建立的RF模型測試集決定系數R2最高,與訓練集R2之間誤差最小為0.002 1,測試集的均方誤差最小,說明MSC+LE+RF模型在數據預測和模型擬合方面表現最佳。結果表明,MSC+LE+RF模型能夠實現對木質素含量的測定。
圖4(a)(b)(c)分別為使用PCA算法降維后建立PLSR、SVR和RF三種回歸模型時測試集的預測值和真實值的散點圖,其中,x軸為真實值,y軸為預測值。由圖4(b)可知,SVR模型的散點圖中的數據較為集中,靠近回歸線;a、c兩圖對比b圖數據較為分散。這與表1中結果一致,其中SVR模型的測試集R2為0.9331,大于PLSR模型和RF模型測試集R2。
圖5(a)(b)(c)分別為使用LE算法降維后建立的PLSR、SVR和RF三種回歸模型的預測值和實際值散點圖。由圖可知,圖5(c)中RF模型的散點的數據較為集中,靠近回歸線;a、b兩圖數據較為分散。之一現象與表1中結果一致,RF模型的測試集R2為0.9408,大于PLSR模型和SVR模型測試集R2。對比圖4和圖5可知,圖5中數據點更加靠近回歸線,其中LE+RF的測試集R2為0.940 8,優于PCA+SVR的測試集R2(0.933 1) 。通過分析表格和圖形中的數據,引導學生學會分析機器學習結果的優劣以及出現不同結果的原因,進一步理解模型中參數的意義。
4) 思考及動手實踐
學生完成上述實驗后,引導學生思考并實現下面問題。
①對于LE,采用實驗確定近鄰點個數k和維數d,對于SVR的參數c和g采用網格搜索尋找最優值。思考使用網格搜索實現LE的最優的k、d值時如何實現。網格搜索尋找最優值,這種方法具有全局搜索能力,獲得全局最優值,但是網格搜索對于網格的邊界設計敏感,計算速度慢。針對網格搜索的不足,結合學習的其他優化方法,如智能優化算法等,查找c和g的最優值。
②上述實驗中使用PLSR、SVR、RF建立回歸模型,除了上述三種回歸模型,思考并實現,將模型更換為貝葉斯嶺回歸、KNN等,請給出模型預測結果。
③上述實驗中,使用機器學習方法對玉米秸稈的近紅外光譜數據進行處理,預測木質素的含量,是機器學習在近紅外光譜領域中的應用,思考機器學習方法應用到其他領域如何實現。分類問題與回歸問題流程基本相似,在分類的章節講解后,引導學生根據回歸問題實現流程完成分類問題的設計與實現。
④實驗中選擇三種回歸方法建立模型,內容較多,在教學過程中建議學生分組分工完成,提升學生團隊合作的能力。
5) 實驗總結
①課程內容總結
在上述回歸實驗的基礎上,總結回歸問題的解決思路和具體實現步驟。首先,明確回歸任務要求,木質素含量檢測。然后按照機器學習項目開發流程實現木質素含量檢測:采集玉米數據光譜數據,采用化學方法測定木質素含量(本次實驗直接給出數據集,省略此步驟) ;對數據進行PCA和LE降維;建立PLSR、SVR、RF回歸模型,輸出結果;根據模型輸出結果,選擇合適的方法對模型參數進行優化。對比不同模型的結果,分析模型不理想的原因,以便后續進行優化。最后,針對實驗步驟,提出問題,引發學生思考,并動手實踐,得到實驗結果,對結果進行分析,得出結論。
②教學效果與評價
實驗課程教學采用理論和實踐結合的方式,關注回歸模型的實際應用,突出目標為導向,學生為中心的實踐教學方法。實驗教學設計,不僅關注學生學情,同時關注提升學生能力。實驗涉及的知識點較多,除了回歸模型方法和模型參數優化外,還涉及特征工程內容等,學生實踐過程中通過教師指導和相互間討論使每個同學都完成實驗。學生在學習理論知識的同時,掌握實際應用,為下一步推廣到其他領域以及算法改進打下基礎。針對該案例講解前后學生對回歸模型的掌握程度開展調查問卷,結果如圖6所示。從圖6看出,學生對于回歸模型的掌握程度有了很大提升,在理解的基礎上熟練應用到其他領域。從整體來看,本次實驗課程設計取得良好的教學效果。
3 結束語
基于OBE理念對機器學習課程中回歸模型實驗教學進行改革,理論與實踐結合,顯著提升學生應用回歸模型解決實際問題的能力。未來,將不斷反思和總結經驗,在現有成果基礎上,將此方法應用于分類、聚類等模型的實踐教學中,提升學生使用機器學習算法解決實際問題的能力。
參考文獻:
[1] CORDEIRO F C,DA SILVA P F,TESSAROLLO A,et al.Petro NLP:Resources for natural language processing and information extraction for the oil and gas industry[J].Computers amp; Geosciences,2024,193:105714.
[2] FRANCIS J,GEORGE S,DEVASSY B M,et al.Development of a unified framework of low-rank approximation and deep neural networks for predicting the spatial variability of SSC in `Spania' watermelons using vis/NIR hyperspectral imaging[J].Postharvest Biology and Technology,2025,219:113222.
[3] JANITRI V,ARULJOTHI K N,RAVI MYTHILI V M,et al.The roles of patient-derived xenograft models and artificial intelligence toward precision medicine[J].MedComm,2024,5(10):e745.
[4] 楊光,陳亞睿.機器學習案例化教學方法研究[J].電腦與電信,2021(11):33-36.
[5] ILOANYA J.Preparing the 21st century teacher for the implementation of outcomes-based education:the practical reality[J].American Journal of Educational Research,2019,7(7):439-444.
[6] KHAN M S H,SALELE N,HASAN M,et al.Factors affecting student readiness towards OBE implementation in engineering education:Evidence from a developing country[J].Heliyon,2023,9(10):e20905.
[7] CABRERA F R.Outcomes-based education (OBE):its effect to the mathematics performance,mathematics skills and attitudes towards mathematics of the BSCS students[J].Advanced Science Letters,2017,23(2):1081-1084.
[8] 徐完平.基于OBE理念的Python程序設計課程教學改革研究[J].電腦知識與技術,2024,20(21):169-171,177.
[9] 竇世卿,陳治宇,徐勇,等.基于多特征融合與典型降維方法的高光譜影像分類[J].測繪通報,2022(4):32-36,50.
[10] 李響,呂勇.結合拉普拉斯特征映射的權重樸素貝葉斯高光譜分類算法[J].分析測試學報,2020,39(10):1293-1298.
[11] SHAO Y Y,SHI Y K,XUAN G T,et al.Hyperspectral imaging for non-destructive detection of honey adulteration[J].Vibrational Spectroscopy,2022,118:103340.
[12] WOLD H. Path models with latent variables: The NIPALS approach [M]. 1975.
[13] CORTES C, VAPNIK V. Support-Vector Networks[J]. Machine Learning, 1995,20(3):273-97.
[14] 伍中信,劉思菡.基于隨機森林回歸分析的上市公司碳排放效應研究[J].湖南財政經濟學院學報,2024,40(4):27-38.
[15] ZHANG X W,CHEN Z G,YI S J,et al.Rapid detection of lignin content in corn straw based on Laplacian Eigenmaps[J].Infrared Physics amp; Technology,2023,133:104787.
【通聯編輯:王 力】