(長治學院,山西長治市,046011) 張蓬霞
在早期,R語言多被應用于統計學領域,后續隨著該項語言的應用發展,憑借著自身種種優勢特性,R 語言的應用領域也得到了有效擴展。尤其是互聯網時代的來臨,伴隨著海量信息數據的產生,針對這些數據的挖掘處理,更需要應用R 語言提供相應的幫助。如果在數學建模之中充分利用R語言,同樣有利于建模效率與效用價值的發揮與展現。
對R 語言進行追根溯源,我們能夠了解到,這門語言最早是受S 語言與Scheme 語言影響發展而言,其中S 語言創建于1976 年,創建者是John Chamber;Scheme 語言創建時間是20 世紀70 年代,創建者是Guy L.Steele 與Gerald Jay Sussman。在早期,R 語言的主要使用者是統計學家與數據分析人員,他們經常使用R 語言,開展統計分析以及圖形可視化工作,R 語言的創造者是Ross Ihaka 與Robert Gentleman,由于兩人的姓名都是以R 開頭,因此兩人創造的語言也被形象地稱之為R語言。R語言最早是基于S語言的一個GNU項目,因此可以將R 語言視為S 語言的一種實現。一般情況下,采用S 語言編寫的代碼,都能夠直接在R 語言環境下運行。
R語言作為一種函數語言,語法非常簡單,使用方式自由靈活,入門門檻不高,完全面向對象,實際命名也不存在復雜的規則,深受S 語言的影響。R語言使用免費,相關語言代碼開源,因此在很多高等院校以及組織機構之中有著廣泛的應用。R語言語法雖然相對簡單,但想要深入掌握這門語言,僅僅掌握語法還遠遠不夠。究其原因在于,R 語言有著非常廣泛的涉獵范圍,從移動互聯網,到統計數據分析,從金融風險預測,到大數據挖掘,從生物信息研究,到地球物理探索,上述諸多領域均有著R語言的使用身影。尤其是近些年來,R 語言的應用領域再次得到了擴展,在工業領域中的應用價值逐漸得到凸顯。
為了能夠更加熟練地應用R語言,必須要熟悉這門語言的基礎語言知識結構。相較于其他編程語言來說,R語言誕生之初,主要是為了解決統計學相關問題,而統計學本身涵蓋的數學知識領域較為繁雜,除了高等數學以及數理統計以外,還包括概率論、離散數學等,因此R 語言的知識結構同樣包含了這些復雜的數學知識理論,不僅如此,還需要將這些數學理論與復雜的業務知識相融合,才能組建一個完整的基礎語言知識結構,這些業務知識內容包括統計算法、數據庫等,如此才能更好地發揮出R語言的使用價值。
R 語言在設計之初,便遵循了一個重要設計理念,即精心做事。一般情況下,R語言的研究對象均比較復雜,比如需要結合實際需求,建立一個復雜的統計模型,在這一過程中,需要相關技術人員靜下心來,認知思考如何進行模型的構建,合理選擇相應的模型參數,而不需要考慮如何設計程序,因此采用代碼也不會太過復雜,在實際應用時,只需要結合實際需要,調用相關的函數,完成參數傳遞,不需要考慮空間與時間復雜度等相關問題。
除了上述特性以外,R 語言還存在一些其他的特性,比如R 語言能夠與其他編程語言共用,尤其是S 語言與Scheme 語言,三者有著非常緊密地聯系。除此之外,R語言還能夠通過相應接口,很好地與數據庫對接,本身R 語言的保存機制也比較完善,網上資源豐富等,正是這些特性的存在,使得R語言在當前時代得到了廣泛的應用。
為了更全面深入地了解R語言的特性,文章本次選擇了其他三種編程軟件與之進行對比,這三款編程軟件分別是“MATLAB”軟件、“SPSS”軟件以及“SAS”軟件。上述三種軟件與R語言在商業方面有著較強的競爭力,并且相應的軟件在不同領域之中均有著各自的優勢特性。
“MATLAB”軟件在圖像處理能力方面表現較為出色,相關數據信息能夠可視化呈現,與此同時,還能夠標注相應的圖形,并完成圖形打印。針對圖形處理,還能夠實現頂層設計,并完成相應的圖形計算與工程繪圖。“SPSS”軟件在圖像處理方面,有著比較友好的界面,能夠獲得高質量的圖形信息,可以在圖像處理中使用編程語言,但圖形工具有待進一步完善,深入掌握應用的難度較大。“SAS”軟件在圖像處理方面,有著非常完善且強大的繪圖工具,同時搭載有專業復雜的模塊,能夠為圖形繪制處理提供良好助力。同時該款軟件也能夠使用編程語言進行圖像的繪制。“R”軟件能夠提供完善的繪圖技術,同樣具有圖形數據可視化功能,不僅如此,利用R 軟件,還能夠繪制一些動態的圖形,還能夠結合實際需求,自由靈活地進行復雜圖形的組合繪制。
“MATLAB”軟件在數據處理方面,有著諸多算法可供選擇,因此用戶可以靈活結合自身需要,選擇相應的算法完成數據的處理。“SPSS”軟件在數據處理方面,搭載有專門的數據編輯器,從而為用戶自主確定數據屬性提供了良好的便利。但在實際進行數據處理時,無法批量操作,只能夠操作處理同一個文件夾中的數據。“SAS”軟件在數據處理方面,能夠采用很多處理方式,并且一次性可同時處理多個數據文件,還能夠進行多變量數據處理,但實際操作較為復雜困難,需要長時間學習。“R”軟件在數據處理方面,操作非常便捷。與此同時,還能夠從橫向與縱向出發,自由進行數據變換。還可以采用正則表達式,進行數據字符批量化操作。因此針對一些信息豐富的數據表,處理效率非常高。
“MATLAB”軟件在統計分析方面,有著豐富的統計分析算法可供用戶自由選擇。“SPSS”軟件作為一種為“統計而生”的軟件,本身包含著大量的統計分析算法,能夠進行大規模的統計分析。不僅如此,相較于其他軟件來說,該軟件在方差分析、聚類分析以及多變量分析方面,也有著較為顯著的優勢。“SAS”軟件在統計分析方面,在方差分析方面操作比較便捷,同時還能夠結合實際,建立相應的混合數據模型,實現對多變量數據信息的處理。但在穩健方法等方面,相較于其他軟件而言,該項軟件處于明顯的劣勢。“R”軟件在統計分析方面,功能十分豐富,非常擅于進行聚類、統計檢驗以及時間序列方面的分析。同時在擴展包資源方面,R 軟件在進行統計分析時能夠表現出獨特的優勢。
“MATLAB”軟件在語言分析方面,程序語言應用比較簡單,語言特點與C++語言比較相似,同時“MATLAB”軟件程序語言有著非常好的可移植性與可擴展性,因此適用領域也比較廣泛。“SPSS”軟件在程序語言方面,由于是一種專用的統計軟件,因此不需要進行語言編程,只需要掌握相應的統計方法即可。“SAS”軟件在程序語言方面,有著非常完善的語言功能,且與其他編程語言有著良好的相似度。使用者在實際操作時,一般只要掌握了相應的語法規則,并對相關指令了如指掌,就能夠在數據分析管理方面得心應手。“R”軟件在程序語言方面,有著非常高的靈活度,并且開發者還能夠對語言進行非標準計算,從而進一步強化了語言的可操作性,賦予了語言良好的可擴展性。不僅如此,R語言比較簡單,非常容易學習入門,同時該語言軟件保留了程序設計語言的基礎邏輯,因此語言風格表現更加自然。
“MATLAB”軟件在操作方面,有著非常強的人機交互性,且界面也非常的友好,因此用戶非常容易調用相關的函數,完成計算操作。同時后續的調試也比較方便,有著非常好的可操作性。“SPSS”軟件在程序語言方面,同樣非常便捷,交互界面可以直接點擊,選擇相關的操作功能。同時還能下拉菜單,自由選擇需要操作執行的指令。但操作功能相對有限,只能進行一般的數據操作處理分析。“SAS”軟件在操作方面,界面也比較友好,本身有著專屬的SAS語言以及多窗口操作功能,實際操作性也比較靈活,且本身的數據接口功能也十分強大,可操作性較強。“R”軟件在操作方面,整體比較簡單,且該軟件有著非常多的擴展包,能夠涵蓋多個方面,因此在數據操作處理領域范圍較廣,有著非常顯著的優勢。
在當前,伴隨著R 語言的不斷深入應用發展,其已經不再局限于數據統計領域的應用,而是朝著多領域多方向不斷地深入發展。比如互聯網領域、教育領域、電商領域、金融領域、教育領域等。同時通過分析了解R語言的各種特性,我們也能夠認識到R語言在數學建模領域也有著非常良好的效用,能夠更好地助力數學建模發揮出更大作用價值。例如針對在大學生畢業后,就業問題是首當其沖必須要解決的問題,這不僅關系到大學生未來職業發展,同時對社會整體和諧穩定也有著非常積極的影響作用。從社會統計調查來看,大學生在實際進行求職時,主要考慮薪資待遇的高低、工作所在地和專業是否對口。這些內容對大學生就業均有著非常重要的影響。基于此,可以結合智聯招聘發布的《2020年秋季大學生就業報告》相關數據顯示,專科學位大學生的平均薪資為4 562 元,本科學位大學生的平均薪資為5 102 元,碩士學位大學生平均薪資為7 235 元。隨后,可以結合影響大學畢業生平均月薪的相關因素,做好不同學位大學生平均薪資數據信息的收集,通并以此為依據,建立合理的數學模型,預測2020年大學生平均薪資,最后,還可以采用MATLAB、SPSS、SAS以及R軟件對這些統計數據信息分別進行擬合,從最終的結果來看,均與《2020 年秋季大學生就業報告》給定的數據比較相似,由此能夠證明,采用MATLAB、SPSS、SAS與R軟件,對這一問題擬合均能夠起到良好的效果,但通過對比上述四種軟件的擬合優度,采用R語言所做的擬合優度與1最為接近,由此能夠證明,R語言擬合效果相較其他三種語言效果更好,同時也說明了R語言在數學建模方面有著非常顯著的作用優勢。
總而言之,R語言作為一種函數語言,本身有著很多優勢特性,比如語法非常簡單,使用方式自由靈活,能夠與其他編程語言共用,能夠通過相應接口很好地與數數據庫對接,本身R語言的保存機制也比較完善,網上資源豐富,相關語言代碼開源免費等,因此在很多高等院校以及組織機構中應用較為廣泛,基于這些優勢特性,還可以將R 語言應用于數學建模,同樣有著非常好的效用,這對推動R語言實現廣泛應用發展有著重要作用。