席振 熊立偉 劉芬良
摘要:R語言是一種統計計算和繪圖的語言和環境,當前在地理信息科學專業背景下開設的《R語言》課程以統計學和概率論為基礎,在融合GIS專業背景方面,存在著GIS相關內容較少、新算法學習滯后等問題。針對這些問題進行探討,提出對應的改革方法,以加深學生對R語言智能處理地學信息的理解,使學生更好地掌握地理信息科學專業知識,提升專業知識技能。
關鍵詞:R語言;地理信息科學;機器學習;教學探索
中圖分類號:G642 ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)31-0227-02
Exploration of R language teaching under the background of geographic information science
XI Zhen, XIONG Li-wei, LIU Fen-liang
(School of Municipal and Geomatics Engineering, Hunan City University, Yiyang 413000,China)
Abstract: R is a language and environment for statistical calculation and drawing. The current "R Language" course offered under the background of geographic information science is based on statistics and probability theory. In terms of integrating the background of GIS, there are problems such as less GIS-related content and lagging in the learning of new algorithms. To discuss these issues and propose corresponding reform methods to deepen students' understanding of R language intelligent processing of geoscience information, so that students can better master the professional knowledge of geographic information science and improve their professional knowledge and skills.
Key words: R language; geographic information science; machine learning; teaching exploration
R是一種統計計算和繪圖的語言和環境。R有很多獨有的特征:完全免費,全面的統計研究平臺,制圖功能十分強大,囊括了其他軟件所不可用的、與時俱進的統計計算程序,新方法的更新速度是以周來計算的 [1]。正是由于R有這么明顯的優勢,在很多高等院校多種專業都開設了R語言相關的課程。
從MOOC平臺查詢R語言課程可以發現有多門R語言相關的課程。國家精品課程包括《多元統計分析與R語言建模》《多元統計分析》。其他包括《R語言與金融數據挖掘》《大數據中的R語言編程》等。其中《多元統計分析與R語言建模》是統計學專業的核心課程。課程內容包括多元統計分析概述;多元數據的數學表達;多元數據的直觀表示;多元相關與回歸分析;廣義與一般線性模型;判別分析及R使用;聚類分析及R使用;主成分分析及R使用;因子分析及R使用;對應分析及R使用;典型相關分析及R使用;多維標度法及R使用;綜合評價方法及R使用。除了慕課平臺,在Bilibili站中有大量R語言的教學視頻,主要分為兩類:其一為R入門基礎課程,主要包括R的基礎語法與操作教學視頻,有各高校上課的視頻也有網站個人錄制的視頻;其二為R語言處理專業數據教學視頻,如醫學統計學、生物信息學、金融學等,這方面的視頻以個人錄制為主,講解面向對應專業,有的放矢,一般有理論分析,也有案例解析,對具有專業背景學生學習R語言處理專業數據的理想教學視頻。在其他的教學網站,如智慧樹也有許多R語言相關的課程,課程內容大體與上述兩類類似。
從已設置R語言課程可以看到,當前R語言課程的教學內容主要包括R語言的基礎編程、可視化編程、機器學習算法及其在某些專業的應用內容。
1 GIS專業R語言教學內容分析
地理信息科學專業旨在培養學掌握寬厚的地理信息科學與地圖學的基本理論、基本知識和基本技術。具備數據采集、編輯、處理和分析以及地理信息系統應用開發能力,能在城市規劃、國土資源以及測繪和地理信息行業的企事業單位和政府相關部門從事數據采集、處理、分析以及應用開發等工作。R語言與地理信息科學專業課程之間存在三個方面的緊密聯系:
1.1 基于地理位置的可視化
地圖學是地理信息科學的一門主要課程,空間數據的表達和可視化是本專業一項基本工作。R語言在地圖可視化方面有大量優秀的函數包,如GISTools包提供多個常用的地圖制圖和空間數據處理工具,具有完善的綜合制圖功能。recharts包是基于Echarts接口的交互式可視化二次開發地圖可視化包。leaflet包提供基本的在線地圖(如Google Map、OpenStreetMap)可視化功能,支持地圖的交互式操作,支持不同來源地學信息的疊加可視化。
1.2 空間統計分析
R作為專業的統計軟件,在數據分析中,可以快速一鍵式的完成定性分析到定量分析。空間地學數據除了具有一般數據的數學特征外,還具有空間地理特征的屬性,R語言有許多可以一鍵式快速分析空間數據的空間統計分析函數工具包。另外,R語言由于語言的特性,對處理數據的規模大小不敏感,這是顯著優于其他的空間統計軟件。如spdep是空間決定性工具包,包括空間權重矩陣計算、空間自相關分析、空間濾波模型等空間統計分析數據,功能十分強大。GWmodel包是空間關系異質性地理加權技術函數包,囊括了地理加權相關的回歸、主成分分析、匯總統計、判別分析等地理加權建模技術,是當前地理學中研究熱點和研究難點之一[2]。
1.3 空間數據的機器學習模型
機器學習是研究計算機模擬或實現人類的學習行為,以獲取新的知識和技能,重新組織已有的知識結構不斷改善自身性能。設計多學科知識,如統計學、概率論、算法復雜度理論等。是當前和今后一段時間持續的一個研究熱點。R語言中的機器學習函數包從古典的判別分析、貝葉斯方法到神經網絡、深度學習等,覆蓋全面,更新以周為單位[3]。在地理信息科學中,對空間數據的分析、模擬和再現是地理信息科學重要的一環。當前,GIS自我學習的能力還不足,自我檢驗與驗證是各類地學數據分析的重要研究內容之一。基于機器學習的空間數據分析技術與應用包含數據的建模與分析、空間優化、智能主體模擬等,可以充分地與R語言中機器學習算法函數包相結合,以提高效率,提高精度。
2 GIS專業R語言教學內容探索
對于GIS專業設置的《R語言》課程,目的是加深學生對R語言在地理信息專業中的應用理解,使學生更好地掌握R語言的編程技巧。我校地理信息科學專業《R語言》課程設置為32個學時,16個學時理論課,16個學時實踐課。
對于GIS專業設置的《R語言》課程,目的是加深學生對R語言在地理信息專業中的應用理解,使學生更好地掌握R語言的編程技巧、對應地理信息科學的相關算法,提升處理和分析專業地學信息的技術,為學生將來更好地融入不同的工作崗位,適應地理信息科學日新月異的發展變化奠定良好的基礎。從地理信息科學專業設置的《R語言》課程中理論講授內容、數據和方法及實踐內容等四個方面,把《R語言》課程設置為32個學時,16個學時理論課,16個學時實踐課。
2.1 理論教學
R語言基礎語法、數據常規處理及基本可視化是R語言學習深造的基礎,特別對以前從未接觸過R語言的初學者。因此,課程理論課中8個課時為基礎入門教學設置。內容包括:簡介與語言環境安裝;數據結構與基礎語法;常用數據處理函數;基礎可視化。
第二部分為R中的空間數據表達與處理。引入R語言處理和可視化空間數據的內容,使學生能夠更好地理解地理信息科學專業課的內容,更快地融入到專業學習上。首先需要指導學生掌握空間數據與普通大數據在R中不同的數據結構;而后學習空間數據在R中的模型建立與分析;最后是R對空間數據的可視化和交互式可視化(與WebGIS課程教學互動)。這里,根據地理信息科學其他專業課程的教學進度,要把空間分析、遙感圖像處理、WebGIS二次開發等內容引入到R語言中,詳細學習并實踐專業課程內容在R中的體現,使同學們能夠根據實際情況靈活運用R語言解決遇到的問題。
2.2 實踐課程設計
結合理論教學,地理信息科學背景下的《R語言》實踐課程需要讓學生理解并熟練應用下列內容:R語言數據結構與基礎語法;基礎可視化與空間數據表達;空間數據處理與分析;簡單的大數據挖掘模型。圍繞這四塊內容,16個課時的實踐課程設置為:數據結構與基礎編程語法(2課時);基礎數據讀寫與數據處理(2課時);統計數據可視化(2課時);空間數據結構與數據分析(2課時);空間數據可視化與交互式可視化(2課時);線性回歸與空間數據探索性分析(2課時);選址與預測綜合分析(4課時)。
3 結語
隨著信息社會的快速發展,R語言在地理信息大數據的處理方面發揮越來越重要的作用,在地理信息科學專業開設R語言的課程十分必要。我校從2019年在地理信息科學專業開設R語言課程,在課程的教材選擇與教學內容篩選方面一直在摸索。通過對R語言與地理信息科學專業結合應用的分析,從教學內容、數據和方法實踐等方面進行深入討論,建議將R語言強大且更新周期短的新型算法用于地理信息科學專業R語言的理論和實踐教學中,設置一定的課時量在理論和實踐設計中添加空間數據與機器學習相結合的內容,避免出現地理信息科學專業背景下R語言課程脫離專業實際。
參考文獻:
[1] 汪浩,李瑩.大數據/人工智能背景下IT專業基于R的概率論與數理統計教學改革[J].計算機教育,2021(3):180-184.
[2] 盧賓賓. R語言空間數據處理與分析實踐教程[M].武漢:武漢大學出版社.
[3] 宋關福,盧浩,王晨亮,等.人工智能GIS軟件技術體系初探[J].地球信息科學學報,2020,22(1):76-87.
【通聯編輯:李雅琪】
收稿日期:2021-05-22
基金項目:湖南省普通高等學校教學改革研究項目(HNJG-2020-0787)
作者簡介:席振(1986—),河南駐馬店人,博士,講師,研究方向:地質資源與地理信息處理。