曾祥潘 廣東省廣州市白云區景泰小學
吳俊杰 北京師范大學物理系
孫麗君 山東省淄博第二中學
中小學校在實驗研究中,往往受到各種條件的限制,不允許做大量的實驗觀測,因此能夠取得的實驗數據比較少。通過少量數據推測研究對象的規律,需要進行統計學分析和處理。借助統計軟件可以很便捷地對數據進行統計分析,極大降低數據處理難度和節約分析時間。目前常用的統計軟件可分為以SPSS為代表的商業軟件和以R語言為代表的開源軟件。相對而言,R語言更適合中小學校使用。這是因為R語言除了滿足統計領域的使用,還有非常強大的拓展性,提供了數千個涵蓋了各個領域的開源工具包。同時,學??山柚鶵語言開展統計、編程或其他領域的教學實踐。另外,R語言及開源工具包都可以免費使用,這有助于研究成果的推廣與延續。
筆者結合實驗實例,敘述了在對照實驗項目中采用R語言進行數據的整理、分析及可視化呈現。這樣有助于中小學師生了解R語言的功能與應用,幫助有需要的研究者迅速掌握R語言,正確地統計分析數據。
R語言是一種交互式計算處理環境,用戶可在官網(www.r-project.org)下載安裝。R語言安裝后是在命令行窗口操作,為了方便使用,可安裝R語言的集成開發環境Rstudio。Rstudio可在官網(www.rstudio.com)找到免費版本下載,安裝后界面如圖1所示。

圖1 Rstudio功能界面
Rstudio界面可分為四個功能區。其中程序編輯區用于編寫R語言腳本程序,程序執行后輸出數據和提示信息將在命令控制臺顯示。如果是簡單的操作可直接在控制臺輸入指令,無需編寫獨立程序。數據環境用于呈現導入的數據結構等信息。在使用R語言繪圖時,圖片會在繪圖輸出中顯示出來。
數據采集有很多方式,既可以用人工記錄的傳統方式,也可以通過信息化儀器設備自動采集。
(1)手工記錄。這是傳統方式,用眼看手記把實驗數據抄寫在記錄紙上或直接錄入到電子表格。對于數據多、持續時間長的實驗項目,需要耗費比較多的人力資源,而且持續記錄容易疲勞,從而導致出現較多的錯誤。
(2)數字化實驗(DIS)自動記錄。使用DIS器材開展實驗,可以解決手工記錄容易出錯的問題。但是DIS設備購置經費投入大,不容易普及推廣。部分實驗項目可借助開源硬件傳感器,通過自制實驗器材的方式解決,這需要實驗員做更多的技術準備。
(3)對實驗項目改進。利用人工智能等先進技術改進實驗器材,使其提高使用效率、提升精度等。例如,借助深度學習工具,自動識別儀器讀數等。還可以重構實驗項目,如利用OpenCv計算機視覺識別實驗對象的周長、投影面積,代替手工測量和計算。通過這些方法能夠較便捷地取得實驗數據。
實驗數據獲得后,可保存為CVS、XLS等數據格式,再通過Rstudio菜單File→Import Dataset導入R語言進行分析檢驗。
數據可視化是把數據轉成圖形的方式顯示出來,可以讓用戶快速、直觀地分析數據,了解數據的整體狀況。R語言常用的可視化圖形有直方圖、散點圖、箱形圖等。下面,以繪制小番茄重量的頻率分布直方圖為例,了解R語言的繪圖方法。
先在Rstudio導入小番茄重量文件“tomato.xls”,該電子表格第1列“sn”為序號,第2列“weight”是小番茄重量。在命令控制臺輸入以下繪圖指令:
>hist(tomato$weight, freq=F)
其中,“hist”是繪制直方圖函數;“tomato$weight”是數據來源,來自tomato文件的weight列;“freq=F”是指定繪制頻率直方圖,如果改為“freq=T”則是繪制頻數直方圖。繪制的圖像效果如圖2所示。

圖2 小番茄重量分布直方圖
此外,還可以在直方圖上疊加其他圖形。例如,疊加密度曲線,輸入以下指令:
>lines(density(tomato$weight),lw d=2)
在上述指令中,“lines”是畫線函數;“density(tomato$weight)”的作用是把重量數據轉換成密度數據;“lwd=2”是設定線條粗細。繪圖效果如下頁圖3所示。

圖3 直方圖疊加密度曲線
通過觀看圖形可以非常清晰地了解數據的分布情況,也能快速發現是否有奇異數據的存在。頻率分布直方圖也是在后續做數據正態分布檢驗的一個參考。
在數理統計分析中,只能由估計量估計總體的參數,總體參數始終是不可知的,只能通過統計檢驗,由統計量推斷總體參數。一般在統計中先對參數提出假設,然后再根據假設進行數據檢驗。下面,以檢驗櫻桃輪廓特征(果實投影面積及寬高比)差異性為例子介紹檢驗過程。
取得大紅櫻桃、大黃櫻桃各30枚,拍照后用OpenCv獲取每一顆櫻桃的輪廓特征數據。假設顯著性水平a=0.05,問是否可以認定每兩組櫻桃的輪廓有差異?
分析:每一組櫻桃30顆,數量少屬于小樣本;櫻桃樣本是隨機分組,屬于獨立樣本。因此可使用兩獨立樣本t檢驗,其操作流程為:正態性檢驗→方差齊性檢驗→t檢驗。
應用t檢驗的前提條件是數據必須服從正態分布,適用于小樣本正態性檢驗的方法是S-W檢驗。其次是方差齊性檢驗,使用F檢驗。檢驗指令及結果如下表所示。
從檢驗結果可知,兩組數據正態性檢驗p-value值均>0.05,說明符合正態分布;方差齊性檢驗p-value=0.7072>0.05,滿足方差齊。因而可以使用兩獨立樣本t檢驗,檢驗結果p-value=1.133e-07<0.05,說明兩組數據有明顯差異。
數據的正態性決定了后續檢驗方法的選擇,如果數據不服從正態分布,差異性檢驗就不能使用t檢驗,否則將得出錯誤的結論。
R語言語法簡單,容易編寫,利用好R語言對于統計分析來說具有重要的現實意義。本文介紹的內容只是R語言龐大功能的一小部分,對R語言感興趣想深入了解的讀者可以通過R語言的書籍等相關資料進一步學習掌握。

兩獨立樣本樣本t檢驗過程