廣西民族師范學院化學與生物工程學院 汪國海
隨著經濟社會的快速發展,生物學實驗數據的收集方法更趨向于綜合化和復雜化,致使獲得的實驗數據信息呈現爆發式增長并不斷積累,對深度挖掘實驗數據的軟件和數據可視化的需求越來越高。將R 語言應用于生物統計圖形的可視化中,既能滿足學生對數據可視化分析的需求,又能提高學生對實驗數據動態變化的理解和課程興趣。
生物統計學是一門理論知識豐富且實踐性很強的課程,其主要以概率論、線性代數為基礎推斷并解釋生物學現象,該課程的開設有利于培養學生分析和解決實際生物學問題的能力,為后期數據分析和科研能力的提升打下堅實的基礎[1]。但由于生物統計學課程公式推導復雜,對學生的數學基礎要求高,易使學生缺少興趣[2];同時隨著大數據技術的快速發展,實驗數據的類型和收集方法更傾向于綜合化和復雜化,對數據挖掘的深度和圖形可視化的要求越來越高,需要不斷的引入新的數據分析軟件才能全面綜合的反映出實驗數據的動態變化。
R 語言是一個能兼容多種類型的數據格式并具備交互式的數據分析能力的開源軟件[3],尤其是強大的擴展能力和豐富的功能選項,使其能獨立完成不同類型的生物統計數據分析和可視化過程,降低了不同軟件間的頻繁切換程度[4]。ggplot2 是R 語言中最為強大的作圖程序包,其核心理念是將繪圖與數據分離,數據相關的繪圖與數據無關的繪圖分離,是按圖層作圖,同時它保有命令式作圖的調整函數,使其更具靈活性,繪制出來的圖形美觀,同時避免繁瑣細節,從而使數據分析者更能將注意力集中于數據分析本身[5]。本文通過使用R 語言中的ggplot2 程序包實現生物統計學常見圖形的可視化過程,并附上相關的代碼以便為生物統計學的課程發展與改革提供參考。
條形圖由一組寬度相同,高度與頻數成比例的長方形組成,表示研究對象數據的大小,如圖1 所示。

圖1 嚙齒動物對不同微生境中種子的搬運率Fig.1 .Seed transport rates of rodents in different microhabitats
代碼如下:

散點圖是指在回歸分析中將兩組數據構成的多個坐標點標記在直角坐標系中,可以用來描述2 個連續型變量間的關系即因變量與自變量的變化關系,并對數據點進行擬合,如圖2 所示。

圖2 單性木蘭幼苗密度與巖石裸露率間的關系Fig.2 Relationship between seedling density and rock exposure
代碼如下:

小提琴圖用于展示多組數據的分布狀態及概率密度,因其形狀酷似小提琴而得名,是優于箱線圖的一種統計圖形。它結合了箱線圖與密度圖的特征,是核密度圖以鏡像的方式在箱線圖上的疊加,圖中的白點代表中位數,黑色的豎條狀為數據的下四分位點到上四分位點,兩側的細黑線代表95%置信區間,外部曲線形狀為核密度估計,如圖3 所示。

圖3 不同處理下種子續存變化Fig.3 Changes of seed survival under different treatments
代碼如下:


面積圖顯示每個數值所占大小隨類別變化的趨勢,可顯示部分與整體的關系。使用面積圖可以分析不同年份間果實數量的分布情況進而了解植物的物候變化及其種群發展潛能,如圖4 所示。

圖4 不同年份間植物果實數量變化Fig.4 Changes of fruit quantity in different years
代碼如下:

4.ggplot(cd,aes(x=Year,y=Sea))+geom_area(colou r="black",fill="blue",alpha=0.2)#繪制基礎圖形并設置相應的參數
二維密度圖顯示了兩個數值變量之間的關系,一個在x 軸上表示,另一個在Y 軸上表示,與散點圖類似,然后計算二維空間中特定區域內的觀測數,并用顏色梯度表示,如圖5 所示。

圖5 單性木蘭空間分布圖Fig.5 Spatial distribution of monosexual magnolias
代碼如下:


使用R 語言可對類別型變量和連續型變量進行深度分析的同時繪制出精美的圖形,一直是科研工作者追求的目標。美觀且實用的可視化圖形含有大量的信息,在提高科研工作效率的同時還能不斷豐富作圖代碼。但在生物統計學課程中使用R 語言進行教學時,還需要考慮學生的前期基礎和個人的思維習慣,不斷因材施教提高學生對R 語言可視化圖形代碼的理解和實際應用能力。
引用
[1] 童婷,劉春燕,謝文華,等.生物統計學混合教學模式的探索與實踐[J].科技文匯,2021,29:62-64.
[2] 關天霞,張有富,張芬琴.“生物統計學”課堂教學和考核體系改革的探索[J].教育教學論壇,2021(19):89-92.
[3] 張哲,張豪.淺談R語言在生物統計學教學中的應用[J].教育教學論壇,2013(27): 54-55.
[4] 張智杰,牛青山.R語言在法庭科學DNA檢驗中的應用現狀[J].中國法醫學雜志,2021,36(6):637-637+645.
[5] 袁佳.R語言及ggplot2在環境空氣監測數據可視化中的應用[J].中國高新技術企業,2015(16):88-91.