曹慧芬
摘要醫學統計學是數據收集、整理、分析、解釋和展示的一門學科。在大數據背景下,醫學統計學課程的建設,除了要加強學生對統計學理論知識的理解,更為重要的是培養學生對實際醫學大數據的收集、分析和展示的能力。R語言作為一種重要的程序語言,具有強大的統計分析和數據圖形展示能力。本文詳細探討以R語言對開展醫學統計學實驗設計的優勢,加深學生對統計學理論知識的理解以及數據分析能力。
關鍵詞 醫學統計學 大數據 R語言
中圖分類號:G424文獻標識碼:ADOI:10.16400/j.cnki.kjdk.2021.25.049
Application of R Language in Medical Statistics Teaching Experiment under the Background of Big Data
CAO Huifen
(School of Medicine, Huaqiao University, Xiamen, Fujian 361021)
AbstractMedical statistics is the discipline of data collection, collation, analysis, interpretation, and presentation. In the context of big data, in addition to traditional statistical theory, the more important is to cultivate students’ ability of collecting, analyzing and presenting the medical big data. As an important programming language, R supports almost all statistical analysis methods and graphic presentation. Here, we discuss the advantages of R language in the design of medical statistics experiment in detailed to improve the understanding of statistical theory and practical data analysis skills of students.
Keywordsmedical statistics; big data; R language
0引言
醫學統計學是一門對數據進行收集、整理、分析、解釋和展示的一門學科,[1]作為高等院校醫學專業的基礎必修課程,是醫學科研和實踐的重要工具。然而,由于統計學理論知識概念相對抽象,邏輯性強,公式煩瑣、計算量大,[2]在傳統教學中,多數醫學統計學課程以理論驅動,教學過程中多側重強調統計理論知識推導和實驗設計,使得許多醫學學生對望而生畏,導致學生理論知識不過關,實際動手能力差,無法靈活運用統計學方法解決實際的醫學研究問題。[3]
與此同時,在當今大數據時代,精準醫療通過對大數據的挖掘和篩選,除了為病人能夠提供最優的診斷和治療計劃,還能對未來生活方式做出正確的引導。因此面對時代的挑戰,作為新時代的醫生,除了掌握專業醫學知識之外,還應具備優秀的編程能力和數據分析能力。[2, 4]與常用的Excel和SPSS相比,在大數據背景下,R語言具有更強的數據分析與圖形展示能力,是一種更適合在醫學專業本科教學中使用的統計分析軟件。[5, 6]目前,將R軟件應用到醫學統計學教學中的案例仍然比較少,因此,如何將R軟件應用于大學醫學統計學教學還需要等多的研究和探索。
1 R軟件在醫學統計學實驗教學中的優勢
R語言是一種新興的統計分析與可視化編程語言,近年來發展迅速。在醫學統計教學過程中,它具有以下五大優勢:
第一,R軟件作為免費的開源軟件,具有強大的統計分析與數據展示功能,而且還可以通過安裝多種軟件包(package)進一步強化其統計與數據展示能力。此外,由于其所有代碼公開,用戶可以根據實際需要,在學習編程技術的基礎上,修改源代碼實現新的功能,為學生提供一個很好的編程能力學習平臺。
第二,R語言語法簡單易學,擁有強大的統計分析包系統,在統計分析過程中,即使沒有編程基礎,也能夠完成基本的數據統計分析,相較于傳統的Excel,SPSS軟件,能夠更好的激發學生的統計學習的興趣。
第三,具有免費的集成開發環境——Rstudio,以一種新穎的方式為R的集成開發提供了大多數需要的特性,界面更加豐富使用,使用更加便捷。在交互學習過程中,降低R語言學習成本,強化學生學習R的興趣。
第四,具有強大的圖形功能,除了基本的畫圖函數點圖plot、柱形圖barplot、直方圖histogram、餅圖pie等,它還擁有軟件包ggplot2。ggplot2通過把數據映射到圖形,引入圖層疊加的概念,在展示數據的同時,還可以加入不同統計方法的應用,用圖形的方式展示統計分析結果,具有很強的數據展示能力與統計分析的靈活性。
第五,R軟件創造可重復性分析。對于同等類型數據的分析過程,可以簡便的移植到不同數據應用中去,實現統計分析方法的重復利用,提高分析效率,節省時間成本。這將更有利于學生系統地學習統計分析方法。
2 R語言在醫學統計學教學中的優勢
基于R語言,將醫學統計學理論與實際數據分析能力有機結合。醫學統計學是一門理論性較強的課程。但是在大數據時代,利用計算機語言快速有效的實現數據分析是學生需要掌握的一項基本技能,具有重要的實際應用能力。在教學過程中通過將統計學理論知識與R語言實踐有機結合,一方面有利于培養學生的計算機動手能力,另一方面有利于加深學生對統計理論知識的理解以及實際應用能力。R語言具有強大的統計分析方法功能,醫學統計學中的各個知識點都可以通過R語言進行實現,并且應用方法簡單明了。例如psych包的describe.by函數能夠計算常用的描述性指標最小值、最大值、均值、方差、極差、偏度、豐度等,一個函數幾乎完成描述性統計學中的所有內容。一個R統計函數往往包含了多個統計學知識點,如果學生對R軟件應用函數過度依賴,不理解統計分析過程,會導致其無法正確解釋R軟件分析結果,從而無法理解實際數據的統計學意義。因此在實驗設計上,需巧妙地將統計學理論知識與R實踐相結合,并著重強調不同R語言統計分析過程中涉及的統計理論知識,以及函數應用的前提條件,便于學生理解、掌握統計學知識要點。
采用真實的熱點醫學大數據分析問題,拓展學生統計分析能力。在大數據背景下,醫學統計學的核心目的是培養醫學學生處理數據的能力,因此在教學過程中,以學生為主,從實際醫學數據出發,通過對原始的醫學大數據分析案例,讓學生逐步掌握不同結構,不同數據量的數據處理技術與思想。[7]在實驗過程中針對同一醫學數據,提出不同角度的研究問題,并利用R語言的統計分析方法進行一一回答,加深學生對統計理論知識的了解,激發學生的學習主動性,不僅有利于培養學生的統計方法應用能力,還有利于提高學生的對大數據的統計思維能力。
圖表繪制,提升統計學教學的趣味性與應用性。醫學統計學著重與培養學生的醫學數據的整理、分析、推斷和展示的能力。在實際統計分析里,科學作圖不僅能直觀展示出數據的多種描述型特征,還能有效的體現統計分析過程與結果,幫助人們深入了解數據,是數據分析過程中不可或缺的一部分。然而,在多數統計實驗教學過程中,圖表繪制由于種種原因而被忽視。因此,在傳統醫學統計學數據分析的基礎上,利用R軟件強大的圖形繪制能力,我們加入醫學數據圖形繪制實驗。在數據的可視化過程中,通過展示不同類型數據不同類型的圖形展示結果,有效加深學生對數據以及統計分析方法理論的理解,增加統計學教學的趣味性與實際應用能力,拓展其數據展示技能。
3圍繞R語言實施醫學統計學教學內容
根據臨床學時的特點,結合大數據背景下,提出以下三個實驗教學模塊:
3.1描述統計分析模塊
描述性統計分析是對通過計算數據的集中趨勢、分散程度以及頻率分布等,了解數據的分布特征,實現數據最基本的認知過程。例如,常用的數據中心描述指標均值、中位數、眾數,數據離散程度指標極差、方差、標準差以及數據分布形狀指標偏度和豐度等。數據的收集和描述統計是醫學統計學中最基本的實踐技能,其目的是讓學生通過計算機語言R,實現對數據的收集、整理和描述。在教學過程中,圍繞R語言,設計不同類型的數據文件,如txt、excel、csv等,實現不同類型數據讀取,并應用R中的統計描述函數summary、var、describe.by,計算數據的均值、方差、偏度、豐度等,實現對數據的中心、離散以及分布情況的描述,讓學生直觀的感受到R語言對數據描述的簡便性與有效性。與常用的SPSS方法以及excel軟件相比,雖然R語言需要編程過程,但是其對數據操作靈活性高,拓展性強。在課程前期開始此實驗教學,可以吸引學生積極主動學習R語言,對R語言的統計分析方法有一個整體認知。
3.2推斷統計模塊
統計推斷是研究通過樣本推斷總體數量特征的方法,主要包含參數估計和假設檢驗兩大部分。推斷統計模塊主要是讓學生在互聯網時代,在熟悉不同的統計方法原理的基礎上,能夠熟練使用計算機語言R對理論知識進行分析應用與有效計算,真正做到學以致用。結合實際的臨床數據,如不同時期的中國不同地區、多種癌癥的發病數據,通過對其提出不同角度的問題,實現利用R語言對發病率的點估計與區間估計,對兩個地區的發病率的T-檢驗、對多個地區發病率的方差分析、對不同癌癥與不同地區關聯分析的卡方檢驗等。在熟悉數據的基礎上,引導學生提出統計問題,并利用R語言實現是實際問題的統計推斷方法,T檢驗、F檢驗、方差分析aov、卡方檢驗以及相關性檢驗cor.test的應用等,增強學生的統計思維能力與動手能力。
3.3數據展示模塊
數據展示是實際醫學統計分析應用中非常重要的一個環節,直觀、有效、漂亮的圖表不僅能幫助人們對分析結果的了解,而且還能提高人們對其研究的興趣程度。大數據時代,實際統計分析結果匯報是一個重要環節,好的圖表展示可以做到事半功倍的效果。然而,數據展示環節常常在醫學統計學教學中被忽視。R語言有很強的圖標展示功能,除了基礎畫圖函數,還有一個很好的獨立的繪圖系統ggplot2,具有圖形映射、圖層疊加以及范圍控制,坐標系轉化、分面等特征,能夠高效地將數據映射到圖形上,將不同形狀的圖形作為圖層,方便數據的疊加展示,從而有效的展示數據結構與分布特征。本實驗在介紹ggplot2基本語法的基礎上,并通過ggplot2對模塊2中癌癥數據的展示,實現快速繪制不同類型的圖片,如點圖、柱形圖、直方圖、箱型圖等。此外,該實驗還將鼓勵學生查找自己感興趣的醫學數據,利用ggplot2中geom_point、geom_line、geom_boxplot、geom_bar和geom_histgram等功能不同類型圖形的繪制,加深學生對R語言繪圖功能的印象,并培養學生自主學習R繪圖方法的興趣。
4 R語言在醫學統計學實驗教學中的局限性
R軟件在生命科學研究中得到廣泛應用,但是目前尚未廣泛應用于醫學統計學實驗教學中。雖然它有良好的統計分析與繪圖能力優勢,但是應用于課堂教學時,仍有以下幾點困難需要克服。
首先,雖然R語言是一個容易入門編程語言,但是其基本語法、數據結構和函數編寫等,對于沒有編程經驗的臨床學生而言,仍然是需要花時間去練習熟悉,因此需要一定的前期時間投入。
其次,R語言包含了非常豐富的統計分析軟件包,應用方法便捷,導致一部分學生對應用軟件過分依賴而忽視其統計分析原理。從而造成,當R統計方法說明文檔對原始數據指示不明的情況,容易發生統計分析方法的誤用情況。
最后,設計相應的R語言統計實驗,需要結合統計學課堂內容與R語言的優勢,引入實際的臨床數據,引導學生用R語言去解決實際的臨床統計問題,實驗過程難度較大,但是該方法可以發揮R語言的統計方法和圖表繪制的能力,更好的培養精準醫療時代的醫學接班人。
5總結與展望
R語言由于其強大的統計分析與圖形繪制能力,已經逐漸成為生命科學研究中重要的統計計算語言,將R語言應用于醫學統計學實驗教學中,具有一定的可能性。目前,我們設置的醫學統計學實驗除了傳統的數據描述與統計推斷內容的R語言實踐過程外,還新增了圖形繪制部分,加深學生的數據展示意識,將有效提升大數據時代核心競爭力之一的分析結果匯報能力。在實驗過程中,采用實際的醫學數據進行統計分析,增加了課程的內容的豐富性與實驗教學的創新性,推進了醫學統計學教學的進一步發展。
參考文獻
[1]傅德印.關于統計學定義的考察與思考.蘭州商學院學報,2000(01).
[2]李俊鋒.大數據背景下的統計學發展方向分析.中外企業家,2020(05).
[3]李智明.淺談大數據時代統計學的挑戰與機遇.教育教學論壇,2020(13).
[4]何星鋼,黃激珊.大數據背景下統計學人才培養模式與課程體系研究.興義民族師范學院學報,2020(03).
[5]張哲,張豪.淺談R語言在生物統計學教學中的應用.教育教學論壇,2013(27).
[6]Villanueva, R.A.M. and Z.J. Chen, ggplot2: Elegant Graphics for DataAnalysis,2nd edition. Measurement-InterdisciplinaryResearch and Perspectives, 2019.17(3):p.160-167.
[7]張春曉,陳曦.統計學在大數據時代的發展方向及趨勢探討.現代商業,2018(35).