黃飛 張慧
?
·流行病學與統計學方法·
箱式圖在結核病防控工作中的應用
黃飛 張慧
箱式圖(Boxplot)是通過描述數據的5個常用統計數值(中位數、最大值、最小值、上四分位數和下四分位數)而展現數據分布的一種圖形。其作為一種圖形表示工具,可以直觀地顯示出數據分布的狀態,迅速地剔除異常值,并能夠比較多組數據之間的分布。作為探索性分析工具的箱式圖,能提高數據處理的嚴謹性、準確性及可靠性,應在日常工作中加以推廣應用。
數據說明,統計; 結核; 箱式圖
中國是結核病高負擔國家,據世界衛生組織估算,2015年新發患者數為91.8萬例,位居全球第三,僅次于印度和印度尼西亞[1]。因此,了解不同地區結核病疫情水平,及早發現高疫情的地區,以便制定有針對性的防控措施是十分必要的。目前,我國常規結核病疫情數據主要來自全國傳染病網絡報告系統[2]和結核病信息管理系統[3],主要內容包括傳染病報告卡及肺結核患者診斷、治療和管理等相關信息,如何準確、客觀和科學地分析監測數據,是結核病防治工作人員的主要工作之一。
箱式圖(boxplot,或box and whisker plot[4]),也有翻譯成箱須圖、箱圖、箱子圖、箱線圖,是通過描述數據的5個常用統計數值(中位數、最大值、最小值、上四分位數和下四分位數)而展現數據分布的一種圖形,是現代統計中應用比較廣泛的探索性數據分析工具之一。

IQR為四分位距(interquartile range)圖1 箱式圖示例1
圖1中各指標解釋如下:
1.異常值(outlier):因各種原因造成的偏離總體數據的數值,會對數據的統計結果(如均數)造成不可靠的影響。
2.IQR:為上、下四分位數之差,主要用以測量數據的離散程度,因其包括了中間50%的數據,因此小于極差并受異常值影響較小。因此,在抵抗數據異常值干擾方面,箱式圖優于以平均值代表中心值,以標準差代表離散程度的傳統方法[5]。
3.上、下四分位數(upper/lower quartile,Q3/Q1):即分別是第75%位數和第25%位數,兩者之差即為IQR。
4.內上限和內下限(upper/lower fence):分別是Q3+1.5×IQR、Q1-1.5×IQR。在內上限與內下限之外的值均被認為是異常值。雖然這種判斷方法缺少統計學的驗證及推理,但經驗表明,其在識別異常數據方面仍有一定的優越性[6]。
因箱式圖可以直觀地反映出常用的5個統計數值,因此,它在實際工作中的作用主要有以下幾個方面:
1.描述數據的分布狀態:通過觀察箱式圖的形狀可以知道數據的分布狀態。如果其中位數與均數距離很近,最大值與最小值對稱分布于內上限和內下限之內,說明數據基本成正態分布;反之,則說明數據呈偏態分布。
2.識別并剔除異常值:箱式圖中位于內上限和內下限的數值被自動認為是異常值,在對數據進行分析處理時通過找出產生這些數值的真正原因,才能對數據進行正確的分析處理。

在對兩組或多組數據做并列箱式圖后,如果這幾組箱式圖中內陷部分不重疊,則可以有95%的把握認為這幾組數據的中位數差異有統計學意義[4]。

圖2 箱式圖示例2
現已知某市各個縣區2013—2015年活動性肺結核患者登記率(表1),現對其患者發現工作進行評價。
(一)方法一
對表1數據做柱形圖(圖3),可以看出該市各縣登記率水平各不相同,且差別較大,2013年和2014年C縣活動性肺結核患者登記率最高,2015年F縣登記率最高。

表1 某市2013—2015年活動性肺結核患者登記率(/10萬)

圖4 某市2013—2015年活動性肺結核患者登記情況
(二)方法二
將表1的數據錄入SPSS統計學軟件,然后做箱式圖(圖4),可以看出以下三點:(1)2013—2015年3年的活動性肺結核患者登記率的中位數基本處于同一水平,相互之間差異無統計學意義。(2)2013年和2014的Q3和Q1間距較2015年短,表明2013年和2014年全市各縣區的登記水平較2015年更為集中。(3)2015年活動性肺結核患者登記率極差值較2013和2014年小,但存在異常值,即J縣登記水平明顯異于該市其他縣區,應進一步對J縣的數據進行深入分析。
探索性數據分析是指對現有數據在盡量少的先驗假定下進行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數據的結構和規律的一種數據分析方法。特別是當我們對這些數據中的信息沒有足夠的經驗,不知道該用何種傳統統計方法進行分析時,探索性數據分析就會非常有效。因此,探索性數據分析與驗證性數據分析經常交叉進行[7]。
箱式圖作為探索性數據分析工具之一,目前很多軟件可以進行箱式圖的繪制,如SAS、SPSS、R-project、S-plus等。箱式圖用IQR來測量數據的離散程度,因其包括了中間50%的數據,受異常值
影響較小。因此,箱式圖對數據的耐抗性優于以平均值代表中心值、以標準差代表離散程度的傳統方法。所以,箱式圖更適用于大型數據或者多組數據間的比較使用,而且較直方圖、線圖等能夠傳遞更多的信息,可以快速地反映大型數據中的異常值,并可以進行不同時期間的比較。如比較某個省在不同時間各個縣區的肺結核患者登記率、痰菌陰轉率、治療成功率等時,可以使用箱式圖快速地得到結果,并可以就出現的異常值進行深入分析。
[1] World Health Organization. Global tuberculosis report, 2016. Geneva: World Health Organization, 2016.
[2] 金水高, 姜韜, 馬家奇. 中國傳染病監測報告信息系統簡介. 中國數字醫學, 2006, 1(1):20-22.
[3] 黃飛, 杜昕, 陳偉, 等. 中國結核病信息管理系統介紹. 中國數字醫學, 2011, 6(10):97-100.
[4] Mcgill R, Tukey JW, Larsen WA. Variations of box plots. Am Stat, 1978, 32(1):12-16.
[5] 俞鐘行. 同類過程控制圖的一個實例. 工業工程與管理, 1999, (1):45-48.
[6] 莊作欽. BOXPLOT——描述統計的一個簡便工具. 統計教育, 2003, (1):34-35.
[7] 朱鈺, 張穎. 談探索性數據分析. 統計教育, 1997, (3):18-19.
(本文編輯:李敬文)
Application of boxplot in tuberculosis control and prevention
HUANGFei,ZHANGHui.
NationalCenterforTuberculosisControlandPrevention,ChineseCenterforDiseaseControlandPrevention,Beijing102206,China
ZHANGHui,Email:zhanghui@chinatb.org
Boxplot is a graph that shows the distribution of data by describing five commonly used statistics (median, maximum, minimum, upper quartiles, and lower quartiles) of the data. As a graphical representation tool, it could visually display the state of data distribution, quickly remove the outliers, and is able to compare the distribution of multiple sets of data. As a exploratory analysis tool, boxplot could improve the rigor of data proces-sing, accuracy and reliability, and it should be generalized in daily work.
Data interpretation, statistical; Tuberculosis; Boxplot
10.3969/j.issn.1000-6621.2017.04.003
中國國家衛生和計劃生育委員會-比爾及梅琳達·蓋茨基金會結核病防治合作項目(51914)
102206 北京,中國疾病預防控制中心結核病預防控制中心
張慧,Email:zhanghui@chinatb.org
2017-02-14)