【摘 要】多元數據可視化越來越受到應用研究的重視,特別是多元數據的統計圖形的實現得到了很多人的研究,本文綜合介紹了常見的多元數據統計圖形(箱須圖、星相圖、臉譜圖、氣泡圖),并在R語言的環境下,給出了相應的程序函數語言。
【關鍵詞】R語言;箱須圖;星相圖;臉譜圖;氣泡圖
數據可視化主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。數據可視化與信息圖形、信息可視化、科學可視化以及統計圖形密切相關,尤其統計圖形更為重要,統計圖形是對資料進行探索性研究的重要工具,當人們在運用其他統計方法對所得資料進行分析之前,往往習慣于把各資料在一張圖上畫出來,以直觀地反映資料的分布情況及各變量之間的相關關系。當只有一個或兩個變量時,可以使用通常的直角坐標系在平面上作圖。當有三維數據時,雖然可以在三維坐標系里作圖,但已很不方便。而當數據大于三時,用通常的方法已不能制圖。許多多元統計分析問題,數據的維度都大于三,所以自20世紀70年代以來,多元數據的圖示法一直是人們所關注的問題。
一、基于R語言的箱須圖
箱須圖(Box-whisker Plot)也稱箱線圖(Boxplot),于1977年由美國著名統計學家約翰·圖基(John Tukey)發明。它能顯示出一組數據的最大值、最小值、中位數、下四分位數及上四分位數。是一種用作顯示一組數據分散情況資料的統計圖。因型狀如箱子而得名。在R軟件中,用boxplot()函數作箱線圖,具體函數參數如下:
Boxplot(x, ,range=1.5,width=NULL,varwidth=FALSE,notch= FALSE,outline=TRUE,Names,plot=TRUE,col=NULL,log=””,horizontal=FALSE,add=FALSE,at=NULL)
二、基于R語言的星相圖
星相圖是雷達圖的多元表示形式,它將每個變量的各個觀察單位的數值表示為一個圖形,n個觀察單位就有n個圖,每個圖的每個角表示每個變量,雷達圖用于同時對多個指標的對比分析和對同一個指標在不同時期的變化進行分析。在R軟件中,用Stars()函數作星相圖,具體函數參數如下:
Stars(x,full=TRUE,draw.segments=FALSE,…),x為數值矩陣或數據框;full為圖形形狀:full=TRUE為圓形,full=FALSE為半圓;draw.segments為分支形狀:draw.segments=T為圓形,draw.segments=F為半圓。
三、基于R語言的臉譜圖
臉譜圖是用臉譜來表達多變量的樣品,由美國統計學家H.Chernoff于1970年首先提出,該方法是將觀測的個變量(指針)分別用臉的某一部位的形狀或大小來表示,一個樣品(觀測)可以畫成一張臉譜。他首先將該方法用于聚類分析,引起了各國統計學家的極大興趣,并對他的畫法作出了改進,一些統計軟件也收入了臉譜圖分析法,國內也有很多研究工作者將該方法應用于多元統計分析中。臉譜圖分析法的基本思想是由15—18個指針決定臉部特征,若實際資料變量更多將被忽略 ,若實際資料變量較少則臉部有些特征將被自動固定。統計學曾給出了幾種不同的臉譜圖的畫法,而對于同一種臉譜圖的畫法,將變量次序重新排列,得到的臉譜的形狀也會有很大不同。按照切爾諾夫于1973年提出的畫法,采用15個指標,各指標代表的面部特征為:1表示臉的范圍,2表示臉的形狀,3表示鼻子的長度,4表示嘴的位置,5表示笑容曲線,6表示嘴的寬度,7—11分別表示眼睛的位置,分開程度,角度,形狀和寬度,12表示瞳孔的位置,13—15分別表示眼眉的位置,角度及寬度。這樣,按照各變量的取值,根據一定的數學函數關系,就可以確定臉的輪廓、形狀及五官的部位、形狀,每一個樣本點都用一張臉譜來表示。而臉譜容易給人們留下較為深刻的印象,通過對臉譜的分析,就可以直觀地對原始資料進行歸類或比較研究。在R軟件中,用aplpack包中的faces()函數作臉譜圖,具體函數參數如下:
faces(xy,which.row,fill=FALSE,nrow,ncol,scale = TRUE,byrow =FALSE,main,labels)
四、基于R語言的氣泡圖
氣泡圖是一個將點表示為氣泡(或圓圈)的散點圖,與XY散點圖類似,但可表現的數據信息量更多,最多可以表示五維(x位置、y位置、大小、顏色和時間),通過更改氣泡的大小和顏色,按時間變化將氣泡制成動畫視覺效果,能使數據探索更加方便。在R軟件中,用symbols()函數作氣泡圖,具體函數參數如下:
Symbols(x,y=NULL,circles,squares,rectangles,stars,thermometers,boxplots,inches=TRUE,add=FALSE,fg=par(“col”),bg=NA,xlab=NULL,ylab=NULL,main=NULL,
xlim=NULL,ylim=NULL,...)
參 考 文 獻
[1]莊作欽.Boxplot——描述統計的一個簡便工具[J].統計教育.
2003(1)
[2]王斌會.多元統計分析及R語言建模[M].廣州:暨南大學出版社,2010
基金項目:本文系2012年山東省統計科研重點研究課題(KT12117)。