程 鑫,石洪波
(山西財經大學a.統計學院;b.信息管理學院,山西 太原 030031)
大數據時代的到來,給統計分析方法帶來了翻天覆地的沖擊,之前統計學是以樣本為基礎對總體進行推斷,并用假設檢驗來驗證對總體描述的正確性。當能夠被數據化的東西越來越多,并且存儲能力無限擴大時,我們就可以獲得一個整體的數據,不再需要通過樣本來進行推斷,更多的時候數據量會大到經典的統計方法無法處理。雖然大數據時代我們研究的重點發生了變化,但是統計學的思維顯得更加重要。在數據量足夠大了之后,我們會發現一切社會現象都有一定的統計規律,看似沒有關系的事物之間其實也是有普遍聯系的,這其實就是相關分析的思維。
越來越多的人認識到,我們開始研究大數據集的一個途徑就是尋找屬性間的相關關系。我們現在需要運用統計思維來把握萬物之間可能存在的聯系,而不是像以前一樣通過樣本分析來推斷總體,追求準確的預測結果。
雖然,我們仍然需要依靠統計學思維來發現總體的特征、規律并進行總結和概率推斷,也需要運用統計學來對大數據進行清洗,選出有用的信息,但是傳統統計方法中的局限性也日益顯現。當數據量足夠大時,我們期望捕捉到大量有趣的聯系,而這些聯系不會局限于傳統統計分析中常用的特殊函數模式(如線性關系、指數關系、周期性關系等)。而且傳統意義上我們只關注快變量,當數據量足夠大時我們還需要關注慢變量,就是看起來沒有聯系,但是實際上卻隱含著深刻影響力的那些變量。如何更好的測度相關性,如何能準確的發現屬性間隱含的聯系就成為了大數據時代我們急需解決的重要問題。
在統計學中,相關是指一個變量的數值與另一個變量的數值有連帶性,即一個變量的值隨著另一個變量的值的變化而變化。用一個統計值表示變量與變量之間的關系,稱之為相關測量法。大多數的相關系數以絕對值為0代表不相關,以1代表完全相關,介于0和1之間的數值越大則相關程度越強。對于定距變量和定比變量,還可以通過一個變量數值增加時,另一個變量的數值是否也增加來確定相關方向,同時增加即為正相關;隨著一個變量數值的增加另一個變量數值減少,則為負相關。
統計計量有不同的層次,測量變量間的相關關系,首先要遵守測量層次準則,其次是對稱或不對稱準則。層次準則,就是度量不同層次變量的相關性,在統計學中要采取不同的測量方法,高層次的測量具有低層次測量的所有性質,高層次測量可以作為低層的測量處理,詳見表1。

表1 分尺度的數學特性、集中趨勢離散趨勢
表1中的各種相關測量法是統計學中常用的,依據消減誤差比例(PRE)原理,運用各類尺度的集中趨勢與離散趨勢來構建的。分析兩個變量之間的關系時,我們首先會考慮強弱和方向這兩個性質,此外,還有因果關系。通常因果關系又稱為不對稱關系,要求我們事先分清變量間的原因和結果,如果變量之間不存在因果關系,則稱其存在對稱關系,各種測量方法的對稱性見表2。

表2 各相關測量方法的對稱性
上文總結了傳統統計學中幾種常用的相關測量方法,當樣本量相對較小、分析的問題較簡單時,可以用傳統的相關測量法進行變量間簡單的線性關系測量。但是,大數據時代我們所能獲得的數據越來越多,變量之間的關系也不會僅僅局限在線性或者可以用函數表示的幾種關系上,在處理海量數據時傳統相關分析方法存在的局限開始凸顯:
第一,不具有通用性。傳統統計中常用的這幾種相關分析方法都只能對變量之間可以用函數來表示的相關關系進行分析,并且對變量之間的線性相關關系最為敏感,而對于其他非線性相關關系或者非函數相關關系不能進行準確的測算,不具有通用性。在實際數據中,相關性可以是任何形式的相關,如何識別多種類別的相關性是大數據時代傳統相關分析所需要解決的第一個問題。
第二,不具有均等性。如果給不同相關形式的數據都加上類似水平的噪聲,用傳統相關分析方法進行測量結果會差別很大。但是,通常我們認為噪聲水平越大說明變量間相互聯系的緊密性越小,相同噪聲水平的數據相關分析結果應該大致在同一水平。傳統相關測量法更容易受相關形式的影響卻不能準確區分變量之間聯系的緊密性,說明不具有均等性。
例如,皮爾遜相關系數表示的是變量間的線性關系,它的大小說明不了相關程度,如果變量的關系不具有直線的性質,皮爾遜相關系數雖然等于0,但不能否認其存在非線性相關關系的可能性。采用傳統的統計相關分析方法往往會忽視很多變量間隱含的邏輯關系,這些局限性也限制了傳統相關測量法在處理大數據問題時的應用范圍。
大數據時代的到來使得相關分析需要達到的要求更高,針對傳統統計分析中的相關測量法存在的缺陷,大數據時代的相關分析首先滿足“通用性”和“均等性”兩個準則,相關分析的結果應該只與變量之間連動性的緊密程度有關,而不應受變量間相關形式的影響。近些年,國外已經有很多學者開始注意到大數據時代相關分析方法的重要性,對如何改進相關分析方法進行了研究。Reshef等學者(2011)基于信息論中關于兩個事件集合的相關性信息度量提出了一種關于相關性分析的改進方法--最大信息系數(Maximal Information Coefficient,MIC)的,可以對變量間的非函數相關關系進行有效的識別。David Lopea-Paz等學者(2013)運用Copula轉換提出了隨機相關系數(Randomized Dependence Coefficient,RDC),并與MIC方法進行了對比,證明前者的時間復雜度更低。Hoang V.Nguyen等學者(2014)根據MIC方法,提出了更一般化的相關分析方法--最大相關分析(Maximal Correlation Analysis,MAC),擴展了MIC方法的運用范圍,可以對兩組變量之間的非函數相關關系進行準確的測量。
以上這些方法的改進無一不在強調大數據時代我們進行相關分析時對非線性、甚至是非函數相關關系的識是很重要的,單純的線性相關與否不再能說明變量間復雜的相關關系。這些改進除了運用傳統統計相關分析的思維,更重要的是將信息論、粗糙集理論、人工智能等領域的方法與傳統統計相關分析進行了結合。所以,在大數據背景下,如何運用其他領域的知識,對傳統相關分析進行改進,使其能更加準確、快速地識別變量之間的各種相關關系是傳統相關分析面臨的最大挑戰。
新興的相關分析方法在最近幾年涌現,一方面是由于國內外學者看到了大數據分析中傳統統計相關分析存在的缺陷,運用傳統統計方法已經無法滿足大數據時代數據分析的需求;更重要的在于,國內外學者們都看到了大數據時代相關分析思維的重要性,看到了相關分析在特征選擇、變量依賴關系識別中的實用性。特征選擇幾乎在所有研究中都會用到,也是很多研究中模型構建的第一步。例如,構建指標體系時我們需要分析兩兩變量間是否存在反映重復信息的問題,需要運用相關分析進行冗余信息的刪減,這樣即簡化了指標體系又避免了有效信息丟失;文本圖像數據分析中我們可以運用相關分析進行特征的選取,使得文本圖像識別更準確、快速。除此之外,運用相關分析可以進行變量依賴關系的識別,在實際問題的研究中具有很重要的作用,例如,企業目標客戶的屬性依賴關系識別、超市商品銷售量的關聯性度量等都離不開相關分析。上文中提到:建立在相關分析法基礎上的預測才是大數據的核心。大數據時代,相關分析的運用范圍之廣、重要性之大是我們不能忽略的,也是傳統相關分析所面臨的巨大機遇。如何以相關分析思路為起點探究新的分析方法,使統計相關分析方法能夠更順應時代的變化,體現出傳統統計思維的經典與先進,在大數據下能夠發揮作用,即是傳統相關分析面臨的挑戰也是機遇。
當前,隨著數據處理能力和存儲能力的不斷提高,通過統計學方法來探索事物內在的統計相關規律并進行篩選總結是所有研究的第一步。統計相關分析的思想已經滲透到了其他的學科,相關分析的思維在大數據時代越發顯得重要。但是,現有的傳統統計相關分析方法由于假定條件太多,不具有通用性、均等性,很多在大數據環境里都失去了原有的價值。在今后的研究中,還需要將統計思維與數據挖掘技術、粗糙集思想以及信息論等相結合,借鑒其他學科中的包含有相關分析思想的方法,對傳統的統計方法進行調整,這樣傳統相關分析才能更好的應對大數據時代帶來的機遇與挑戰。
[1]陸運清.用Pearson’s卡方統計量進行統計檢驗時應注意的問題[J].統計與決策,2009,(15).
[2]姚寶璽.兩變量相關關系的度量[J].統計與決策,2007,(1).
[3]李沛良.社會研究的統計應用[M].北京:社會科學文獻出版社,2002.
[4]吳喜之.統計學:從數據到結論[M].北京:中國統計出版社,2004.
[5]張堯庭.我們應該選用什么樣的相關性指標[J].統計研究.2002,(9).
[6]Breiman L,Friedman J.Estimating Optimal Transformations for Multiple Regression and Correlation[J].Journal of the American Statistical Association.1985,391.
[7]Benjamini Y.Yekutieli D.The Control of the False Discovery Rate in Multiple Testing Under Dependency[J].The Annals of Statistics,2001,(4).
[8]Reshef D N,et al.Detecting Novel Associations in Large Data Sets[J].Science,2011,334.
[9]Delicado P,Smrekar M.Measuring Non-linear Dependence for Two Random Variables Distributed Along a Curve[J].Statistics and Computing,2009,(3).
[10]Staff S.Challenges and opportunities[J].Science,2011,331.
[11]涂子沛.大數據[M].桂林:廣西師范大學出版社,2012.