郝詩佳
中通服咨詢設計研究院有限公司
當今社會,人類活動產生的各種痕跡生成數據,通過不同渠道源源不斷地積累和記載于數據庫中。隨著大數據在當今科學研究領域乃至社會的關注度與日俱增,人們對其理解不再僅限于數據本身的價值,而是更加關注數據背后呈現的關聯性,這就需要數據分析,構建數據模型等相關技術手段來實現。
郵電業務是郵政和電信部門為社會各行各業和人民群眾提供各種產品和服務的總稱。其設施和網絡遍布城鄉、聯通各地,是與經濟發展和社會生活密切相關的基礎設施。對于地域經濟發展而言,郵電業務主要用于滿足地區內個體及社會團體對各種信息的分享與交流需求,是必不可少的一個部門。因此在社會發展的過程當中,人與人之間的關系越密切,研究郵電業務的作用和意義就越深遠。本文基于2011~2015年江蘇省全省及各地市的郵電業務基礎情況數據,運用基于最大信息系數MIC的數據模型分析郵電業務數據內部兩兩指標之間的關系,并提出相關決策的理論依據。
經過郵政局和電信局受理承辦的各種業務,統統稱為郵電業務,其中包括郵政、電信、互聯網等相關業務。本文選取江蘇省2016年統計年鑒中的郵電業務部分作為數據來源,該數據集中包含全省及13個地市關于郵政行業業務、電信業務總量及收入和快遞、長途電話、移動短信、長途光纜線路長度等35個指標,此數據樣本的時間跨度為2011~2015年。
該數據集屬性多樣,數據真實可靠,具有一定的可信度和研究價值。
(1)Pearson相關系數
Pearson相關系數(Pearson correlation coefficient) 也叫皮爾森積差相關系數(Pearson product-moment correlation coefficient),是用來反映兩個變量相似程度的統計量。或者說可以用來計算兩個向量的相似度(在基于向量空間模型的文本分類、用戶喜好推薦系統中都有應用)。
皮爾森相關系數計算公式如下:

(2)互信息
互信息是信息論里一種有效的信息度量,它可以看成是一個隨機變量中包含另一個隨機變量的相關信息量,或者說是一個隨機變量由另一個已知隨機變量而影響其自身的不穩定性。互信息的定義是,設兩個隨機變量 (X,Y)的聯合分布為p(x,y),邊際分布分別為 p(x),p(y) ,因此互信息I(X;Y)作為聯合分布p(x,y)與乘積分布p(x),p(y)的相對熵,即:

(3)最大信息系數 MIC(Maximal Information Coef fi cient)
利用Pearson相關系數或者Spearman相關系數等可以有效地度量數據的線性相關性,甚至可以通過回歸分析確定線性關系和簡單非線性關系的數學公式。然而由于自然規律的復雜性,現實世界中的數據之間即使有較強的相關關系,絕大多數也是非線性的而且無法用簡單的數學公式表達。為了度量數據間非線性相關性的強弱,科學家們提出了基于閥值相關、相位同步相關、距離相關、互信息等的度量方法。
最大信息系數(The Maximal Information Coef fi cient,MIC)是在互信息的基礎上發展起來的,MIC方法能快速通過給不同類型的關聯關系進行評估,從而發現廣泛范圍的關系類型。MIC可以檢測各種類型的函數關系,比如。當存在f使得Y=f(X)時,MIC(X,Y)=1;如果X與Y相互獨立時,那么MIC(X,Y)=0。
MIC與相關系數相比有以下兩個優點:
1、MIC穩健性,即MIC不受異常值的影響,然而相關系數易受異常值的影響。
2、MIC普適性,可以檢測出相關系數無法識別的函數關系。
因此,本文將用MIC作為數據關聯性的主要衡量標準。
本節根據上文介紹的Pearson相關系數、最大信息系數MIC模型進行對比,論證MIC作為數據特征度量的優越性。并在此基礎上,結合兩個相關系數,設計一種基于MIC的優化模型用于分析郵電業務數據。
首先,為了驗證MIC作為相關度量的優越性,本文采用Pearson相關系數作為參考指標進行比較分析,運用數據測試工具生成不同函數圖。其中一個關鍵性問題是如何運用相應的程序評估捕捉完整的線性與非線性相關依賴。然而,如何檢測非線性信息依賴是一個問題挑戰,特別是處于噪聲的數據具有可用性時。因此,第二個關鍵問題是如何使用評估技術檢測非線性的可靠有用的數據。同時,也需要一個明確的測量方法去度量噪聲中可靠健壯的數據來確定數據間的非線性關系。
模型對比所運用到的函數分別有:線性直線,三角函數,橢圓等;測試樣本容量為1000;置協方差系數分別為:1.0,0.8,0.4,0.0.-0.4,-0.8,-1.0。實驗結果如圖1、圖2和圖3所示:

圖1 直線加噪旋轉測試MIC、Pearson相關系數

表1 圖1的MIC和Pearson相關系數實驗結果(n為噪聲r為旋轉)
圖1是表明在線性函數上進行噪聲處理,對其相關性度量會有多大影響。因為在實際大型數據集中,數據是分散而無序的。而面對0.2比例的加噪,Pearson相關系數比MIC仍有較好的測量;但當噪聲比例加到1時,Pearson相關系數已無法檢測其相關性,此時的MIC值仍有0.1。這就說明,面對噪聲極大的函數,無論其是否是相關函數,MIC的度量比pearson相關系數更可靠。

圖2 線性直線旋轉測試MIC、Pearson相關系數

表2 圖2的MIC和Pearson相關系數實驗結果
根據圖2、表3對比可知,面對線性相關的函數,MIC沒有Pearson相關系數準確;但是作為互相關度量,兩個事件的互信息是對稱,即MIC(X,Y)=MIC(Y,X),所以函數的旋轉對于MIC沒有影響,而Pearson相關系數則會出現負值。這對于數據關聯性的測量具有較好的呈現,即在對比分析時,無需考慮正負差異和主因變因交換是否會影響分析結果。

圖3 其他函數加噪測試MIC、Pearson相關系數

表3 圖3的MIC和Pearson相關系數實驗結果
圖3則是在非線性加噪函數模型上的相關性測量,MIC在面對加噪非線性相關函數呈現較好的度量,并且根據函數的線性關系數值增大或減小,如三角函數和橢圓就明顯比其余圖像的值更大。而Pearson相關系數則是全部為0。由此可見,對于非線性度量,MIC也有很好的測量性。所以MIC相對于以Pearson相關系數為代表的線性相關性度量更適合面對大型非線性數據集的數據分析。
因為最大信息系數MIC作為互信息基礎上發展出來的相關系數,其本質仍然是測量兩個隨機變量之間的線性相關程度。對于非線性相關,最大信息系數MIC并沒有非常好的表現。因此本文根據最大信息系數定義,結合皮爾森積差相關系數,用于測試數據之間的非線性相關,其公式為:
非線性相關系數= MIC(X,Y)-ρ^2 (X,Y)
其中:ρ(X,Y)為皮爾森積差相關系數,且當MIC(X,Y)-ρ^2(X,Y)>0時,兩個變量間存在非線性關系。
根據前文的方法進行特征度量并建立模型。首先,從江蘇省2016年鑒中選取郵電業務作數據集,將數據集中的郵電業務總量與郵電業務收入兩個指標設為自變量,其他指標作應變量,輸出其MIC與MIC-ρ^2模型結果。然后,對兩項指標的MIC與MIC-ρ^2 值進行比較,篩選出相關數據。最后,對結果進行討論以了解觀察到的差異,并針對改進的方法提出了一些見解。
將與郵電業務總量MIC值最高的前14項指標以表格的形式將其MIC和MIC-ρ^2值列出,如表4所示:

表4 郵電業務總量(億元)相關因素表
由表4可看出,MIC值分為0.99572和0.67713兩個檔,其中電信業務總量、電信業務收入、年末固定電話用戶、年末移動電話用戶和固定寬帶接入用戶是MIC值最高的5項。這說明該5項與郵電業務總量具有極大相關性,而針對這5項的MIC-ρ^2值進行排序分析,可看出年末固定電話用戶與年末移動電話用戶這兩項指標是具有較大的非線性相關,也就是數據之間內部潛在的關聯性較高。由此,可得出推論:對于郵電業務總量,電信業務與其相關性極高,說明電信業務的增長能帶動郵電業務總量的增長;其中,固定電話用戶與移動電話用戶是最能刺激郵電業務總量的兩項指標,如果能對這兩項數據進行有效提升,可大幅提高郵電業務總量。
將與郵電業務收入MIC值最高的前14項指標以表格的形式將其MIC和MIC-ρ^2值列出,如表5所示:

表5 郵電業務收入(億元)相關因素表
同理分析表5,可看出MIC值主要分為0.99572、0.67713、0.49647和0.31781四個值,其中郵政行業業務收入、快遞是MIC值最高的2項,并且MIC-ρ^2值皆為正。這說明該2項與郵電業務收入具有數據內部之間的極大相關性。而電信業務收入與郵政行業業務收入相比,無論是MIC值還是MIC-ρ^2值都沒有后者高,同理分析剩下的11項指標,由此可以得出推論:對于郵電業務收入,郵政行業業務收入,特別是快遞業務對其影響遠高于其他指標。如果能加大快遞業務的擴展,提高快遞業務的規模,對郵電行業業務收入會有明顯的提高。
綜合郵電業務總量與郵電業務收入兩項相關因素表,不難看出,電信業務占郵電業務總量的主體,對郵電業務具有極大相關性的影響;但在郵電業務收入方面,郵政行業業務特別是快遞業務對郵電業務收入的影響巨大。因此針對郵電業務收入,可以著重發展快遞業務,從而有效保證郵電業務收入指標的提升;并同時對電信業務進行維持與擴展,從而保證郵電業務總量的穩步增長。
本文基于最大信息系數MIC的模型設計了一個優化模型,并根據這兩個模型對江蘇省近5年來的郵電業務進行了分析應用,提出了關于郵電業務總量與郵電業務收入的相關建議。首先,列舉類比了線性相關Pearson相關系數與最大信息系數MIC;然后根據MIC設計了一個數據內部間非線性相關的度量模型MIC-ρ^2;最后選取江蘇省2016年統計年鑒中郵電業務的數據,以MIC和MIC-ρ^2為相關性度量,提取特征值。分析研究結果顯示,郵電業務總量主要影響在于電信業務,而郵電業務收入則主要影響在于郵政行業業務收入,特別是快遞業務。
基于MIC的新優化模型更有利于用戶在數據分析的同時,發現數據內部之間的非線性相關性,這樣更有助于郵電業務從業者對關鍵影響因素指標進行分析定位。例如,郵電業務總量中,固定電話用戶與移動電話用戶的MIC值一樣,此時就需要運用MIC-ρ^2。通過對比得到:移動電話用戶相較于固定電話用戶對郵電業務總量有更大的影響,從而幫助郵電業務從業者針對相關指標作出更好的分析決策。