蔡明 季茜 李培德
1. 湖北省氣象信息與技術保障中心 湖北 武漢 430074;2. 暴雨監測預警湖北重點實驗室 湖北 武漢 430074
相關關系是變量間客觀存在的一種相互依存關系,是進行系統結構和功能分析[1-2]的基礎。而相關系數作為用于量化變量間相關關系的統計指標[3-5],在如氣象[6-7]、航空[8-10]、電子[11-12]等領域得到廣泛應用。以往的相關性分析多使用簡單相關、典型相關等建立于線性相關[13]基礎上的分析方法,僅能反映變量間的線性相關程度,無法反映變量間的非線性相關程度,故存在一定的局限性。
本文引入距離相關方法,利用變量間距離信息取代傳統相關性分析方法中的變量與其數學期望間差值信息,提出了一種適用于非線性相關分析的相關系數計算方法,并通過非線性函數對算法進行驗證,實驗結果表明,算法克服了傳統相關性分析方法僅適用于線性相關分析的不足。
傳統的相關性分析方法包括皮爾遜相關[14]分析、肯德爾相關[15]分析和斯皮爾曼相關[16]分析,其中最為常用的是皮爾遜相關分析。
距離相關概念最早由Szekely,Rizzo和Bakirov于2007年提出。作為一種對于隨機變量間關系的全新度量方法,距離相關具有同皮爾遜相關類似的真實相關性測度的性質,但是實際上使用的是變量間距離替代皮爾遜相關的協方差和標準差概念。也就是說距離相關性不是根據樣本點和樣本統計期望之間的距離來估計兩個變量如何共同變化,而是根據樣本點與其他樣本點間的距離來估計變量是如何變化的,從而更好地捕捉變量間線性以及非線性依賴關系。
2.2.1 距離相關統計。
2.2.2 距離相關系數計算。
距離相關系數R滿足0≤R≤1,其中,當且僅當X和Y獨立分布時,R=0;當且僅當X和Y的相關程度達到最大時,R=1。
需要注意的是,距離相關系數R為非負數,所以只能反映變量間彼此相關的程度,無法反映變量間呈現的是正的相關關系還是負的相關關系。
3.2.1 線性模型。使用以下線性模型進行驗證:
得到的線性模型下的采樣散點圖如圖1所示。
圖1 線性模型下的樣本點和最佳擬合直線圖
由圖1可知,隨機采樣得到的樣本呈線性分布,且分布于最佳擬合直線兩側。仿真結果的具體統計參數如表1所示。
表1 線性模型下的統計參數
因此,如果兩個變量線性相關,則使用皮爾遜相關系數或距離相關系數都可以很好地反映變量間的相關關系。
3.2.2 波形模型。使用以下波形模型進行仿真:
得到的波形模型下的采樣散點圖如圖2所示。
圖2 波形模型下的樣本點和最佳擬合直線圖
圖2中,隨機采樣得到的樣本呈波性非線性分布。仿真結果的具體統計參數如表2所示。
表2 波形模型下的統計參數
因此,波形模型仿真中,距離相關系數比皮爾遜相關系數更能反映出變量間的相關關系。
仿真結果顯示:如果兩變量線性相關,使用皮爾遜相關分析和距離相關分析算法都會得到相似的相關性分析結果;如果兩變量非線性相關,則距離相關分析結果比皮爾遜相關分析結果更能體現變量間的真實關系。
本文將距離相關方法應用于變量間相關系數的計算中,提出基于距離相關的相關系數算法:使用變量間距離取代皮爾遜相關系數計算中變量與變量均值之間的距離,從而能更好體現變量間的真實依賴測度,可用于線性和非線性模型下的變量相關性分析場景,克服了皮爾遜相關系數應用存在的局限性。
由于距離相關系數計算結果為非負數的特性,決定了距離相關分析只能分析兩變量間相關性的強弱而無法給出變量間呈現的是正相關關系還是負相關關系。
雖然存在以上不足,距離相關系數算法還是可以為變量間相關性分析提供一種新的思路和方法,具有一定的實踐意義。