白 鶴,崔競飛,張國庭,李婷婷,趙 明
(國家廣播電影電視總局 廣播科學研究院,北京 100039)
隨著中國移動多媒體廣播電視(CMMB)技術標準體系的成熟和產業鏈的完善,全國已有220多個城市進行了CMMB單頻網的建設,覆蓋測試是建設過程必不可少的環節,對測試數據進行分析能夠指導網絡規劃、優化以及評估效果,但是作為后續處理基礎的測試數據可能因為設備異常等因素造成數據失真,因此,需要檢測異常值以保證測試數據的真實性和可靠性。
在城市的CMMB覆蓋測試中,數據多元、大量,含有地理和時間等多維標記信息。目前,業界還沒有針對CMMB信號測試數據進行異常值檢測的有效方法,而利用統計學中的一般異常值檢測方法的甄別效果也不理想。筆者基于對CMMB網絡信號特征的分析,在采用歐氏距離對數據樣本進行聚類之后,使用Z-統計量進行度量,可以有效地檢測出CMMB測試信號異常值。
異常值[1]定義為“嚴重偏離了樣本集合中其他觀測值的觀測值”,包括某樣本的單個屬性與該屬性的大多數值出現分布偏離,或者該樣本的屬性間的結構和相關關系與整個屬性集的屬性之間結構和相關性不同。
異常值檢測是數據挖掘中數據準備的重要環節,也是學界探討和研究的內容[2]。目前主要有3種策略:
1)統計法。對樣本總體分布作出假設的基礎上,構造如四分位點、標準差等統計量進行檢測,主要適用于單屬性值的情況。
2)距離法[3]。將兩個樣本視為K維空間的兩點,計算兩點間的Minkowski,Chebyshev或Mahalanobis距離來度量,此方法能夠應用于多元數值,但沒有綜合考慮總體分布的因素,導致太依賴于參數的選擇。
3)分類法。建立分類模型判斷數據類別,以認定其是否與總體偏離,一般需要有大量樣本集以訓練分類模型,并且此方法判斷的顆粒度較大,相對于精細的數據要求顯得誤判率較高。
CMMB信號測試數據有經緯度、時間等標記屬性以及Powerlevel,CNR等指標屬性,各屬性值有合理的取值范圍,并且指標屬性對應于一定的區域和時間內的標記屬性,但是由于設備故障、無線特性或系統誤差會使得指標屬性在總體范圍出現偏離或局部區域內發生跳變。因此異常值檢測方法既需要考慮指標屬性的統計學特征,同時要兼顧指標與標記屬性的具體相關性。基于以上分析,各種異常值檢測的通用方法不適合CMMB信號異常值檢測的具體應用場景。
筆者處理的異常值包括因設備問題造成的標記空缺或指標超過正常范圍的樣本以及在一定區域內明顯與周圍指標值不同的孤立點。在對CMMB信號的數據特征分析的基礎上,針對以上的檢測對象,設計了一種結合統計學和地理信息聚類的檢測方案。首先將多個CMMB信號測試文件合并為一個數據集合,在此基礎上進行了空缺標記檢測、界外指標處理、地理信息聚類以及對各區域數據進行孤值點甄別幾個算法步驟,如圖1所示。

如前所述,CMMB信號測試樣本SCMMB有經度ALongtitude、緯度ALatitude和測試時間ATime等標記屬性,可以準確地標定某一地點、某一時刻的信號強度APowerlevel、載噪比ACNR等指標屬性

但是因為GPS設備搜索定位時延等原因,ALongtitude,ALatitude的標記信息可能出現空缺,此時記錄下來的對應點的指標屬性相對于評估來說就沒有意義,因此需要將ALongtitude或ALatitude為空缺值的信號樣本識別出并剔除。可以對此類異常值定義為

式中:null表示空缺值,Outlier表示異常值,此步驟從標記屬性的角度保證了信號的完整性。
CMMB信號測試樣本SCMMB的指標屬性包括APowerlevel、載噪比ACNR、誤碼率ABER等,其中對于接收效果最直接、最有效的評估度量是APowerlevel,在發射臺站規劃合理、測試地點空曠、頻率干擾弱以及多徑時延小等情況下,APowerlevel測試值會比較理想,即使信號覆蓋不理想,指標值也會在一個合理范圍內,但是在實地外場測試中由于設備、系統誤差等原因,APowerlevel取值會超過合理范圍,此時SCMMB因為測量值處于合理范圍外而沒有意義。定義此類界外值為

此步驟保證在全部樣本集合內測試數據屬性值取值的合理性。
數據集合一般包括了城域范圍的測試數據,在空缺標記和界外指標處理后,在整體上從數據樣式和取值范圍角度保證了可靠性,但是就某個小顆粒度的區域(比如街道)來說,某樣本的APowerlevel雖然已處在{minAPowerlevel,maxAPowerlevel}的合理取值范圍內,同樣不能保證其可信。在單頻網建設中,1 kw功率的有效發射機覆蓋半徑是10 km左右,一般情況下對百米量級、物理遮蔽情況類似的區域來說,信號強度值比較平滑,因此,街道區域內,信號的APowerlevel值不應該出現跳變的孤值。實測中與鄰近信號強度差別較大的樣本出現,可能是由于設備故障造成的系統誤差,即使并非誤差,如采用對孤值敏感的測試評價算法就會對這一區域內的信號總體評估結果產生較大影響,因此,定義此類鄰近區域內的孤值為異常值。
經分析,孤值點甄別的分析對象是小區域內的樣本集合,因此需要對城域測試數據集合根據地理信息進行聚類。聚類需要確定方法、策略、距離度量算法以及聚類個數。對樣本的聚類需要采用Q型聚類中的系統聚類方法,聚類策略采用類平均法(Between-groups Linkage),因為ALongtitude,ALatitude兩個屬性值無關,對于聚類同樣重要,因此使用p=2時的Minkowski,也就是歐式距離DEuc來計算兩樣本間的距離

聚類個數需要根據城域數據總體的樣本個數、路測儀器的記錄間隔、路測車速等幾個變量綜合判斷。
劃分出小顆粒度的數據集合Ui后,可以看到Ui的數據趨勢比較平滑,APowerlevel值接近,絕大部分單樣本APowerlevel值xi與Ui的APowerlevel數據均值xˉ在一定范圍內,此時Ui符合中心極限定理,樣本APowerlevel值xi與xˉ之差絕對值在兩個標準差之外的概率小于1%。因此,構建Z-統計量zi,以統計孤值點,具體為


筆者參與了重慶部分區縣的CMMB單頻網覆蓋測試,獲得了大量的測試數據,對其進行異常值檢測和處理。首先使用編寫的程序合并某縣的測試文件,然后按照提前預定義的規則將合并后的數據導入SPSS軟件。經過探索性分析,由圖2a可知,ALongtitude,ALatitude標記屬性空缺的樣本值占有一定比例;由圖2b可知,APowerlevel指標屬性存在較明顯的界外值,綜合原理分析和測試經驗,APowerlevel取值范圍應為(-100 dBm,-20 dBm)。使用SPSS經過空缺標記檢測和界外指標處理之后,圖3可看出樣本總體的可靠性得到了保證。


綜合分析覆蓋測試中車速、間隔、樣本總數3個因素后,聚類個數被設計為5。圖4為樣本集形成的5個聚類類別中各類的樣本數目所占百分比。聚類作為一種探索性分析方法,沒有明確的檢驗方法,但本方案中聚類情況與實際地理情況非常吻合,城域的整體樣本基本按照距離鄰近原則得到了有效劃分。
之后對每類數據分別計算樣本的Z-得分,并檢測出孤值點。表1所示數據取自第二區域的鄰近樣本,其中Z-得分為2.231 9的APowerlevel值與鄰近數值明顯不同,跳變了大概10 dBm,以此方法可以直觀地對孤值點進行甄別,以避免敏感值對評估結果的影響。

圖4 聚類后各類樣本所占比例餅圖

表1 聚類后一段樣本的Z-得分
在分析CMMB信號覆蓋和屬性特征的基礎上,筆者設計了一種結合聚類與統計學方法的檢測方案。在實際案例上的應用中,既能提高處理效率,使數據分析人員能夠擺脫以往依靠人工對異常值的檢測,并且可以更加準確地甄別測試數據,從而保證了數據的可信度,有效地為網絡優化和評估提供數據支撐。在數據準備中,還需要處理重復標記值,當然不屬于異常值范疇,不在討論范圍之內。
[1]HAWKINS D M.Identification of outliers[M].[S.l.]:London Chapmanand Hall,1980.
[2]劉云霞.數據規約的統計方法研究及應用[D].廈門:廈門大學,2008.
[3]KNORR E M,RAYMOND T N,TUCAKLV V.Distance-based outliers:algorithms and applications[EB/OL].[2010-10-25].http://portal.acm.org/citation.cfm?id=764218.