范振雄,李 蓉,冀維林
(國家無線電監測中心,北京 100037)
在無線電監測工作中,不可見的頻譜資源通常以頻譜圖、瀑布圖等形式展示,頻譜的使用數據或信道占用度表示某特定頻率或頻帶在指定的測量時間間隔內發射信號的時間[1]。抽象的監測數據能變為直觀的、以圖形圖像表示的、隨時間和空間變化的物理現象呈現給觀測者,用以進一步的分析和處理[2]。
多年來,我國在超短波監測方面已累積了大量的歷史數據,但目前超短波監測工作依然面臨一些現實問題。例如業務系統與實踐監測工作結合不夠緊密、監測數據分析處理深度不夠等。究其原因,主要是受限于現有超短波監測系統的數據分析功能單一、軟件內置的IQ數據分析功能多樣性不足,已難以滿足監測工作中對數據挖掘的多樣化需求。
針對當前社會有效的、可伸縮的和靈活的數據分析迫切需要,數據挖掘技術應運而生,尤其是可視化技術取得了長遠的發展,目前,越來越多的、基于R語言、Scala、Python等編程語言的可視化技術,已被用于各種海量數據挖掘場景??梢暬夹g的飛速發展,使得頻譜管理人員利用開發工具定制可視化應用,用于超短波監測數據挖掘成為可能。本文梳理了可視化技術的基礎知識,設計了一種超短波監測數據挖掘可視化模型,并基于Excel、Python等可視化開發工具,結合實際案例對超短波監測數據挖掘中的可視化應用進行簡要分析。
如圖1所示,監測數據挖掘通常將數據分析和數據可視化組合,數據分析包含數據接入、數據預處理、分析算法等數據功能;數據可視化包括可視化算法和數據展示(可借助R語言、Python等動態開發工具來實現)[3]。數據可視化是指將大型數據集中的數據以圖形圖像形式表示,并利用數據分析和開發工具發現其中未知信息的處理過程。

圖1 監測數據挖掘流程
從應用角度來說,數據可視化的根本目的是直觀地展現數據,為此可建立如圖2所示的超短波監測數據挖掘可視化嵌套模型。

圖2 超短波監測數據挖掘可視化嵌套模型
該模型詳細地列出了可視化系統設計一般的方法與步驟,并為這些步驟提供評估體系執導設計的優化。結合無線電監測工作的具體實例,可將可視化設計與評估的嵌套模型從外到內分為四層:
(1)需求提煉:描述待解決的實際問題,以及需要何種監測數據。
(2)抽象設計:將實際問題映射為抽象的數據類型及對其的操作。
(3)編碼交互:通過代碼實現底層監測數據與分析者之間的交互通道。
(4)算法實現:基于監測數據挖掘需求,利用可用的數據分析工具進行具體的算法實現。
通過可視化技術定制所需的監測數據挖掘模型,有針對性的輸出超短波監測數據挖掘結果。
可視化應用的目的是以最精確的方式來展示數據。Extreme Presentation創始人Dr. Andrew Abela認為每一種圖表類型都有最適合自己的業務場景[4]。數據之間通常包含下述5種關系:構成、比較、趨勢、分布及聯系,如圖3所示。
圖表是數據的直觀表現,使枯燥的數據更直觀化和形象化,通過圖表可以非常迅速地對數據產生總體上的認識[5]。在超短波數據挖掘的實際應用中,各數據關系之間的用途和應用如表1所示:

圖3 數據關系模型

表1 各數據關系之間的用途和應用
當總的數據量較少時,可以選擇靈活的Excel進行繪圖;而當需要分析的頻點較多時,可利用Python等語言進行二次開發,以滿足實際工作中對數據挖掘的需要。在本文中,主要使用的Python 函數庫有 NumPy,Pandas,Scipy,Matplotlib,Thinker等[6]。結合超短波監測工作,以下對監測數據挖掘可視化進行應用舉例。
條形圖可用于表述數據間關系,其排列先后順序可根據監測技術人員的要求進行改變,適用于重點標注數據集中排名前Top N的元素。如圖4所示,在臺站核查工作中,在某市不同區域(A區-I區)的某類型臺站數量分布情況。

圖4 某類型臺站區域數量分布圖
柱狀圖描述的是分類數據,其用高度反映數據差異,用來展示有多少項目(頻率)會落入一個具有一定特征的數據段中。同時,柱形圖還可以用來表示含有較少數據值的趨勢變化關系。從分析圖形分類來看,有單指標柱形圖、多指標柱形圖(又稱分組柱形圖)以及堆疊柱形圖三種類型。本文主要舉例單指標柱形圖、多指標柱形圖。
(1)單指標柱形圖。典型的就是用于展示某廣播電視在不同月份的占用度信息,可反映全年該廣播電視信號的頻段占用情況,如圖5所示,基于某年3月-10月對某廣播電視進行連續監測后,根據歷史監測數據,利用Python相關庫繪制的占用度情況圖。

圖5 某廣播電視3-10月占用度情況(基于Python)
(2)多指標柱形圖。根據《中華人民共和國無線電頻率劃分規定》[7],不同的無線電業務使用不同的頻段。實際監測中,發現某超短波業務時常受到非法臺站的干擾。如圖6所示,為研究干擾規律,可以將整個頻段劃分為10個子頻段進行比較,根據顯示了各子頻段內業務受干擾的數量多寡的對比。

圖6 合法臺站和干擾臺站頻段分布圖
餅圖可通過弧度大小來對比各種分類,表示每一部分所占全部的百分比情況。由于人的眼睛比較習慣于按順時針方向進行觀察,所以通常以12點方向為起點,順時針讓所有待顯示值從大到小的順序排列。從分析圖形分類來看,有標準餅圖、中空餅圖和環形餅圖三種類型。本文主要討論標準餅圖。
如圖7所示,餅圖可有效顯示不同頻段內臺站數量占比。

圖7 各子頻段內業務受干擾的數量占比圖
折線圖可用來反映隨時間變化而變化的關系,尤其是在趨勢比單個數據點更重要的場合,顯示數據在一個連續的時間間隔或者時間跨度上的變化。
(1)單線圖。如圖8,基于監測系統頻段掃描采集的底層數據,可根據小時占用度以分析某頻點的日發射規律,該頻點從晚上21點開始有信號出現,在早上6點消失。

圖8 某頻點的發射規律(以小時占用度統計)
基于現有超短波監測系統,在對某頻點進行連續監測后,可根據歷史監測數據,利用Python相關庫繪制的占用度情況圖。圖9展示了基于Python繪制的某頻點的近3日(72小時)發射規律(以小時占用度統計)。
面積圖是折線圖的另一種表現形式,其使用顏色或者紋理布滿折線圖中折線與自變量坐標軸之間的區域,顏色的填充可以更好的突出趨勢信息,該區域通常稱為“面積”。一般來說,透明度可以很好的幫助使用者觀察不同序列之間的重疊關系。如圖10所示,某廣播電視信號在某天的小時占用度測量值和長期觀測得到的典型值對比,可見測量值和長期觀測獲得的典型值基本一致,未見明顯偏差。

圖9 某頻點的近3日發射規律(基于Python)

圖10 某廣播電視信號典型值和測量值對比
此亦可用于在重點監測頻段內發現異常信號。如圖11所示,可見某天監測到的測量值和長期觀測獲得的典型值有明顯偏差,正常信號未予發射的時間間隙被未知信號占用。

圖11 某廣播電視信號典型值和測量值對比
地圖是信息密度最大的數據可視化方式,基于算法和展示手段的不同,無線電監測數據挖掘中常用地圖類型有散點地圖和熱力地圖、軌跡圖等。本文重點說明散點地圖和熱力地圖。
(1)散點地圖。散點地圖用散點來表示所在位置的信息指標。其根本依據是通過監測技術人員提供的經緯度坐標。如圖12所示,其部分展示了某類型臺站的地理位置分布情況。
(2)熱力圖。熱力地圖以地圖為底,結合特殊高亮的形式將數據數據描述于某一指定地理區域內,不同顏色反映不同區域密度的分布。從綠到紅,顏色越深則此區域數量越多,密度越大。如圖13為某類型臺站的密度分布情況。

圖12 某類型臺站的地理位置分布

圖13 某類型臺站的密度分布
在數據可視化中,如何定義最合適的圖形十分重要。一般來看,餅圖、折線圖、柱形圖等基本圖形可以滿足大部分需要,這些圖形也是可視化開發人員最常使用的;但對于超短波監測數據挖掘的具體業務場景下就需要更加特殊的可視化。
在本文所述超短波監測數據挖掘可視化模型的基礎上,基于Excel、Python等可視化開發工具,結合實際案例對超短波監測數據挖掘中的可視化應用進行了闡述。監測技術人員仍應在此基礎上進行進一步的設計開發,在更多維度上對監測數據進行挖掘,以更好地支撐頻譜管理工作。