王圓春 肖東 林云*
(1.中國電波傳播研究所,青島 266107;2.哈爾濱工程大學信息與通信工程學院,哈爾濱 150006)
隨著無線電技術的不斷發展,各類無線電業務層出不窮,臺站數量也在不斷增加,無線電頻譜資源日趨緊張,電磁環境日益復雜,研究和評估電磁無線電環境勢在必行[1].無線電頻譜資源看不見摸不著,但頻譜資源極其重要,在軍用和民用領域都必不可缺.頻譜信息挖掘技術通常使用人工智能、機器學習、模式識別等手段對頻譜進行統計分析,實現頻域、時域和空域上的信息挖掘,包括異常信息、業務信息和電磁空間信息等[2].關聯規則挖掘是數據挖掘中一種比較常用的方法,利用關聯規則挖掘可以從擁有大量數據的數據庫中提取置信度高且有意義的規則,從而達到數據挖掘及信息獲取的目的.基于關聯規則挖掘的優勢,通過使用關聯規則挖掘來分析頻譜信息可以發現頻譜感知數據中的隱含知識,反映各個電磁概念出現的頻次,提高頻譜感知數據的利用率,評估無線電電磁環境,如機場電磁環境、實驗室電磁環境和軍用領域電磁環境等.
電磁頻譜挖掘方面已有眾多的研究,文獻[3]提出基于海量的頻譜數據挖掘來研究電磁環境,實現了頻譜使用規律挖掘與預測,以及網絡化通信關聯規律挖掘.文獻[4]提出電磁大數據挖掘內容和主要處理技術,主要的挖掘內容包括目標電磁特征、平臺活動特征、系統運用特征,主要技術包括決策樹、聚類、支持向量機(support vector machine,SVM)、頻繁項集等.文獻[5]探究了數據挖掘技術在頻譜監測數據中的應用,主要應用有異常無線電信號檢測和授權用戶業務核查.文獻[6]實現了無線電監測與管理中電磁態勢感知的可視化分析.
本文從電磁頻譜挖掘信息出發,提出了基于模糊關聯規則挖掘的頻譜信息關聯分析,將各類的頻譜信息構成概念庫[7],并通過模糊隸屬函數將概念庫映射成為模糊概念庫.模糊集的構建能改善傳統多值型概念進行硬閾值劃分時的邊界信息丟失問題.構建好的模糊集即可通過改進的Apriori 算法進行關聯規則的挖掘.文中對電磁頻譜數據信息中的異常信息、底噪信息、占用度信息等的挖掘模塊都具有創新性,得到更具研究應用價值的有用信息.文中提出了改進的算子選擇策略和隸屬函數參數,分析了各種信息之間的關聯關系,得出了各類信息之間的強關聯規則.根據電磁頻譜的強關聯規則可以有效分析各類頻譜信息之間的相關性,同時強關聯規則反映了電磁環境中各類信息出現的頻次,通過單對單和多對多的關聯規則,可以找到電磁頻譜采集地點的頻譜規律,多角度、多方面地分析電磁頻譜隱含規律,為電磁頻譜監控和電磁環境研究提供了有效的分析手段.
綜上,基于關聯規則挖掘的電磁頻譜數據分析主要是為了更好地研究頻譜資源信息和電磁環境評估等問題,該方法通過電磁頻譜信息的強關聯規則來對電磁頻譜信息進行研究和分析,并評價電磁環境的好壞,針對特定的電磁環境可以有不同的分析策略,即通過選取不同的電磁信息來進行關聯規則的分析.
電磁頻譜數據是多維度的數據,包含時域、頻域、空域、能域4 個維度的信息.頻譜數據中蘊含了很多有用的信息.頻譜數據可能出現異常,異常信息是保證頻譜信息可靠的關鍵.如果要從頻譜數據中獲取環境中背景噪聲的變化規律,需要對頻譜中的底噪信息進行獲取.從應用角度出發,還可以挖掘信道的占用度信息.
近幾年來,業余無線電臺、無人機、無線通信設備的個人使用情況越來越普遍,而由于缺乏對電磁空間安全的認識,非法入侵其他無線通信頻段的事例時有發生,甚至屢屢出現無線電受到干擾的情況.
頻譜異常指在一定時間、一定頻率范圍內,觀察對象的能量持續偏離某一范圍,則認為在該范圍內頻譜存在異常[8].頻譜異常檢測能檢測出頻譜的非法占用,如“黑廣播”等.本文從時、頻、能3 個維度去分析頻譜異常.首先,頻譜數據在一段時間或某頻率范圍內能量持續偏離正常范圍則認為存在異常.從能域角度出發,如果將頻譜數據中的每一個點都進行排序,其中較大和較小的那一批點可以被確立為疑似異常點.對于樣本點的異常,可以從時、頻、能多維度和樣本內數據組成判斷是否為異常的樣本點.
對于異常的檢測有許多方法但需要根據具體的情況來選擇合適的檢測方法.例如統計檢測方法具有復雜性低、效率高等特點,其適合檢測淺層異常.基于距離的異常檢測方法也是較常用的方法.
本文提出頻譜樣本內異常檢測方法,通過基于四分位距和馬氏距離的異常檢測相結合的綜合檢測來獲取異常信息.通過基于四分位距的統計檢測方法獲得樣本內的異常分數[9],統計出各個樣本內的四分位距值,定義各個樣本點距離樣本中位數的距離與樣本四分位距的比值為異常分數:

式中:Sabno1表示頻點內異常分數;xij為頻譜矩陣中第i行第j列的樣本點;xi·為頻譜矩陣的第i行;quantile(xi·,d)為 樣本xi·中 大小排序在d處的數據大小;iqr(xi·)為 樣本xi·的四分位距值.
本文采用基于馬氏距離的異常檢測方法獲得樣本間的異常分數[10].基于馬氏距離的異常檢測方法通過檢測各樣本與各樣本均值之間的馬氏距離來得出異常分數,馬氏距離越大,異常分數也越大.計算式為

式中:Sabno2為頻點間異常分數;Md(xi,u)為頻點與頻點均值之間的馬氏距離;k為常數,k>0.
電磁噪聲廣泛存在于環境中,處于電磁環境中的各種電子設備,都在一定的電磁噪聲環境中工作.目前由于用頻設備劇增,環境因素惡化,無線電業務的迅猛發展,各個頻段內的電磁噪聲情況惡化,各頻段內的噪聲干擾嚴重.在頻譜監測的任務中有一項是為了分析電磁噪聲環境狀況[11],頻譜監測時會接收到環境中的背景噪聲,但是在沒有直接測量底噪的檢測器存在情況下,普通的頻譜數據只能作為模擬底噪的信息源.所以一般提取底噪信息的方法精度很低.本文使用擬合方法來獲取底噪信息,對頻譜數據中的低能量底噪進行保留,對于無法準確獲得的底噪數據進行擬合,以獲得盡可能真實的底噪數據.
本文選擇4 階傅里葉級數進行底噪擬合,擬合模型為

擬合得到的底噪數據隨時間變化,將底噪數據的峰值和峰谷之差定義為底噪的波動程度.底噪在一個頻點內波動越大說明該頻點的噪聲變化越明顯.底噪波動程度的計算公式為

頻段占用度指在監測時間內,使用監測接收機或頻譜分析儀對某一頻段用固定的步進順序測量,可反映衡量信道占用情況及頻譜利用率,其測量結果可以為頻譜管理人員提供頻譜實際使用情況,方便頻譜管理人員指配頻率,同時還可以為頻率主管部門提供頻譜使用趨勢的信息.頻譜占用狀態分為兩種:占用狀態與空閑狀態[12].當某個信道某個時刻的信號值大于占用度門限值,認為此時該信道被占用,用“1”表示;反之,認為信道此刻處于空閑狀態,用“0”表示.占用狀態為

式中:CS為信道的占用狀態;Pc為頻譜的功率值;P0為信道占用度閾值.只有保證了占用度閾值的準確性,才能保證占用度挖掘結果的可靠性.閾值設置太高,會遺漏信號;閾值設置太低,會混入噪聲.實際過程中閾值往往是估計得到的,本文依據底噪波動程度選擇占用度閾值,以底噪的峰谷向上增加3~ 5 dB 作為閾值門限.
頻譜占用度又可以分為頻段占用度和時隙占用度,頻段占用度為本文的研究對象.實際研究中,頻率點代表頻段,需分析頻段中信號有多長時間超過占用度閾值.頻段占用度用O表示,其含義為超過占用度門限的抽樣點數N與該頻段中的總抽樣點數M之比:

本文將頻段占用度作為一個關聯規則挖掘中的概念,頻段占用度分數值S與頻段占用度成正比:

式中,k為常數,且k>0.
預定時間功率值作為頻譜信息之一,描述待研究電磁環境中可能存在的特殊情況,如特定時間內的電磁現象.本文選擇3 個特定的時間段來得到3 個預定時間功率值分數:

式中,P1,P2,P3為3 個預定時間的功率值.
關聯規則挖掘可以揭示大量數據中的隱藏關聯模式,這些關系可以稱為關聯規則(Association rules),包含了多個事物之間的關系[13],還可以表明概念在數據庫中所占的比例,幫助我們找到更有“價值”的概念.同時,關聯規則挖掘可以快速處理大量的數據,是一種高效分析大量數據的手段.
選好要進行挖掘的數據構成數據庫D.數據庫D由大量事務組成,每種事務又包含了很多項目,即D={t1,t2,···,tn},ti為事務,i=1,2,···,n.對于任意的事務ti有ti={i1,i2,···,ip},對于不同的ti,p也可能是不同的.設I={b1,b2,···,bn}為D中全體項目組成的集合,I的任意子集稱為D中的項目集,若某子集包含k個項目,則稱該子集為k-項目集.
數據庫中的項目代表的是某一概念或屬性,而事務代表的是記錄.對應于電磁頻譜信息概念,電磁頻譜信息概念構成的數據庫記為De,事務t即每個頻點的概念記錄值,即每個頻點都會有包括異常信息、底噪信息、占用度信息、預定時間功率信息等.而項目b指的是概念,即異常信息、底噪信息、占用度信息及預定時間功率信息其中的一個.可以看出數據庫De中包含了頻譜數據挖掘中得到的所有信息,包括未丟失信息.
在得到數據庫De后,還需要引入兩個概念,分別為支持度(support)和置信度(confidence).
支持度指某一項目集在整個數據庫中所占的比例,項目集X在數據庫所占的項目數稱為X的支持數,記為Xsup.定義項目集的支持度為

式中,|D|為數據庫中的記錄數.
支持度實際指某個項目集的頻繁程度.如果某些項目在所有記錄中出現的平均次數越多,說明這些項目的頻繁程度越高,需要重點考慮,著重研究.
關聯規則的支持度代表該關聯規則在數據庫中出現的頻繁程度.因為關聯規則是多個事物之間的關系,只考慮一個項目集肯定是不夠的,若X、Y都是數據庫中的項目集,且X∩Y≠?,前面提到項目代表的是概念或屬性,兩個項目集有交集意味著兩者都關聯.形如X?Y的蘊涵式稱為關聯規則,關聯規則的支持度用同時包含兩個項目集概念的項目集支持度表示:

通過關聯規則可以引出兩個項目集的置信度概念:

從式(13)可以看出,置信度反映的是兩個項目集之間的關聯,指在X的條件下同時包含X與Y的項目集占X的比例.這一概念有點類似條件概率,即在條件發生的情況下目標發生的概率.由置信度的概念可知,置信度大的關聯規則代表兩個項目集之間的關聯強,置信度小的關聯規則代表兩個項目集之間的關聯弱.
2.3.1 頻繁項集
為區分出現頻繁的項目和不頻繁的項目,給出頻繁項集的概念,頻繁項集指的是支持度不小于最小支持度的項目集.即:

式中:minsup為 最小支持度;為頻繁項集,對于小于最小支持度的項集,稱為非頻繁項集.由集合理論,設X、Y都是數據庫中的項目集,可以得出以下結論:
1)若X?Y,則S upport(X)≥S upport(Y),即項目集的子集項目數必定小于等于原項目集;
2)若X?Y,當X為非頻繁項集時,則Y也是非頻繁項集;
3)若X?Y,當Y為頻繁項集時,則X也是頻繁項集.
通過上面結論可以簡化頻繁項集的尋找過程,可以過濾掉本來就是非頻繁項集的子集,或不去考慮子集已經是頻繁項集的項目集.
2.3.2 強關聯規則
強關聯規則即滿足最小支持度和最小置信度限制的關聯規則:

式中,mincon f為最小置信度.強關聯規則需同時滿足式(14)與(15).
強關聯規則是一般關聯規則挖掘算法研究的核心內容,是一般關聯規則挖掘的對象.通過找出這些強關聯規則來分析各種概念之間的關聯關系.對于支持度太小或者置信度太小的關聯規則,一般的關聯規則挖掘中不予考慮.
Apriori 算法是關聯規則挖掘算法中最為經典的算法,由Agrawal 等人于1994 年提出[14].Apriori 算法利用頻繁項集的先驗性質(即頻繁項集的非空子集一定是頻繁的)通過逐層搜索的方法,通過k項集搜索(k+1)項集.首先,通過掃描數據庫,累計每個項的計數,并收集滿足最小支持度的項,找出頻繁1-項目集的集合,該集合記為L1;然后使用L1找出頻繁2-項目集的集合L2,使用L2找出L3;以此類推,直到不能再找到頻繁k-項目集.每找出一個Lk需要一次數據庫的完整掃描.Apriori 算法流程如表1 所示.

表1 Apriori 算法流程Tab.1 Apriori algorithm flow
Apriori 算法是挖掘單維布爾關聯規則的一種重要方法,但也存在一定的局限性.首先,Apriori 算法有兩大缺點:一是產生了大量的頻繁集,二是重復掃描數據庫,導致Apriori 算法的效率很低,可以改進算法實現更高效的挖掘模式.并且Apriori 算法的挖掘對象只能是布爾型對象,而現實中的對象多為多值型對象,需要其他方法來改進挖掘對象和挖掘算法.
針對Apriori 算法執行效率很低的問題,J.Han等人于 2000 年提出了不產生候選頻繁項集的方法,即FP-tree 算法[15].
該算法直接將事務數據庫壓縮成一個頻繁模式樹,然后通過這棵樹生成關聯規則.
FP-tree 算法跟Apriori 算法一樣,都必須事先設定最小支持度閾值,然后利用此閾值進行篩選.基本思想是: 首先掃描整個事務數據庫一次,生成頻繁1-項目集,并把它們按降序排列,排除支持度計數值小于最小支持度的項,產生結果集L;然后按照項集描繪出一棵FP-tree,同時依然保留其中的關聯信息;最后再掃描事務數據庫一次,由下往上循序進行挖掘,刪除FP-tree 中的子節點,即可產生所需要的頻繁模式.
FP-tree 算法只需對事務數據庫進行二次掃描,避免產生大量的候選集.但由于該算法要遞歸生成條件數據庫和條件FP-tree,內存開銷大,只能用于挖掘單維的布爾關聯規則.
真實世界的屬性一般都為多值屬性,如信號功率、占用度等.傳統的Apriori 算法和FP-tree 算法都只能處理布爾型的數據,即“0,1”數據.模糊關聯規則挖掘算法對多值數據進行模糊化,并在傳統算法的基礎上對支持度、置信度等概念進行改進,適用于頻譜信息挖掘.
對于多值數據,如果需要采用傳統的模糊關聯規則挖掘方法進行處理,就必須進行劃分.選定一個閾值,將大于閾值的數據的值置為“1”,小于閾值的值置為“0”.“1”意味滿足該概念,“0”意味不滿足該概念.這種區間的精確劃分將導致區間邊界比較尖銳,可能會導致區間邊界附近的信息丟失.針對此問題引入模糊集合理論,模糊集合也是一種集合理論,但模糊集合可以用隸屬函數來表征,值域為[0,1].隸屬函數可以將屬性轉換為模糊屬性,這樣多值屬性區間過渡比較平滑,可以減少區間邊界信息丟失的現象.
對事務Ii進 行模糊處理,模糊函數為Fi(x),則模糊化的過程可表示為

經過模糊化后的數據庫可表示為Dfuz,即模糊集.
經過模糊化后,數據庫中的元素的表示形式不再是值域為{0,1}的二值數,而是值域為[0,1]的模糊數.經典關聯挖掘理論中的支持度和置信度概念就需要重新定義.先來看經典挖掘方法用二值數形式表示的支持度與置信度,設矩陣T代表數據集D的二值形式:

式中:矩陣T的行代表項目,列代表事務;xij為二值數,代表第i個項目中是否具有事務j.記具有事務集X中全部事務的項目數為S,則某個事務集X的支持度可表示為

當xij為模糊數時,明顯不能使用上述的計算方法.下面介紹幾種常用的處理模糊關聯規則中支持度和置信度的方法.
第一種是對經典的支持度和置信度進行概念擴展,通過閾值將模糊值問題轉化為經典的二值問題.模糊項集X={x1·,x2·,···,xp·},xi·表示第i條記錄,第i條記錄對項集X的支持度為

式中:符號 ×表示直積運算,選取的t-模算子為直積,也可以選擇取小,符號∧表示取小運算;λ為閾值.相應的,模糊項集X在D中的支持度定義為

第二種方法是直接使用xi1×xi2×···xin或xi1∧xi2∧···xin的值作為每一條記錄對項集X的支持度,計算項集X對D的支持度為

第三種方法利用模糊邏輯中的近似推理,判斷候選模糊關聯規則蘊涵度的大小.這一方法利用支持度和由模糊蘊含算子 (fuzzy implication operator,FIO)定義的蘊涵度來進行模糊關聯規則挖掘.
假設有模糊庫D如表2 所示,通常選擇式(21)所定義的支持度計算方法來衡量模糊庫中的模糊項集的支持度.

表2 模糊庫DTab.2 Fuzzy database D
記X={x1,x2},記錄1 對X的支持度為S up(X)1=0.1×0.9=0.09,記錄2 對X的支持度為S up(X)2=0.1×0.2=0.02,不符合支持度的意義,故選用取小算子,記錄1 和記錄2 對X的支持度則都是0.1,更為合理.而對于記錄3 和記錄4,選擇直積算子和取小算子差別不大.故本文提出新的t-模算子選擇策略,即對于事務集中每條記錄,若任意屬性值小于等于參數 α,則選用取小算子,否則選擇直積算子.
由頻譜數據挖掘得到的頻譜信息需要進行模糊化才能進行模糊關聯規則挖掘.模糊化的關鍵在于選擇合適的隸屬函數,而在頻譜數據的關聯規則挖掘中,隸屬函數中的參數由已構建的模糊庫確定.但是電磁環境本身的特性很難用短時的模糊庫進行描述,所以需要選用長時間的大尺度下的參數來構造隸屬函數.假定有兩個模糊庫D1和D2,D1中同一屬性的屬性值小于D2,兩者屬性值的分布相同,假定S up(X)1=0.5,X為某一事務集.表3 中給出了在偏小梯形隸屬函數下兩種參數選擇導致的事務集X支持度差異.當模糊庫中的數值整體偏大或偏小時,通過短時參數確定的模糊值可能相同,而長時參數能區分這種差別.

表3 兩種參數的差異Tab.3 Difference between the two parameters
本文中選擇偏小梯形隸屬函數,將通常使用的短時參數替換為大尺度參數,其函數表達式為

式中:a和b的取值可以根據專家經驗和大數據統計確定,與短時的模糊庫無關;μA為大尺度參數下的隸屬函數值.
因為選擇的隸屬函數為偏小型函數,故某一概念模糊值的大小代表了這條記錄小的程度,即模糊值與記錄值小的程度成反比.
為研究頻譜數據中關聯規則挖掘的效果,實驗中對一個實測數據集進行異常檢測、底噪挖掘、占用度分析、模糊集構建、關聯規則挖掘等一系列挖掘流程.
實驗數據集為在伊利諾伊理工學院(IIT)的無線網絡和通信(WiNCom)研究中心建立的基于專用頻譜分析儀的連續寬帶頻譜觀測站的開源實測頻譜數據集.該頻譜數據集采集地點為芬蘭圖爾庫市的一個單一固定地點,數據集詳細信息見表4.

表4 數據集信息Tab.4 Dataset information
參數k對挖掘結果無影響,為了簡便起見,取參數k=1.依據實驗需求,最小支持度為0.3,最小置信度0.5.實驗數據底噪波動較大,根據底噪波動程度越大占用度閾值應越高的原則,占用度閾值取底噪峰谷加5 dB,參數 α是算子策略的閾值,取0.1.
由前面的分析可知,頻譜信息包括了異常信息、底噪信息、占用度信息、預定時間功率信息.本文以每個頻點作為關聯規則挖掘中的事務,即一個頻點的數據一條記錄,而以表5 所示的7 個概念作為關聯規則挖掘中的項目.

表5 概念集Tab.5 Concept set
異常檢測中得到頻間異常程度和頻內異常程度,底噪挖掘中得到底噪波動程度,頻點占用度由占用度挖掘得到,預定時間段功率值由對頻譜進行時域平均得到.得到的頻譜信息數據集如表6 所示,給出的是前10 條事務.

表6 頻譜信息集Tab.6 Spectrum information set
從獲取的頻譜信息中乘上相應的常數k可以獲取頻譜信息分數.
通過頻譜信息分數進行模糊關聯規則挖掘,選擇長時參數構建隸屬函數,挖掘信息分數進行模糊化后得到頻譜信息模糊集,如表7 所示.可以看出,各個概念中的多值型數據都轉化為模糊值,模糊值越大,對應概念較小的程度越高.

表7 頻譜信息模糊集Tab.7 Spectrum information fuzzy set
實驗中分析了支持度優先和置信度優先兩種需求下的強關聯規則,驗證了4.2 節中的第二種支持度下的模糊關聯規則挖掘算法.取支持度或置信度最高的前三條關聯規則.將表5 中的七個概念記為S1,S2,…,S7,實驗結果如表8 所示.

表8 關聯挖掘結果Tab.8 Association mining results
表8 中Si->Sj表示概念Si與Sj的關聯規則,其中每條關聯規則包括了兩個項目集,括號內第一個參數為關聯規則的支持度,第二個參數為關聯規則的置信度.從實驗結果可以得出以下結論:
在該電磁環境中:
1) 占用度低,頻間異常程度低;
2) 占用度低,底噪波動程度低;
3) 頻間異常程度低時,占用度低的可信度最高.
其他特征之間的關聯規則可以依據其他關聯規則進行判斷.
相關方法使用相關系數衡量各種概念之間的相關性,是一種常用的相關性衡量方法.但是相關方法比較于模糊關聯規則挖掘方法有幾個缺點:相關系數只能描述兩個概念之間的相關性,而模糊關聯方法可以描述多個概念之間的相關性;相關方法反映的是相互關系,不能比較兩個不同概念的先后影響,模糊關聯方法可以體現某個概念的出現頻次,即占用度.
針對頻譜數據,本文研究了頻譜數據的關聯規則,探究了頻譜數據的異常檢測、底噪挖掘、占用度分析等環節,得到頻譜數據信息.提出改進的算子選擇策略,并使用長時參數來改進短時參數帶來的局限性,將各種信息當作關聯規則挖掘中的概念,通過構建模糊集,將各種頻譜數據信息進行模糊化,模糊化后的頻譜信息作為模糊關聯規則挖掘算法的輸入.強關聯規則能很好地揭示各種電磁概念之間的隱含聯系,為電磁數據挖掘工作減少工作量,也可以起到全面評價電磁環境的作用.基于模糊關聯規則挖掘的分析方法可以得到各種電磁參量的關聯關系,改進了單獨分析各種電磁頻譜信息的研究中各類頻譜信息關聯薄弱的問題.且這種模型使用起來非常靈活,只需要改變對應的頻譜概念即可重新進行評估,不需要改變關聯規則的框架,通過改進隸屬函數參數可以比較不同短時數據集的挖掘結果,即這種方法對研究電磁頻譜信息挖掘和電磁環境評估具有很強的普適性.但是頻譜挖掘理論還是存在一定未解決的問題,首先是電磁頻譜信息獲取過程中各種閾值的選擇需要依靠經驗來進行判斷,需確認是否合理.而模糊關聯規則挖掘算法中所用的隸屬函數所采用的t-模算子,在電磁頻譜挖掘中沒有確切的參考類型選擇,需要根據實際情況進行判斷.
綜上,頻譜數據的關聯規則挖掘具有很好的研究價值和研究意義,但是相關的理論還有進一步研究和進步的空間.在之后的工作中還需要對其進行進一步的研究.