□李丹
淺談對歷史頻譜數據的數據挖掘
□李丹
本文主要探討了如何利用數據挖掘技術來實現對頻譜資源的直觀展示和深入探索,進而對我國目前的頻譜資源管理提供有價值的信息和解決方案。
頻譜資源;數據挖掘;大數據
(一)大數據的定義
關于大數據的確切定義,目前尚無獲得統一公認的說法。IBM用4V特性來描述大數據所擁有的特點:巨大的數據量(Volume);高速率(Velocity),體現了大數據產生效率的實時性;多結構化數據(Variety),則從數據類型的角度體現了大數據的多元化,除了傳統的文本數據外,圖片、影視頻數據也成為現階段大數據技術的熱門存儲對象;價值密度低(Value),意味著要從低價值的原始海量數據中進行深度挖掘和計算,總結出具備高價值的數據。
(二)基于大數據的數據挖掘技術
數據挖掘的目的是從大數據中獲得知識,很多時候數據挖掘也被稱為KDD,即數據庫中的知識發現。顯然,一個數據挖掘項目所需要的知識涉及到各個層面:決策層面需要知道數據挖掘能干什么;設計層面需要掌握行業相關知識和數據挖掘相關知識;技術層面需要高等數學、概率學、統計學、數據庫原理、分布計算、編程語言、具體算法原理等知識;應用層面則要知道數據挖掘怎樣結合行業領域的需求,以及如何應用數據挖掘的結果來解決問題等等。許多軟件公司及開源機構為了處理海量的信息,并對數據挖掘算法進行普及,開發了眾多數據挖掘工具軟件,而Hadoop生態圈則是目前主流的分布式海量數據挖掘平臺。
(一)頻譜資源和頻譜資源管理
無線電頻譜是一種非常寶貴且有限的自然資源,是屬于國家的重要戰略性資源。近年來,無線電頻譜需求不斷增加,頻率沖突越來越嚴峻,給頻譜資源的監測和管理帶來了新的困難與挑戰,對無線電頻譜的監測與管理是有效使用無線電資源的前提,因此,如何開展對信道和頻段使用情況的有效監測,記錄全頻段和全時段內所有信號的基礎數據,掌握用頻變化,評估信道占用度和利用率,把握頻譜的整體使用情況,提高頻譜感知與管理能力成為亟需解決的問題。
頻譜資源管理是指對無線電頻譜資源的使用進行規劃與控制的活動,而無線電頻率管理是無線電頻譜管理的核心。為了對頻譜資源進行合理的管理,我們不但必須掌握現階段的用頻情況,也需要對以往的頻譜數據進行分析,掌握一段時期內的用頻變化,以此來對下個階段的無線電頻率劃分進行決策。
漢日IT新詞的詞義表達,符合語言修辭理論中的明晰性原則(clarity principle)(leech 1983:67)。每個詞匯除了語音結構和語義之間維系一種透明、直接的關系外,在詞義上也避免了歧義的出現。原因在于IT新詞所表達的是前所未有的新概念和新事物,新詞與新概念、新事物之間呈明確的對應關系,因此詞義本身具有很強的明確性,很少有歧義發生的情況。
(二)歷史頻譜數據挖掘的過程模型
對于數據挖掘項目,首先要建立過程模型,這里運用美國SPSS公司提出的5A模型,即評價需求(Assess)、存取數據(Access)、完備分析(Analyze)、模型演示(Act)、結果展現(Automate),來對歷史頻譜數據挖掘進行過程分析。
1.評價需求
通過對海量歷史頻譜監測數據的深入挖掘與分析,采用形式多樣、豐富的統計方法,我們可以以文本、圖片等多種形式提供直觀、有效、全面的歷年頻譜資源展示,從而為目前的頻譜資源管理提供綜合性決策依據。我臺頻譜負荷收測主要涉及中短波廣播業務,故此項目主要針對中短波廣播頻段頻譜數據進行數據挖掘。
2.存取數據
利用Hadoop數據挖掘構架實現海量數據的快速存取,主要包括大規模數據分析工具Pig、數據倉庫工具Hive、分布式編程框架MapReduce、數據狀態存儲HCatalog、分布式數據庫Hbase以及分布式文件系統HDFS等。
3.對歷史頻譜數據的分析
(1)頻譜占用度分析
頻譜占用度分析是頻譜分析的一種主要方法,通過對頻譜的統計計算,能知曉一定頻段和時間范圍(一般是一個頻譜收測周期)內廣播全頻段的頻譜占用情況,從而能夠幫助我們在橫向(同一年相比較)、縱向(在時間跨度上相比較)上了解收測點附近(上海寶山地區)近60年的頻譜占用度變化情況。一般以柱狀圖顯示一定頻段和時間范圍內的頻譜占用情況,占用度高低由不同顏色加以區分,頻道帶寬可設定,占用度可在時間和頻段兩個不同維度進行統計。
(2)已知電臺分析
已知電臺分析是以已知曉的各國際國內電臺作為分類,在橫向、縱向上對該臺在我收測點附近的、可收測到的播音情況進行統計分析。通過電臺分析,可以得知某一電臺的播音總體變化,包括用頻變化(點陣圖或柱狀圖顯示)、歷年頻時數變化(折線圖顯示)等。同時,按照國家、地區、使用語言(節目內容)等對電臺進行分類。建立數據字典,將某一臺曾使用過的臺名、歸屬、發射地進行統一錄入,方便在統計分析數據時保持完整性。
(3)使用語言分析
使用語言分析是對已知電臺所播的語言種類進行統計分析。通過對各臺各頻率使用語言的統計篩選,可以對以我國為主要播向區的電臺頻率做進一步分析,包括用頻變化(點陣圖或柱狀圖顯示)、頻時總數變化(折線圖顯示)、發射方向圖展示等,對我們把握此類電臺頻率的整體變化趨勢有著重要的作用。
(4)未知電臺、語言分析
我臺的歷年頻譜數據中,包含一部分未知電臺以及未知語言的頻率。這一部分頻率在頻譜負荷表中以“?”表示,大多是能夠收聽到播音但無法通過播音內容或國際資料確定電臺歸屬或播音語言的頻率。對該類頻率,可以通過對已知電臺頻率的數據分析,判斷其可能的歸屬及播音語言。
4.頻譜資源挖掘模型
數據挖掘的任務模式按照功能類型可以分成描述型和預測型兩類,描述型任務一般用來刻畫數據的常用特征,預測型任務則通過分析目標對象的模式和規律,對未來趨勢做出合理判斷。在頻譜數據任務中,對歷史頻譜數據的分析可以歸為描述型,而通過對未來頻譜資源分配走向的分析則應歸為預測型。
將任務進行分類后,需要將各個任務歸納入某一模型類型中。數據挖掘模型可以概括為二大類:聚類、分類、關聯。聚類分析旨在發現不同簇間的差異性;分類是將歷史數據按照用戶的需求進行區分;關聯分析則是重在挖掘兩個不同關鍵詞的內在共性。對歷史頻譜數據的數據挖掘可以歸為分類模型。
5.數據結果可視化展現
項目最終能夠通過快捷全面的前端展示平臺,快速顯示歷史頻譜數據挖掘結果以及對未來各電臺頻率變化走勢的分析結果,讓數據以更為靈活、直觀、可視化的方式表達出來。展示平臺主要應能實現:3D頻譜、頻譜數據地域性展示,統計數據多樣化展示等。
無線廣播頻譜監測與管理系統通過對大量實測數據的分析,能夠直觀地向用戶展示各項歷史數據、頻譜占用情況、非法電臺等大數據背后的信息,對頻譜資源的分析、合理利用,正是我們搭建無線廣播頻譜監測與管理系統的最終目標。而如何在龐大的數據中更高效地進行對數據的甄別、挖掘,從而向用戶提出有用、合理的頻譜資源問題的解決方案,是我們亟待解決的問題。
1.周鴻順.頻譜監測手冊[M].北京:人民郵電出版社, 2006.
2.張俊林.大數據日知錄:架構與算法[M].北京:電子工業出版社,2014.
3.黃標,李景春,譚海峰.認知無線電及頻譜管理[M].北京:人民郵電出版社,2014.
4.[加]洪松林,[中]莊映輝,李堃.數據挖掘技術與工程實踐[M].北京:機械工業出版社,2014.
(作者單位:國家新聞出版廣電總局五五三臺)