文/邢德奇 康樂
大數據技術在北斗用戶管理系統的現狀分析
文/邢德奇 康樂
本文分析了北斗用戶管理系統數據工作存在的問題,根據大數據的發展現狀與趨勢,提出了北斗用戶管理系統對大數據技術的新需求,簡要介紹了大數據存儲管理、大數據并行計算和大數據分析等大數據關鍵技術,并針對北斗用戶管理系統實際大數據需求提出了未來大數據應用的建議。
大數據 北斗用戶管理 存儲管理并行計算
大數據的應用和技術是在互聯網快速發展中誕生的,起點可追溯到2000年前后。伴隨著互聯網產業的崛起,這種創新的海量數據處理技術在電子商務、定向廣告、智能推薦、社交網絡等方面得到應用,取得巨大的商業成功。這啟發全社會開始重新審視數據的巨大價值,于是金融、電信等擁有大量數據的行業開始嘗試這種新的理念和技術,取得初步成效。與此同時,業界也在不斷對現有的大數據處理體系進行擴展,使之能在更多的場景下使用。
大數據是新資源、新工具和新應用的綜合體,具體是指隨著信息存儲量的增多,通過數據的開放、整合和分析,發現新的知識、創造新的價值,從而為社會帶來“大科技”、“大利潤”、“大智能”和“大發展”的新機遇,其具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)和Veracity(真實性)5V特征。
隨著北斗用戶管理系統數據的飛速增長和數據類型的日益多樣化,為了適應大數據時代的潮流,更好得將數據服務于用戶,北斗用戶管理系統大數據工作應滿足以下需求:
北斗用戶管理系統多種類結構化和非結構化海量數據的集中采集、保存與維護管理,構建大數據存儲網絡,建立大數據集中管理平臺,保證數據的“質”和“量”。
面向用戶需求,開展北斗用戶管理系統大數據的集中處理分析方法研究和深層次分析挖掘技術研究,用以支撐故障診斷、性能調優、科學研究與輔助決策。
北斗用戶管理系統大數據的對外共享開放服務,為各類用戶提供開放的數據。
北斗用戶管理系統各部門的數據管理維護全部分離,通過各自的數據管理系統獨占數據資源,各部門之間數據交換主要依靠光盤傳輸,未實現真正意義上的數據集中統一管理和共享開放,集中處理計算和聯合分析更是無從談起。
存儲架構采用傳統的NAS+SAN結構,存儲和計算的物理設備分離,不適應大數據的密集型計算,易出現I/O瓶頸現象。數據存儲僅依靠數據庫入庫軟件和文件存儲,低效,無法適應大數據海量存儲的要求。
長期歸檔備份的數據文件首先要經過長時間的解壓縮過程才能篩取獲得,短期數據庫數據與長期歸檔備份文件數據的聯合使用完全靠人工實現。
目前的數據分析主要以系統需求為目標,為了系統的聯調聯試以及穩定運行,做了大量的數據分析,但缺乏面向用戶需求的數據分析,需要開展專題研究用戶對北斗用戶管理系統數據的需求。
數據分析缺少統籌規劃,首先分析數據“散”,運控系統超過一定時限的歷史數據大都以離線方式保存,無法支持長期數據的關聯分析和深度挖掘;其次分析行為“散”,缺乏先進技術手段以支持運控海量數據的集中分析處理,缺乏數據智能自動化分析方法,大量數據僅僅是被動地等待用戶,而不是主動綜合分析,無法產生更大的效用。
數據的海量化和快增長特征是大數據對存儲技術提出的首要挑戰。這要求底層硬件架構和文件系統在性價比上要大大高于傳統技術,并能夠彈性擴展存儲容量。大數據存儲管理技術主要采用分布式架構的分布式文件系統HDFS(Hadoop Distributed File System),將計算和存儲節點在物理上結合在一起,從而避免在數據密集計算中易形成的I/O 吞吐量的制約。
大數據的分析挖掘是數據密集型計算,需要巨大的計算能力。與傳統“數據簡單、算法復雜”的高性能計算不同,大數據的計算是數據密集型計算,對計算單元和存儲單元間的數據吞吐率要求極高,對性價比和擴展性的要求也非常高。傳統依賴大型機和小型機的并行計算系統不僅成本高,數據吞吐量也難以滿足大數據要求,同時靠提升單機CPU性能、增加內存、擴展磁盤等實現性能提升的縱向擴展(Scale Up)的方式也難以支撐平滑擴容,需要研究適應大數據計算的分布式并行計算技術。
目前的大數據分析主要有兩條技術路線,一是憑借先驗知識人工建立數學模型來分析數據,二是通過建立人工智能系統,使用大量樣本數據進行訓練,讓機器代替人工獲得從數據中提取知識的能力。
針對目前各種分離管理的北斗用戶管理結構化和非結構化數據,結合大數據管理技術,建立大數據采集網絡,采用分布式管理的方式管理錯綜復雜的海量數據,實現北斗用戶管理系統大數據的采集、保存、維護、分析、共享與集中管理。
研究調研北斗用戶管理系統和用戶需求,開展面向系統和用戶的分析研究工作,實現北斗用戶管理系統大數據的集中處理計算和深層次分析挖掘,用以支撐故障診斷、科學研究與輔助決策。
通過大數據共享平臺的建立,實現北斗用戶管理系統大數據的對外共享開放服務;通過標準化的數據接口完成信息的交換與整合。
[1]舒文瓊.數據量爆發式增長物聯網引入大數據技術迫在眉睫[J].通信世界,2013(12).
[2]譚琳.大數據技術初探[J].科技創新導報,2014(04).
[3]熊定鴻.Hadoop平臺下的分布式SVM算法及其應用研究[D].西南交通大學,2016.
[4]趙琳琳.云存儲模擬器及資源管理策略研究[D].華南理工大學,2014.
作者單位 中國電子科學研究院 北京市 100041