趙厚理
引言:
大數據核心價值:大數據情報化。高關聯度的深度挖掘呈現。縱深橫向關聯挖掘呈現。
隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,大數據情報化研究正從單一領域分析向全領域分析的方向發展。數據精分及呈現結果都在數據計算中凸顯情報化特色,滿足使用者最精準的需求。
各行業越來越依賴利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于大數據情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。
多維度的空間碎片數據關聯是大數據情報化呈現的基礎,根據不同屬性對數據進行定制化呈現并通過關聯計算方式智能化的解析預警,提供判斷依據是大數據情報化的關鍵。在數據大爆炸的時代,我們如何利用好大數據呈現其應該具備的價值,是非常值得研究和探索的。
一、大數據情報化
大數據分析及呈現是將可收集的大數據內容進行定制化結果、結論的可視化呈現過程,如何將有限的數據進行高關聯度延伸分析、縱深橫向關聯分析、類比資源輸送結合分析,是業界的難題,即大數據分析呈現的情報化,是特種安全領域、情報分析領域以數據為基礎的全新思維,技術相通,理念一致。
將判斷威脅情報分析的引擎融入大數據分析行業則形成大數據情報分析系統。
對信息安全領域威脅的大數據情報分析內容:黑客、黑客來源、黑客屬性、黑客使用武器、黑客手法、武器基因、變種方式、入侵手段痕跡、隱藏手段、竊密方式、運輸手段、惡意IP庫、跳板、DNS供應商、行為目的輸出等。
對社會安全、生產安全、反恐的大數據情報分析內容:特殊定向人物、生活生產習性愛好、社交及行為軌跡、地理分布、危險品爆炸物關聯、消費及生活環境、學歷及家庭環境、征信內容等。
可以廣泛應用于軍事、反恐、商業、人文、農業、互聯網、金融等領域。在數據呈現結果中我們需要的那部分稱之為“畫像”,大數據是物理世界在網絡世界的映射,是一場人類空前的網絡畫像運動。
網絡世界與物理世界不是孤立的,網絡世界是物理世界層次的反映。數據是無縫連接網絡世界與物理世界的DNA。發現數據DNA、重組數據DNA是人類不斷認識、探索、實踐大數據的持續過程。
充分計算關聯碎片大數據形成情報,自由構建并呈現給用戶最直觀的數據挖掘內容。是當今大數據以情報分析呈現的必然趨勢及需求點,因受限于運算技術能力及應用場景,目前很多大數據情報資源提供機構不能滿足真實需求或不能深度挖掘呈現所需,只能做到大數據運算及呈現,情報引導引索能力尚待提高,預知呈現預警能力不高。
二、大數據情報分析應用相關技術
2.1數據應用平臺和數據可視化方案
2.1.1商業智能(BI)工具
用于比較基本的,格式固定的報表展現,具體選型待定,需要根據郵政總局的實際情況,沿用歷史已購買許可的BI工具,或者另外選型。
2.1.2數據分析工具
Hive 在Hadoop、Spark上實現的各種SQL引擎,可以兼容傳統數據庫、數據倉庫的形式提供數據的查詢和計算。為業務人員提供門檻較低的交互式的數據分析工具。
2.1.3情報分析工具
HD300,深度關聯呈現模型,是最核心的情報呈現工具,也是核心應用模塊。社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于反恐情報、商業情報、軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。
2.2數據分析及可視化
2.2.1 Web頁面數據查詢和數據可視化
架設在HBASE或者Spark SQL之上的高度定制化的數據展現和數據交互實現。對于定制為情報的數據分析和可視化呈現,均需要進行代碼開發。可以選用業界的主流d3.js可視化框架來呈現數據。
太有意義有意義亞瑟王十五大
地理空間數據分析的分析,由于地理數據的抽象度較高,高度依賴于可視化展現,實現難度也較高,Esri API和GeoTrellis可在Spark上實現地理數據的數據分析。
更加炫目的3D動畫式的數據展現可用WebGL實現,路徑飛線動畫就是基于WebGL實現,非常成功??梢猿尸F出更為直觀的效果。其他受好評的數據可視化工具如tableau,processing,根據需要備選。
從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。
可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。