魏翠紅
摘 要:文章介紹了大數據及大數據共享的含義,詳細介紹了實現大數據共享的硬件及軟件條件。在硬件方面著重介紹了大數據中心的模塊建設方式,在軟件方面比較系統地介紹了大數據共享的相關技術手段等,對大數據相關立法和政策進行了討論和展望,文章緊貼當下大數據的發展,在此基礎上積極探索目前還尚未成熟的大數據共享領域。
關鍵詞:大數據;數據共享;平臺
1 大數據共享的含義
1.1 大數據共享介紹
大數據共享,是讓不同地方使用不同計算機、不同軟件的用戶,即不同終端,按照一定的規定和安全共享機制,通過網絡(局域網或互聯網)等讀取他人共享的數據并進行各種操作、運算、分析和管理的行為。從廣義上理解,大數據共享在內容上不僅包含了海量數據的共享,還涉及到大數據軟件程序、大數據科學和工程系統及大數據的應用實踐等內容。數據開放利用程度越高,信息知識作為生產要素就會越高。
1.2 大數據共享的意義
大數據共享,涉及大數據技術及大數據應用,在實際應用上大數據共享具體體現在海量數據的共享、大數據平臺的共享、大數據技術的共享和大數據應用共享。大數據共享的特點,也更合理地體現了大數據自身的重要價值。大數據共享使得不同層次、不同部門信息系統更加合理地進行資源配置、節約社會成本、創造更多價值,不僅能提高信息資源利用率,避免在信息采集、存貯和管理上的重復浪費,有利于更合理安排物力和財力,發揮人的更大價值。從發展上看,工信部電信研究院政經所馬志剛認為數據開放與共享是提高社會生產力的重要前提,這里所探討的大數據共享也更清晰地把數據共享這項發展性的工作落到實處。
2 大數據共享的軟實力建設
大數據共享軟實力包含大數據共享平臺架構之Hadoop技術、流計算、數據倉庫、信息整合、大數據搜索引擎、大數據可視化、大數據應用程序開發、管理系統和共享安全機制等。
2.1 大數據共享平臺架構之Hadoop技術
Hadoop是Apache基金會開發的一個開源分布式系統基礎架構項目, Hadoop主要核心由HDFS、MapReduce組成,包含HBase和Hive等經典子項目。Hadoop底部利用分布式存儲系統(HDFS)將文件分布式存儲到硬盤,上部MapReduce將大的數據分成小塊逐個分析,再提取出數據匯總分析,編寫簡單的需求命令獲得所需數據內容。
2.2 流計算
流計算面對的是存貯在硬盤、內存或者其他地方的已存數據。流計算是指數據和控制在一個分布式網絡中以某種流的形式傳遞,網絡中的節點對流進行處理和分發,同時這些流往往具有高實時和高流量的特點,再形象化一點描述就是在數據產生并流入系統時就進行處理并馬上得出結果。因而區別于以往基于RPC和RMI的分布式系統,也區別于Hadoop的相對靜態的處理系統。流計算面對的是沒有存儲下來的實時的網路數據流,計算意義在于對數據挖掘處理后選取可以提取有價值的信息存儲下來,不會對原始數據進行存儲,并且數據流的價值隨時間流逝而降低。基于實時數據的流處理是大數據發展到現在已經相對成熟的技術。
2.3 數據倉庫
有關大數據的共享,必須依賴一定硬件條件,這里引入數據倉庫的概念,數據倉庫是一個集成的、面向主題的、隨時間變化、非易失的數據集合。數據倉庫區別于數據庫,數據倉庫相當于一個環境,為用戶提供用于決策支持的非結構化和半結構化的當前或歷史數據(傳統的操作型數據庫中很難或無法得到)組成數據倉庫系統的要素簡單概括為數據倉庫式數據庫、數據載入工具、數據抽取工具、信息發布系統、操作型數據、外界數據、訪問工具、數據集市、操縱平臺、元數據及管理平臺。
2.4 信息整合
信息整合,是指通過邏輯或者物理的方式把某一范圍內多元的、異構的、離散的、分布的信息資源,組為一個整體,使其有利于管理、利用和服務。信息整合包含三種方式,分別是數據整合、過程整合及內容整合。內容整合通過建立一個內容管理平臺,進而對圖片、多媒體等非結構化信息進行編輯、審核、校驗以及分類管理,這樣就可以控制信息發布和與訪問的權限。數據整合將有價值的數據傳遞給分析系統或其他應用系統,再進行信息加工,集合不同的核心業務數據庫為一個單一的數據庫。
2.5 大數據搜索引擎
大數據搜索引擎基于大數據庫,需要具備在大數據共享分析中充分發揮人工智能作用的軟件技術能力,采用網頁抓取技術智能地從互聯網搜集信息,通過對結構化的數據、圖表及視頻等非結構化數據和半結構化數據進行檢索,搜索引擎借助Reduce等工具,將數據聚合并采取并行處理,供給用戶,構建搜索引擎服務。排序是搜索引擎最關鍵的技術,排序策略和算法決定了排序效果的優劣,其中搜索結果的排序作用重要,利用關鍵詞在文檔中出現的頻率和位置以及基于鏈接分析排序等排序。
2.6 大數據可視化
大數據可視化主要是將收集、存儲的海量數據信息通過圖形化等數據視覺表現形式進行清晰、有效的信息傳遞,在大數據共享中既屬于科學技術應用,也屬于科學技術研究,可視化硬件包含圖形工作站及超級可視化計算機。可視化軟件分3層,分別是操作系統層﹑可視化軟件工具開發層及行業性可視化軟件應用層。
2.7 大數據應用程序開發
大數據應用程序是指添加、查看、修改和刪除數據倉庫指定數據庫中數據的應用程序。大數據倉庫應用程序一般包括3個部分:一是為應用程序提供數據的數據倉庫;二是實現與用戶交互的前臺界面;三是實現具體業務的軟件。
2.8 大數據共享的管理系統
大數據共享的管理系統是大數據共享系統的關鍵系統之一。通過大數據共享管理系統,可以方便管理者實現對共享資源的管理、共享關系的管理及共享行為的管理。其中,共享資源管理包括6類,分別是共享集群命名管理、共享系統模板管理、共享節點資源管理、共享應用命名管理、共享應用資源管理、共享用戶狀態等。
3 結語
本文主要描述大數據共享的平臺軟實力構造,從一個系統化角度去闡述大數據共享的技術需求,為大數據共享產業的運作提供了一種建模參考,關于大數據共享的安全保密和法規政策的研究也會在以后進一步討論,本文為大數據共享領域的基礎性發展拋磚引玉。
[參考文獻]
[1]馬建光,姜巍.大數據的概念、特征及其應用[J].國防科技,2013(2):18-20.
[2]周楓.大數據時代檔案館的特征及發展策略[J].檔案與建設,2013(8):25-40.
[3]宋永剛.大數據時代加快出版業轉型升級的思考[J].中國編輯,2013(5):20-22.
[4]張春磊,楊小牛.大數據分析(BDA)及其在情報領域的應用[J].中國電子科學研究院學報,2013(1):10-15.
[5]李晨暉,崔建明,陳超泉.大數據知識服務平臺構建關鍵技術研究[J].情報資料工作,2013(2):9-13.
[6]王珊,王會舉,覃雄派,等.架構大數據:挑戰、現狀與展望[J].計算機學報,2011(10):3-15.
Study on Big Data Sharing
Wei Cuihong
(91746 PLA Troops, Beijing 102206, China)
Abstract: This paper analyzes the implement of big data sharing software conditions, actively explore it is not yet mature field of big data sharing, systematically introduces the large data sharing technology, this paper introduces the system, so to speak, science, maneuverability.
Key words: big data; data sharing; platform