李剛
摘? ?要:基于對互聯網開源數據存儲與分析技術的探討、研究,首先要明確云儲存技術的定義,然后與其中內容相結合,對互聯網開源數據存儲與分析技術進行分析。文章主要從基本策略與4層架構設計兩方面入手,分析將后者擴展至架構硬件體系以及設計系統處理流程的途徑。現如今互聯網開源數據存儲與分析技術的作用愈發明顯,及時進一步探索更先進的方法與技術勢在必行,為有需要的人士提供些許幫助。
關鍵詞:互聯網;開源數據存儲;數據分析
隨著信息技術在全球范圍內的飛速發展,互聯網上的開源數據可以用海量來形容,此時若想確保正常的數據存儲與使用,僅依靠磁盤陣列方式是遠遠不夠的。與此同時,作為新時代應運而生的先進產物,云存儲技術能夠起到分析互聯網開源數據存儲應用的作用,通過對數據分類技術的應用,使海量數據得到初步的有效檢索,再在此基礎上采取私有云的方式,分類存儲已經分類好的數據,為日后的計算分析提供便利。由此可見,為進一步提升開源數據存儲與分析的效率,及時探索更有效的方式與策略勢在必行。
1? ? 云儲存技術概述
云存儲技術概念實際上源于云計算概念,通過對網格技術、集群應用或者是分布式文件系統等功能的運用,采取合適的應用軟件展開對網絡中大量不同類型存儲設備的整合,從而使其協同合作,對外提供數據存儲與業務訪問服務。如果大量數據存儲與管理程序是云計算系統運算與處理的關鍵所在,那么云計算系統中存儲設備的大量配置就非常必要,在向云存儲系統轉變的基礎上,也可以將云存儲看作一個數據存儲與管理的云計算系統。
2? ? 互聯網開源數據存儲與分析技術
實際上,可以通過對面向服務體系結構(Service-Oriented Architecture,SOA)的應用實現數據存儲與計算技術。SOA是在業務集成形成需求的時候,可以在連接后達成特定任務中要求的目標,作為一種功能實體,相對來講具備較強的獨立性,能夠實現軟件系統架構[1]。除此之外,還可以將SOA定義成組件模型,其能夠有效聯系應用程序中的各個功能單元,就硬件平臺、編程語言以及操作系統來講,接口是獨立存在的。如此一來,各類系統中的服務即能采取統一方式交互[2]。
2.1? 基本策略
基本策略的軟件架構設計,主要以SOA的設計思想為指導,其基本策略如下:
(1)通過對于實現無關接口的應用定義服務,即相關人員需將面向服務、對象作為根據,同時將用戶人機接口以及軟件運行環境等因素考慮在內,若都能實現有效獨立,能在極大程度上降低運行時對人機界面接口情況的影響,進一步為系統整體運行效率提供保障。
(2)相關人員需明確認識通信協議強調位置透明性與互操作性的關鍵意義。互操作性即為在計算機系統、應用程序與網絡都不相同的情況下,已然具備共同工作與共享信息的能力。由于是兩個系統連接后的信息共享,需對互操作性展開級別劃分,不能單一認為用戶也可以實現信息隨意訪問。
(3)業務功能服務可應用于封裝技術。該技術通常是指通過對絕緣材料的運用,實現對集成電路打包的技術,而本文中則指封裝分析模塊軟件功能的技術,如此能使破壞與修改的概率顯著降低[3]。除數據查詢與分析功能之外,也能用于一定程度的數據信息挖掘,由此可見,在用戶操作與使用便捷性提升方面,該技術是非常有利的。
2.2? 4層架構設計
4層架構設計軟件體系結構所包含的內容可以分為4層,且能明顯觀察到其為遞進層次關系。第一層次是基礎數據層,原始數據庫、預處理與運算存儲數據、各類信息知識等,都是其中含括的主要內容。第二層次則是面向服務的構件管理層,是應用軟件系統調度與管理中最不可忽視的重要部分,主要包括服務調度管理、業務流程編排以及系統管理與監控等組件。第三層次是服務層,以高內聚與低耦合的功能組件為主要內容,通常情況下以數據檢索、挖掘為目的,調度管理都由構件管理平臺統一進行。第四層次為應用層,此處以數據分析、檢索以及挖掘為核心工作,同時實現各類可視化用戶接口的提供[4]。
2.2.1? 架構硬件體系
(1)分布式處理體系在運行過程中的服務器數量,通常在兩個或以上,系統應用軟件能在一臺或已連接的多臺服務器上運行。相比較其他形式的硬件架構而言,分布式處理體系的特征與長處如下:在分布式架構的作用下,達成負載平衡計算的目的;選擇最合適的計算機運行程序;稀有資源能夠全面共享。其中,共享稀有資源與平衡負載可以看作是分布式架構的核心所在。
(2)兩臺或以上數量的計算機或者節點在同群組內共同工作,即為PC服務器集群,與獨立工作的計算機相比,具備更強的可擴充性與實用性[5]。與此同時,服務器集群的優勢是能夠有效滿足范圍內的用戶所需,在各節點都有資源的情況下,可用性與可擴充性也能隨之顯著提升。若在節點硬件或軟件運行時發現異常狀況,系統會自動進行故障切換,而如果軟件系統對服務器處理速度提出更高的要求,服務器擴充工作也可以隨時進行,從而在最大程度上使用戶需求得到滿足。
2.2.2? 設計系統處理流程
(1)數據獲取。以將已經預處理完成的數據有效提取到系統中為主要功能,與此同時,再以數據清洗、格式統一化處理為基礎,實現數據合理有序的傳輸,使后續處理過程中系統功能的完善性得到保障[6],即相關人員需要確保前端探針設備傳回數據處理的合理性,在充分發揮數據預處理層作用的前提下,達成格式統一化與分類處理的目的。經實踐證明,以此為基點再向數據存儲層存放,同時明確各類文件在不同服務器中存放的差異,在提高數據資料調取、分析效率的情況下,能夠為日后用戶調用以及查詢功能提供極大便利。
(2)數據組織。主要功能在于能實現對文件流的在線處理,以快速掃描、文字提取、信息識別、數據過濾以及信息分類等為主。其中所提到的快速掃描技術,能有效完成數據文件檢索;而通過對文字提取功能的合理應用,能夠結合實際情況形成派生文本數據;信息分類能有效整合信息時代下每時每刻產生的海量數據,并最大程度上保證其準確性與合理性,使數據檢索與查詢的便捷性得到保障[7]。
(3)數據存儲數據計算。本文所指的數據存儲,主要是通過中間管理層來實現的,以大文件庫、全文數庫以及關系數據庫等儲存服務為例,均是存儲系統中的關鍵內容。除此之外,還包括統一視圖中間管理層實現分布式存儲系統,進而形成單一系統映像[8]。將自然語言處理的高級數據分析功能作為基礎,能有效地實現數據計算,其屬于信息過濾與檢索常規數據處理的擴充。
3? ? 結語
綜上所述,就網絡技術環境目前情況來看,開源數據作為其中的研究熱點,能夠將網絡新技術、信息采集以及數據分析等多個領域均含括在內,相對來講優勢非常明顯。與此同時,在新時期大數據環境的影響下,開源數據的挖掘與分析技術也必然會得到進一步的發展,及時創新信息采集與網絡監控等勢在必行。
[參考文獻]
[1]向華偉.開源數據庫數據存儲的實現路徑分析[J].電子技術與軟件工程,2016(20):186.
[2]寧德軍,葉培根,劉琴,等.基于存儲庫數據挖掘的開源軟件成功度量方法[J].電子學報,2018(12):116-121.
[3]郝文江.互聯網開源數據存儲與分析技術研究[J].信息網絡安全,2013(7):24-27.
[4]姜天海.新技術讓數據存儲時間逼近“永恒”[J].科學新聞,2017(1):44.
[5]李華平,許鵬,胡曉明.高職院校教育資源云平臺的數據存儲研究[J].洛陽師范學院學報,2017(5):56-59.
[6]王峰,閆匯,劉圓.冷數據存儲研究[J].電信技術,2017(6):22-24.
[7]楊靖.在線數據存儲—你存儲了嗎?[J].電腦知識與技術,2009(8):225-226.
[8]彭澤華,胡開勝.高校圖書館數據存儲外包的探討[J].電腦知識與技術,2009(22):20-22.
Abstract:Based on the discussion and research on the open source data storage and analysis technology of the Internet, it is necessary to clarify what is cloud storage technology first, then combine it with the content to analyze the open source data storage and analysis technology of the Internet. This paper mainly starts from the basic strategy and four-layer architecture design, analyzes the way of extends the latter to construct the hardware system and design the system processing process. Nowadays, the role of open source data storage and analysis technology on the Internet is becoming more and more obvious. It is imperative to further explore more advanced methods and technologies in a timely manner, so as to provide some help for those in need.
Key words:Internet; open source data storage; data analysis