陳浩 魏宇鋆 劉旭陽
北京計算機技術及應用研究所 北京 100854
當前常用的大數據技術,包括Hadoop文件系統架構、SOA服務體系、HDFS分布式存儲等。其中Hadoop分布式數據處理架構,屬于大數據云計算系統的平臺即服務層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進先出的動態化任務調度理念。針對已搜集的海量化數據信息,利用Map映射函數建立兩組數據的映射規則,并向多個主節點、從節點的任務處理需求,動態分配虛擬主機,實現某一數據類型的映射、歸約操作。之后SOA服務體系為面向服務的組件模型,通常包含服務工作流、服務接口、服務注冊、服務訪問和服務查找等組件。該服務架構通過TCP/IP網絡通信協議、定義的I/O接口,將某一應用程序的多個功能服務單元進行連接,并將多個分布式的服務組件進行封裝,為用戶提供需要的Web數據發送與接收、業務處理等的服務[1]。最后,HDFS分布式存儲是以分布式形式,對互聯網中海量化的數據信息進行存儲,主要包括數據資源管理、存儲等節點。HDFS的存儲單元為每個數據塊(block),而數據節點(Data Node)、元數據節點(Namenode)負責數據信息的寫入和讀出,其中數據塊的單個最小存儲單位是64Mbits。在HDFS文件系統HDFS框架的中心服務器,收到外部客戶端的數據訪問請求后,可以通過數據節點、元數據節點對數據訪問、目錄創建和數據存儲等進行出控制,實現對不同數據資源的處理與存儲。
雖然大數據時代的到來,為計算機信息處理技術的發展提供了條件,但是在此過程中還出現了一些新問題,這對計算機信息處理技術的有效應用產生了嚴重影響。再加上人們對數據處理的要求比較高,這就需要加快對信息處理技術的研發和創新,為計算機在大數據時代下的發展提供條件[2]。同時,在對大數據的特點進行分析時,發現其在數據容量和內部結構上等也會出現變化,如果應用以前的技術對信息數據進行處理,會影響數據整合的準確性。其次,計算機軟件在穩定的運行過程中,會遭受到病毒的攻擊病毒入侵主要針對計算機中所儲存的保密信息。如果在對該信息進行存儲和使用的時候,受到病毒的入侵,就非常容易泄露其中的數據。雖然應用計算機信息處理技術可以對網絡中的數據進行整合和處理,但是黑客在此背景下也非常容易侵入用戶計算機中,這影響了計算機運行的有效性。因此,在對大數據進行處理時,不僅要保證大數據的安全性,還需要結合用戶的不同需求,實現對計算機信息處理技術的開發和應用。優化互聯網環境,對其進行綜合性和全方位的監控,對其中的信息進行科學判斷,避免網絡惡意攻擊對大數據的影響,從而為計算機信息處理技術的有效應用提供條件。
大數據挖掘技術是對網絡海量數據資源,進行快速收集、篩選、處理與存取的技術,通常利用關聯分析、聚類分析等的數據挖掘算法,對存在關聯性的、有價值的數據內容作出挖掘。當前網絡數據信息處理中用到的大數據挖掘技術,包含數據獲取、數據預處理、數據清洗、數據變換和數據評估等內容,各功能模塊分別負責多個數據挖掘步驟的執行。
最近幾年,比較流行的GFS技術,其原理主要是借助分布式形式,對計算機中的信息進行存儲。在技術中,比較關鍵的是BIM技術,這種技術的存儲形式為行列混合式,能夠在確保增加各類數據信息的基礎上,不斷提高數據信息的存取效效率[3]。在對此技術的特點進行分析時,發現其可以減少數據信息處理和查詢的時間進而實現對相關數據信息進行有效存儲和處理。
分布式計算為多種Agent技術、Web service技術等融合的計算技術,其可以通過中間件為不同數據傳輸與處理、軟件應用執行提供支持。在利用分布式計算技術對海量數據信息進行處理過程中,會將復雜的數據處理步驟,分解為若干個小的軟件處理任務,再依托于虛擬化計算機硬件資源,多種數據處理任務分配相應的元數據節點,不同節點負責特定的資源調度、分布式任務執行,因而使用虛擬機進行數據批量處理的效率更高、成本更低。
由于在大數據的時代下,會出現大量的數據信息,所以用戶想要在此背景下保證相關技術的靈活性,需要注意對數據檢索技術的有效應用。此技術一般是依靠Big Table技術所應用的計算機信息處理方式。在此基礎上,用戶們只要依照此類技術所指定的程序開展操作,就可以獲取自己想要的結構,實現對整體數據結構的優化,保證檢索結果的準確性。
大數據技術支持下的數據信息處理系統,包括數據采集、數據讀取、數據預處理、虛擬化資源調動、數據分析等的執行流程。當前局域網絡中的計算機數據信息采集,通常涉及經營資本、財務流轉、業務執行和人力資源管理等的數據,特別在大量臨時文件、數字文檔或日志信息采集的過程中,需要先驗證信息來源的安全性準確性[4]。基于Hadoop分布式文件系統的數據信息采集模塊,主要利用Sqoop、Flume等數據采集工具,進行網絡海量化數據資源的采集,再使用SQL語句將現有數據信息,傳輸至后臺服務器、數據庫的硬件端口。
在當前的社會發展中,數據信息爆炸,海量的數據一般需要應用計算機技術對其進行儲存。這就需要對計算機自身的儲存性能提出更高的要求,不斷強化數據信息儲存能力。在對目前的信息處理技術發展情況進行分析時,發現要想實現對復雜互聯網數據信息的有效處理,需要加強對各種信息技術的有效應用,實現對相關數據信息的有效儲存,不斷擴大計算機的存儲容量。然而,我國計算機在對數據信息進行儲存時,傳統信息儲存技術等方面還存在一定的局限性。如,一些智能手機中的內存,并不能滿足多樣化數據存儲的要求,這會導致手機在應用一段時間后出現卡頓等現象。因此,相關的學者要不斷提高數據信息存儲的性能,加強對信息技術的有效應用,優化數據信息儲存流程,從而在此基礎上進一步提高計算機的信息處理能力。
網絡數據信息安全的保護始終是社會各界高度關注的話題之一。隨著大數據時代的到來,數據信息泄露問題逐漸凸顯出來,即使是非常簡單的一條個人信息或者手機短信都可能隱藏著大的安全隱患。而一旦出現用戶信息被泄露等情況,人們的財產安全就會受到威脅,甚至會影響社會穩定。因此,在大數據時代背景下,使數據信息處于安全狀態,加強數據信息安全保護工作是相關技術人員工作的重中之重。相關研究人員不僅需要構建完善的計算機信息安全保護機制,而且需要嚴格把關計算機硬件設備,做好數據的檢測和維護工作。除此之外,相關企業需要加強代理服務器的建設,在帶有風險的數據信息進入網絡之前,就對其進行有效攔截,進而更好地防止各種信息安全問題的發生。大數據時代下,人們使用云支付的次數越來越多,這就需要相關企業嚴格把控支付硬件設備的質量,在網絡上建立計算機信息安全保護機制,充分確保支付安全,確保個人信息的安全。
數據預處理模塊通常采取均值法、平滑法等處理方式,對廣域網或局域網的網絡空間中,存在的錯誤、冗余度高數據信息作出處理,主動過濾掉帶有噪聲的、重復性的、空值的數據,對網絡數據預處理的計算公式為R=Qq+Ww+Ee。在完成企事業單位的數據信息采集后,可以依托大數據云服務平臺的虛擬化資源池,設置時間系數Q、負荷系數W、緩存系數E,并設定時間系數Q的A1、A2和A3預設值,以及負荷系數W的B1、B2和B3預設值,緩存系數E的C1、C2和C3預設值。然后根據虛擬化資源池中不同數據處理任務的不同權重,分配預設值q、w和e(q<w<e)。將多種數據信息的處理任務代入以上公式,得出海量大數據的與處理結果,并將數據處理的R值與原始預設值r作比較,若R≤r則生成并輸出正常的數據處理信號。
在對計算機信息處理的形式進行分析時,發現云數據集中性強、數據信息大,對計算機系統的性能要求更高。這就需要相關學者要對計算機中的各種硬件進行改進,結合計算機的實際運行情況,科學應用各種處理技術。云技術作為大數據時代下的新產物,其不僅能夠滿足計算機技術應用的需求,還能夠實現對相關數據的整合。在此過程中,還可以通過對云技術的應用,實現對信息的采集,對信息進行集中處理,及時解決計算機運行中的問題,進而在根源上不斷強化計算機的處理能力。
整個大數據信息處理過程中的虛擬化資源調度,主要針對不同數據信息的業務處理需求,選擇合適的分布式算法、網格算法等模型,在邏輯或物理操作層,向不同任務分配特定的虛擬化節點,進行用戶訪問管理、數據映射及處理的功能執行。虛擬資源管理、任務分配,主要對虛擬機負載、故障情況進行監測與統計,來保障虛擬資源運行的負載均衡與安全。該任務調度的執行流程為:將m個任務(Task),調度到n個元數據節點進行執行,假定設置單個任務執行時間為TET (Task Execution Time),則第i個任務在第j個資源中的執行時間為:CET(i,j)=start time(j)+TET(i,j)在資源虛擬化硬件中,所有數據信息處理任務執行完成的總時間為:T=min{T1,T2,T3,…,Ti}
為了方便操作與理解,虛擬化技術將各種資源抽象成一種交互性強的形式,隨著信息時代的到來,數據的爆炸式增長也造成了資源浪費與冗余。技術人員要實現虛擬化技術不僅要優化計算機系統的運行流程,還需要加強相關軟件的創新。同時,還要加強對模擬技術的有效應用,主要是利用物質等條件,進行預判和分析,及時發現數據庫中的問題,加強對各種資料的整合。特別是在計算機技術不斷完善的背景下,要想降低信息處理和試驗上的誤差,需要實現對虛擬技術的有效應用,創新計算機軟件技術,然后結合計算機試驗的具體數據等,實現對信息資源的充分利用,避免資源浪費情況的發生。
由于網絡環境具有非常強的開放性,其中的數據信息也非常多,所以每個人在此平臺上還可以隨時隨地獲得自己想要的信息。雖然這種方式為人們提供了便利,但是也給一些不法人員提供了犯罪機會,部分黑客會對一些數據進行加工,進而找出用戶在運用技術的漏洞。如果不及時處理此類問題,就會導致商業機密被泄密和盜用。由于以前的計算機處理技術已經不能滿足“大數據”時代發展的要求了,這就需要結合用戶的實際需求,實現對新技術的開發,對數據進行有效接收和處理,保證信息存儲的安全性,明確計算機信息處理技術在未來的發展方向,從而進一步提高我國的計算機信息處理水平。
綜上所述,新時期,計算機技術已經不能滿足時代發展的要求了,需要對現有的計算機信息處理技術進行創新,優化信息處理的流程。同時,還要加強對信息安全和存儲技術的有效應用,保證信息傳輸的安全性和有效性,實現對相關信息的有效處理,從而減少網絡安全事故的發生。
