葉娟
摘 要:基于網絡數據包環境下大數據分析任務對精準度與速度要求不斷提升,本文在此基礎上重點論述大數據處理開展的理論環境。基于傳統技術方法中存在的弊端,重點論述技術方法優化解決措施,提出大數據分析程序的有效設計方法,從而達到最佳數據處理效果,幫助提升網絡數據包文件下載速率。
關鍵詞:網絡數據包;大數據分析;程序設計
中圖分類號:TP311 文獻標識碼:A
Abstract:Given that the requirements for accuracy and speed in big data analysis is in rapid escalation in the network data packet environment,this paper mainly discusses the theoretical environment for big data processing as well as technical optimization solutions based on the existing drawbacks in traditional technology and methods and proposes an effective design method of big data analysis program,aiming to achieve optimum results of data processing and to help accelerating the download speed of network packet files.
Keywords:network packets;big data analysis;program design
1 引言(Introduction)
網絡數據包技術下,數據處理可以同時完成更大任務量,對于發展期間比較常見的數據處理隱患問題,通過數據分析處理也得到了有效預防控制。大數據分析程序設計中,充分利用云計算技術來提升數據處理速度,將數據處理任務結合環境來進行,在處理數據的同時進行數據對接傳輸,滿足程序運行控制需求。面臨大工作任務環境下的數據處理,程序內會自動將處理能力從TB級向FB級轉變,最大程度優化數據處理系統應用效率,避免在最終功能上因此受到影響。批量處理符合大數據程序運行特征。面對大數據環境所開展的批量處理,將客戶信息建立成為一個整體,共同進行數據處理。根據所得結果進入到更細致的分析環節,從而實現程序運行的數據處理任務[1]。
MapReduce屬于當前常用的大數據處理系統,在處理過程中能夠滿足大規模群任務需求。在該系統中,將不同任務需要之間整合在一起,共同形成大數據處理模型。該項處理技術屬于主流技術,應用后自動化性能更理想,處理運算能力強大,同時操作界面更簡單且利于理解[2]。該項技術在數據處理期間可以將復雜的處理過程隱藏起來,節省顯示界面所占據的內容空間。同時通過學習記憶功能來實現更深層次的數據挖掘和算法應用,為管理計劃進行建立一個適合的基礎環境,記憶所處理的數據并編排成為歷史數據庫。面對海量數據處理任務,首先會進行歷史數據對比,參照記憶功能來處理剩余部分數據,自然能夠節省大量時間,這也是該項技術最常使用的原因。隨著計算機網絡技術不斷發展,也產生了更多的大數據處理系統,可以滿足不同類型的高端數據處理需求。本文將針對這一技術性方案展開探討。
2 傳統網絡數據包大數據分析模式(Big data
analysis mode for traditional network packets)
2.1 BSP計算模式
數據信息處理采用周期性方法,在處理系統中將數據整體劃分成為多個單元格,再依次完成各個單元格的處理任務,在精準度上可以達到大數據分析標準。但由于劃分單元格過多,面對海量數據處理分析需要一段時間,在時間和速度上難以達到最佳使用效果。每個數據均會在單元格內完成分析計算,對于計算期間的各項處理分析任務,機遇網絡數據包環境下面臨大量處理任務,這也是當前常用技術性方法,其數據分析構成模型如圖1所示。
圖1表示為BSP計算模式的結構狀態,在系統中會自動將需要分析處理的數據進行匯總,整理成為等待處理的數據,劃分單元結構基礎上共同進行多核處理,通過這種方法來幫助節省時間。在超級處理步驟中會同時啟動多項處理器,共同參與到全局通信系統中,將網絡環境中所獲取的數據通過這種方法來整合成為需要的模式。傳統處理模式中需要大量時間來調動各個處理器,在效率與時間上急需調整。
2.2 BSP模式中的缺陷
該模式中存在一個超級步驟,在此環節中應用處理器來對數據進行處理、傳輸都會浪費大量時間,同時面對多項信息處理任務時在信息容量上也很容易達到上限,數據開發期間更是難以達到最佳使用效果。基于網絡數據環境下實現大數據分析程序開發設計,需要一個適合的數據存儲環境,而在BSP模式下并沒有達到這一效果,處理問題的能力自然也因此受到影響[3]。超級處理步驟不僅在存儲空間中要求大,數據傳輸也會同時占據大量網絡空間,導致企業信息傳輸任務進行遇到網絡延遲,難以在預期時間內完成分析任務。BSP模式中存在的主要弊端是處理量與網絡需求之間的矛盾。該種開發模式在運算方式上需要繼續優化改變,這樣才能達到最佳效果。對于運算期間可能會產生的問題更要采取預防控制中方案,以免最終的功能穩定性因此受到影響。
3 基于網絡數據包的大數據分析程序設計構想
3.1 SAT模型邏輯分層
邏輯層共由三個結構組成。首先S層是針對數據進行分隔,避免分析處理過程中數據之間出現干擾。A層中表示數據分析處理和處理過程中的任務操作穩定性,會根據大數據處理特征來有針對性地規劃相關信息,從而達到最佳處理分析效果。T層中則表示數據分析過程中的加工整合和具體包裝情況,與實際情況之間相互對應進行,可以根據不同數據分析任務中的特征來進行包裝優化,符合網絡數據包大信息量使用特征,最終控制任務進行效率也更高速。SAT模型的具體大數據分析流程圖如圖2所示。endprint
由圖2可知,在SAT模式中,大數據處理各個任務劃分十分嚴格。對于分析處理過程中可能會產生的問題,在此環境下也能得到充分解決。有關于現場任務處理中可能會產生的問題,各個模塊中可以加入預防程序,在大數據處理過程中啟動這一程序,從而達到最佳分析效果。與之相匹配的數據分析處理任務,最終結果也更加理想。為提升大數據分析速度,五個功能模塊采用統一系統進行總控制,最大程度減少中間處理環節,這樣在處理時間上更優化節約。該模式下可以充分調動多個系統之間相互合作,共同完成處理分析任務,從而實現對控制計劃中的綜合控制,分析層之的間轉換也更高效和諧,分析結果也能直接通過程序運行展現出來。
3.2 SAT大數據分析程序實現流程
(1)數據預處理
在使用需求的基礎上對數據信息進行預處理,并結合實際情況觀察所分析數據是否在使用中與實際情況可以保持一致。在網絡數據包的基礎上所開展的數據分析和處理,需要充分利用云計算技術來幫助處理數據。預處理后能夠將分析任務進行模塊劃分,確定其具體屬性所在,在此基礎上幫助提升最終功能,并結合各項技術性方法來探究相關問題的解決處理措施,建立起各個數據庫預處理聯系性,以便更好地確定其屬性[4]。模糊預處理可幫助節省大量時間,并篩選出其中重要信息內容,進行接下來更深入的任務分析,發現問題后充分探討其解決規劃措施,從而達到最佳處理效果。模糊處理后篩選出的數據需要進行二次精準分析,進入到分析程序中的循環部分[5]。因此在對程序進行構建期間,循環流程也是不可缺少的。將多項任務相互結合共同高效運行,可以達到理想的使用效果,并為管理任務開展建立一個適合的基礎環境。設計篩選后的數據集合,二次循環過程中的數據分析可以針對這部分信息來進行,從而幫助節省大量時間,進入到系統分析平臺中。
(2)淘汰失效數據
預處理和分析任務結束后,都需要進行現場預處理,觀察到信息結果與實際情況之間存在差異性聯系后,將無用數據進行淘汰處理。系統程序內自動完成這一任務,將失效數據刪除后可節省大量存儲空間,數據分析任務進行也可以在特征數據庫中進行。為了解決系統復雜性帶來的挑戰,人們需要結合大數據的價值稀疏性和訪問弱局部性的特點,針對能效優化的大數據分布存儲和處理的系統架構,以大數據感知、存儲與計算融合為大數據的計算準則,在性能評價體系、分布式系統架構、流式數據計算框架、在線數據處理方法等方面展開基礎性研究,并對作為重要驗證工具的基準測試程序及系統性能預測方法進行研究,通過設計、實現與驗證的迭代完善,最終實現大數據計算系統的數據獲取高吞吐、數據存儲低能耗和數據計算高效率,建立如下的程序文件代碼,將其應用在程序中,控制各個系統模塊運行。
篩選程序設計完成,在以上程序中能夠實現不通區域之間跨越分析,適用于大數據環境,對于不同環境分析使用需求,改變程序內部控制模式,可以實現與數據環境符合的分析模式。網絡數據包獲取速度受網絡環境穩定性直接影響,如果不能控制好當前需要的環境和各項控制計劃,最終的工作穩定性也將會因此受到影響[6]。程序系統開發設計中考慮網絡平臺信息傳輸能力,在此基礎上完成程序系統更高效的開發任務。
(3)基于網絡數據包的文件下載
系統內會根據大數據分析任務來進行相關文件包下載流程如圖3所示,并將其應用在適合的控制模塊中。執行程序后首先進入檢索環節,將其連接到文件夾有用價值判斷中。判斷該文件夾無用,則進行文件夾重新獲取,直到所確定的文件夾范圍與使用需求之間保持一致,進行到下載環節中?;诰W絡數據包基礎上下載正確的文件夾,才能進入到更理想的數據使用環節中,接下來的大數據分析計劃也能與之保持一致。
當檢測所獲取的文件夾能夠與使用需求之間保持一致,則會直接進入到大數據分析環節中。數據分析過程中比較容易出現隱患,要加強文件夾現在階段的審核,確定數據精準程度后再次進入到分析環節中,更精準高效地完成任務。
(4)程序系統功能初始化
初始化功能能夠對所分析的大數據文件進行恢復,節省大量信息篩選所用時間,并直接將系統運行中需要的信息引入其中,初始化流程框圖如圖4所示。
初始化具有清除和恢復功能,程序開發中設計多項控制功能,并將其規劃到具體方案中,落實完善后才能達到更理想的程序使用效果,初始化過程中會自動恢復系統不需要的信息內容,以便節省處理空間,為所開展的各項設計任務建立一個適合的基礎。檢查過程也是一項篩選功能,判斷所存在的問題,并加以優化解決。文件夾處理分析過程中程序內各個模塊之間相互配合運行,共同參與完成信息檢索任務。
4 結論(Conclusion)
互聯網、物聯網、云計算技術的快速發展,各類應用的層出不窮引發了數據規模的爆炸式增長,使數據滲透到了當今每一個行業和業務領域,成為重要的生產因素。大數據因此成為社會各界關注的新焦點,大數據時代已然來臨。為了應對不同的業務需求,以Google、Facebook、Linkedin、Microsoft等為代表的互聯網企業近幾年推出了各種大數據處理系統,深度學習、知識計算、可視化等大數據分析技術也得到迅速發展,已被廣泛應用于不同的行業和領域。本文根據處理形式的不同,介紹了批量處理數據、流式處理數據、交互處理數據和圖數據四種不同形式數據的突出特征和各自的典型應用場景,以及相應的代表性處理系統,并總結出引擎專用化、平臺多樣化、計算實時化是當前大數據處理系統的三大發展趨勢。隨后,對系統支撐下的深度學習、知識計算、社會計算與可視化四類大數據分析技術和應用進行了簡要綜述,總結了各種技術在大數據分析理解過程中的關鍵作用,即深度學習提高精度,知識計算挖掘深度,社會計算促進認知,強可視化輔助決策。
參考文獻(References)
[1] 周情濤,何軍,胡昭華.基于GPU的Spark大數據技術在實驗室的開發應用[J].實驗室研究與探索,2017,36(1):112-116.
[2] 程平,張礫.大數據時代基于云會計的房地產開發企業稅務管理探析——以A集團為例[J].會計之友,2017(8):134-137.
[3] 王崗.基于大數據的用戶體驗分析應用——“互聯網+”環境下新品研發質量管理探索[J].上海質量,2017(6):26-27.
[4] 黃冬梅.大數據時代下地勘業務轉型發展的實踐與思考——以五礦勘查開發有限公司實踐為例[J].中國國土資源經濟,2017,30(3):9-13.
[5] 孫秀春,廉新宇.基于大數據分析的高職院校物聯網專業創新創業教育模式研究與實踐[J].人才資源開發,2017(4):234-234.
[6] 呂慧.“95后”大學生思想變化特點和規律研究——基于大數據思想分析維度[J].人才資源開發,2017(8):138-140.
作者簡介:
葉 娟(1973-),女,本科,副教授.研究領域:計算機應用.endprint