胡素娟
(江西旅游商貿職業學院,江西 南昌330100)
從相關部門公布的數據來看,2020年中國互聯網用戶數量已達到10.8億,龐大的互聯網用戶群體產生了巨大的市場潛力,以網絡購物為例,2020年網絡購物的交易金額達到6.66萬億人民幣[1]。為更好地發揮網絡產生的數據優勢,有針對地實現技術創新、服務創新,需要對網絡運行過程中產生的數據進行必要的發掘、歸集和應用,逐步實現數據的資源化。為達到這一目標,可以嘗試將云計算技術與分布式網絡海量數據處理結合起來,逐步打造成熟、穩定、高效的數據處理系統,根據用戶的需求,定向完成數據的處理任務。
分布式網絡由不同終端設備互聯形成,與其他網絡架構相比,分布式網絡可靠性較強,當網絡出現故障后,故障區域的終端設備仍舊可以借助其他線路完成對外的信息交互,并且延展性較強,擴充難度較小,網絡運營商根據用戶分布特點、網絡使用需求,靈活擴充網絡的范圍[2]。這種技術優勢使得分布式網絡逐步成熟,成為一種主流的網絡構架方案,例如IEEE802.16h網絡、CogNet網絡作為典型的分布式網絡,廣泛應用于不同的領域之中。分布式網絡用戶數量較大,運行過程中產生了大量的數據信息,這些數據體量龐大、類型復雜、密度較高,給后續的數據挖掘、處理等工作帶來了極大的不便。
為實現分布式網絡數據的有效處理,部分研發團隊采用分析算法與模糊聚類算法,對數據開展集中式處理,但是從實際情況來看,這種數據處理系統難以在短時間內完成數據處理任務,并且對于數據挖掘、處理的效果不佳,影響了實際的用戶體驗。在這種情況下,部分研發人員有計劃地將云計算技術引入到分布式網絡數據處理之中,旨在借助云計算技術的特性,解決過往數據處理過程中出現的各類技術問題。經過多年發展,云計算技術逐步成熟,形成了涵蓋軟件服務、平臺服務和基礎服務的多種技術服務模式,用戶可以根據自身的工作需求,向服務器發送指令信息,服務器接收指令后,及時作出反饋,根據需求完成相關任務[3]。云計算技術具備較強的實用性,用戶在不需要投入資金、更新軟件和硬件的情況下,就可以獲取各類資源。這種特性無形之中增加了云計算技術在實踐過程中的實用屬性。云計算技術在分布式網絡數據處理過程中的應用,可以在不影響網絡自身運行狀態的情況下,實現數據的快速發掘和準確表達,根據不同的數據處理要求,將人工智能、模糊計算、統計學等不同的技術領域,有針對性地應用于分布式網絡數據的日常處理之中,在提升用戶使用體驗的基礎上,保證了分布式網絡運行的質效。
云計算技術與分布式網絡海量數據處理系統的結合,要求研發人員從實際出發,以數據特點、處理需求為導向,明確分布式網絡海量數據處理系統設計思路,增強系統設計的指向性,滿足不同場景下分布式網絡數據處理需求。
為確保云計算技術在分布式網絡海量數據處理系統設計中的有效應用,保證系統設計的針對性,研發人員在系統設計環節,需要結合分布式網絡數據特性和云計算技術的優勢,快速調整思路,確保數據處理系統設計的有效性。從過往經驗來看,分布式網絡數據產生能力較強,以某分布式網絡為例,其每天產生的數據達到400萬條,為實現數據的有效處理,需要對待處理的數據開展查詢、分析、對比等操作,避免數據遺漏或者丟失的情況發生,因而整個數據處理的周期相對較長,影響了實際的使用效能。為應對這種局面,在分布式網絡數據處理系統設計過程中,可以從熱點數據標識、數據分類存儲、數據分解等角度出發進行系統框架的構設[4]。
具體來看,在熱點數據識別的過程中,可以設立熱點數據對照表,將數據發掘過程中出現頻率較高的數據單獨進行獲取,并復制到對照表中,同時利用同步機制進行熱點數據的同步更新。這種設計方式可以在滿足熱點數據獲取需求的前提下,減少對全部數據的檢索頻次,合理控制數據處理系統的負載。考慮到分布式網絡數據體量較大,在數據挖掘、提取的過程中,可以采取分區的方式,將網絡服務器以及磁盤等存儲設備進行分區處理,這種分區存儲的方式,可以保證數據查詢、檢索或者提取的過程中,能夠最大程度地控制工作體量,減少等待時長。通過系統分析可知,該系統在很大程度激活了數據庫在數據處理方面的技術優勢,對于云計算技術的應用提供了便利條件。對于某些數據體量過大的處理任務,在數據處理系統設計的過程中,可以根據云計算技術的特點和數據處理的要求,對任務開展分解,將同一個任務劃分為若干部分,這種分配方式不僅可以保證確保數據處理任務的快速完成,還可以有效降低整個數據處理系統承受的壓力,保證了數據處理的穩定性和有效性。
云計算技術在分布式網絡海量數據處理系統中的應用,要求研發人員在科學性原則、實用性原則的基礎上,在系統設計思路的框架下,結合云計算技術特性,采取系統化、完備化的技術手段,扎實做好分布式網絡海量數據處理系統設計工作。
為保證云計算技術在分布式網絡海量數據處理系統中的順利實現,研發人員需要在明確分布式網絡海量數據系統設計思路的基礎上,進一步做好設計思路、研發理念的有效轉變,通過觀念的提升,確保云計算技術與分布式網絡海量數據處理系統的有機結合,以更好地增強數據信息的處理能力,切實滿足現階段的數據系統處理要求。具體來看,研發人員需要明確分布式網絡海量數據處理的定位,明確熱點數據標記、數據分類存儲等工作要求,在此基礎上,梳理云計算技術的應用思路,以保證海量數據處理的有效性,避免出現數據處理漏洞,影響后續的相關技術活動。
云計算在分布式網絡海量數據處理系統中的應用,需要借助于數據挖掘技術等模型,對龐雜的數據進行分類別的明確,以保證數據處理的有效性與合理性。為保證這一技術活動的有序開展,研發人員應當有針對性地開展好數據挖掘工作,并根據相關技術要求,設立數據挖掘模型,以保證數據挖掘的有效性與合理性,如圖1所示。

圖1 數據挖掘模型示意圖
在數據挖掘模型設置環節,研發人員可以從用戶層、運算層、服務層等相關角度出發,進行合理的功能性劃分,以保證數據挖掘的有效性,確保用戶可以在短時間內,快速完成數據的收取、轉化、清洗、歸集和加載等相關任務,保證數據處理的高效性。
在進行算法設計的過程中,研發人員可以采用SPRINT算法,根據系統設計的基本思路,率先完成決策樹的創建,決策樹創建完成后,需要進行多次數據處理的嘗試,根據嘗試結果,對決策樹進行優化調整,以保證決策樹運轉的高效性。同時為便于查詢,可以在算法中設置索引、類別等查詢端口,以確保數據的有效歸集,工作人員根據數據處理的任務要求,快速完成各類數據處理任務,以保證數據處理的有效性。
云計算技術與分布式網絡海量數據處理系統的有機結合,實現了數據提取速度、分析質量的顯著提升,壓縮了數據處理的時間周期,對于經濟發展、社會生活有著極大的裨益。本文通過細化分布式網絡海量數據處理思路,掌握技術處理要點,逐步構建起完備的數據系統運行框架,強化了系統對分布式網絡數據的挖掘、歸集能力,對于龐雜數據的資源化有著技術支撐,滿足了現階段數據的使用需求。