魏學鋒
摘要:油田生產數據量巨大,而大數據在生產網絡中反復流轉給整個系統的穩定與性能帶來了極大的壓力。為解決這一問題,本文提出了基于訪問熱點預測的油田大數據負載均衡算法,該算法基于就近訪問原則,通過測算大數據塊在存儲網絡中的訪問熱點,將其部署在對應的服務器上,從而避免其反復在生產網絡中生滅與流轉。實地測試表明:該算法具有良好的存儲負載均衡效能,能夠節約大量的流量與存儲開支,具有一定的實用價值。
關鍵詞:大數據系統;負載均衡;訪問熱點;預測
中圖分類號:TP393 文獻標識碼:A
文章編號:1009-3044(2020)12-0014-02
油田生產中的工況數據量巨大,因而相關企業與單位均采用了分布式大數據存儲系統;此類系統可以將海量數據分散存儲于多臺服務器,并實現統一的管理與訪問,其透明的服務模式受到了一致的好評。但實際應用中發現,目前的大數據存儲系統在存儲負載均衡方面還有所欠缺,集中表現在數據經常被部署在距離訪問節點較遠的存儲服務器中,訪問時需要通過多跳接力才能完成數據的獲取,占用了過多的網絡流量與多個節點的存儲空間。針對這一問題,國內外研究人員提出了多種解決思路與方案,例如:李彥等人在大數據城市交通調度系統中提出了就近存儲的解決思路。許道強等人基于異構分布式存儲環境,提出了一種面向標簽化管理的大數據調度算法,取得了一定的成效。李瑋瑤基于存儲資源感知理論,提出了一種大數據處理任務調度算法,并對它進行了仿真測試,證明了其有效性。董春濤等人針對Hadoop YARN大數據系統中的實際問題,研究了分布式存儲一計算優化模式及其存儲資源調度算法,證明了就近存儲的可行性。劉鑫研究了一種分布式數據庫環境的海量數據服務器間遷移算法,證明通過訪問記錄等方式能夠有效地平衡數據存儲,并降低NAS系統中的流量。劉汪根等人設計了一種云環境中的分布式大數據感知與存儲資源調度算法,并在實際應用中驗證了其有效性。鐘健等人基于物聯網環境研究了大數據的分級分段調度與流轉算法;翁利國等人基于Spark數據處理平臺研究了動態的存儲資源分配與調度算法,并在通用Hadoop系統中對其進行了驗證。而上述成果在大港油田的實際應用中暴露出訪問熱點預測精度差、存儲與流量負載均衡效果不佳等問題,因此本研究提出了一種基于訪問熱點預測的油田大數據負載均衡算法,并取得了一定的應用效果。
1算法結構與基本流程
新算法的基本結構與流程如圖1所示;其中的主要步驟如下:
Step1:各生產單位在自身的服務器上生成大數據塊,提取其中的數據塊特征,以報文形式將其發送給自身距離最近的存儲服務器。
Step2:各存儲服務器采集自身存儲容量等資源信息,并分發給其他存儲服務器;接收數據塊特征報文,進行匹配計算,發送數據接收回持報文或轉發給其他存儲服務器。
Step3:各存儲服務器接到其他服務器的資源信息,將存儲在本地,刷新大數據存儲資源視圖,基于自身情況和該視圖進行訪問熱點預測。
Step4:接收完大數據塊后,各存儲服務器將刷新大數據存儲資源視圖,并發布更新報文給其他服務器。
2核心算法描述
首先,本研究生產單位發來的大數據塊形成了待存儲隊列:X,而其特征隊列是y,二者之間關系可以表述為:
從上表1中的測試結果可以看出:新型算法的大數據負載均衡性能指標均勝過現有算法,表明其綜合性能良好;特別是:在服務器峰值存儲負荷與峰谷存儲負荷之差方面,新算法遠低于既有算法,說明其外存(硬盤)負載均衡效果很好,將大數據塊較為均勻的配置在各臺服務器中,避免了存儲瓶頸問題的發生。該算法在訪問熱點預測過程中并未占用過多的系統資源,因而CPU占用率等資源消耗指標也與現有算法相差不多,而平均服務器內存占用量則遠低于現有算法,體現了很高的性價比。綜上所述,上述測試結果表明:新型算法能夠在現有軟/硬件環境中,節省大數據存儲配置帶來的遷移與流轉資源消耗,因而能夠用于大數據分布式存儲系統的升級與增效,適用性與實用性較高。
4結論
本研究針對油田大數據帶來的巨大信息管理壓力,提出了基于訪問熱點預測的油田大數據負載均衡算法。該算法具有良好的負載均衡效能,能夠節約大量的流量與存儲開支;在未來,將對該算法的大規模與超大規模油田數據集群應用展開深入研究。