李梓楊,于 炯,,卞 琛,魯 亮,蒲勇霖
(1.新疆大學 信息科學與工程學院,烏魯木齊 830046; 2.新疆大學 軟件學院,烏魯木齊 830008)
隨著互聯網技術和信息產業的不斷發展,全球數據量呈幾何式增長,截止2015年全球數據總量達8.61 ZB,并預計到2020年全球數據總量將超過40 ZB[1],同時,通過移動互聯、社交媒體、全球定位系統(Global Positioning System, GPS)導航等新的服務模式,大數據[2]產業及相關服務已經深入到人們生活的方方面面,也為互聯網企業帶來巨大收益。然而隨著數據價值的時效性變得越來越明顯,集群必須以毫秒級的延遲從大規模數據中提煉出有價值的信息,才能滿足用戶對數據分析的實時性要求,大數據流式計算[3]應運而生。流式計算具有實時性、易失性、無序性、無限性和突發性的特征[4],能夠提供高效的數據分析服務,已在交通預警、實時推薦等對實時性要求高的場景中得到廣泛應用;但流式計算的技術發展也面臨著一些挑戰,多樣的輸入數據源和不斷變化的輸入數據速率對集群的負載承受能力和可伸縮性提出了更高的要求,特別是輸入速率的急劇上升會給集群造成很大的負載壓力,如果應對不力就會造成數據元組被阻塞或丟棄,甚至出現節點崩潰等現象,影響計算的實時性和準確性。
流式計算的發展誕生了不同特點的數據流處理平臺,Apache Flink[5-9]是新興的目前產業界應用最廣泛的平臺之一。與Storm[10]平臺相比,Flink能提供Exactly-Once的可靠性計算[11]以及更完善的背壓機制[12],并支持用戶定義的時間窗口[13],但在輸入速率上升階段的吞吐量仍有待提高,因此,本文提出基于流網絡模型的動態任務調度(Flow Network based Dynamic Dispatching, FNDD)策略。……