孫茜 江勝月
摘要:大數據系統根據時效性特點分為批式大數據和流式大數據。在一定程度上流式大數據(文章出現均用“流式數據”代替)實時處理技術可以實現及時向客戶實時反饋,所以相較于批式大數據,流式數據受到更多的關注和探究。根據這種情況,以流式數據實時處理為技術平臺,對流式數據進行分析,對該平臺設計、優點進行詳細說明,解析了流式數據實時處理技術平臺的應用。
關鍵詞:流式大數據;實時處理技術;平臺;應用
當前大數據技術的廣泛應用,促進了很多行業技術進步,是增長效益的關鍵技術支撐。大數據系統根據時效性分為批式大數據和流式大數據(批式大數據稱為“歷史大數據”,流式數據稱為“實時大數據”)。在互聯網等應用場景中,有很多方面對大數據技術處理提出了更嚴格的要求例如:個性化服務方面、用戶體驗方面、智能分析等方面為了盡可能滿足這些需求,大數據處理必須具備在毫秒甚至微秒級返回處理區的能力。本文對流式數據實時處理技術、平臺進行解析,對流式數據平臺的應用進行深入探究。
一、流式大數據實時處理技術解析
可以將現有的大數據處理系統分成兩個方面:1.是批處理大數據系統;2.是流處理大數據系統。以hadoop為主要代表的批處理大數據系統把數據匯集,經過批量處理后加載到分析性數據當中,能夠用來進行高性能隨時查看。雖然批處理大數據系統可以能夠實現高效率的隨時查看,但是它也存在缺點,那就是無法查看到最新數據,存在數據滯后等不足問題。相比于批處理大數據系統,以Spark、Storm為主要代表的流出數據把實時數據通過流處理方式,把每條有效數據都加載到高性能數據庫中進行查詢。流式數據系統能夠對最新數據實現高效率查詢,具有數據滯后較低的可能性。但是由于占用內存容量比較大,所以必須要丟棄部分原始數據。結合實際情況相關技術人員要研發出快速、內存大、智能、自主可控的流式數據,能夠有效處理數據和平臺不足是當前必須解決的問題之一。而要想實現批處理和流處理相結合的系統方案,目前正在面臨以下三方面難點。
(一)復雜指標增量、分布式內存的并行計算
實際上計數、求和、平均值等簡單指標可以依靠查詢結果完成,但是存在方差、標準差等復雜指標問題均不能通過簡單合并對查詢結果實現有效融合。又或者是,當查詢到涉及時事熱點或周期間窗口等復雜指標問題時,每增加一遍計算量就會花費大量財力物力。而分布式內存的并行計算應用的調整策略又極易造成內部資源浪費,正因此亟須研究的出現實現了細粒度基于進度實時感知的有機融合策略,優化、大大提升了融合系統內存使用率。
(二)動態數據處理
業務系統的實時數據查詢請求會涉及到多尺度時間窗口,例如:最近3筆刷卡交易金額;最近10分鐘內輸入密碼次數;一個月neural交易金額等等。實際上每一次查詢請求都會對系統帶來很大的影響,就此情況亟須研究實現了支持時間窗口、多種窗口漂移實時動態數據處理方法,亟須研究以極快的速度完成實時查詢請求。
(三)高可用、可擴展的內存計算
當集群的內存不足過時節點失效,如何讓集群在提供服務時重新平衡是一個正在等待解決的技術性難題。亟須研究分布方式的協議和自平衡的只能分區算法,可以進一步提升流處理可用性?!傲髁⒎健绷魇綌祿崟r處理技術在時間窗口漂移的數據基礎上快速處理,支持標準差、求和、最大、最小、等多種分布來具體統計計算模型,實現了對復雜事件等實時分析的有效管理技術。
二、流式大數據實時平臺
“流立方”流式數據實時處理平臺。流立方平臺具有靈活性、適應性的特點。當“流立方”收到系統發出的具體實時請求時,能夠根據處理模塊在大數據中分析計算出相應指標,最后將結果反饋給業務系統?!傲髁⒎健逼脚_在解決批式大數據和流式大數據融合的技術難題,除了實現優異的性能還解決了流式數據處理平臺面臨的問題:1.是作業具體編排效率。代碼編寫、功能測試、等環節是開源流處理平臺完成流處理編排的重點,完成這些環節也需要大約一周時間。“流立方”平臺在進行在線編排時,把上線任務耗時降到分鐘,有效地提高了流處理作業編排效率;2.流處理作業靈活變更。流處理平臺擅長增量計算事先定義,雖然計算效率高,但是實際計算靈活性受到極大限制。比如:一個業務需要統計未來半年內的數據,而現有的流處理平臺在業務上線三個月之后才能有效,這種工作方式讓流處理在實際應用中受到很大的影響?!傲髁⒎健逼脚_在性能、可用性等多層次進行創新,不僅提高了流處理平臺業務能力,充分滿足了金融領域內業務運營需要。
三、流式大數據實時應用
流式大數據憑借其靈活性及可用性在諸多領域不斷開展應用,以交通領域為例。通過全國攝像頭采集到的車牌信息進行實時數據分析,可以通過地理位置信息和地理信息系統更好計算出最短交通距離。在智慧交通領域,“流立方”的流式數據可以獲取套牌車信息,為公安打擊犯罪提供有效幫助;通過實時分析交叉路口的車輛信息,控制每一個路口路燈的智能轉變,進而極大地提升城市交通秩序?!傲髁⒎健苯鹑陲L控反欺詐技術體系主要包括技術、知識、數據三大板塊。(其中技術主要包括:設備指紋、生物識別、機器學習等;知識包括:盜卡反欺詐、信用卡套現、營銷反欺詐等;數據方面包括:虛假手機數據、IP數據代理等方面)??陀^講“熱數據”發揮了重要意義,從產生數據開始,它的實際應用價值隨著時間飛逝呈現出逐漸下降的趨勢,而未來如何應用“熱數據”是一個任務重、責任大的項目。“流立方” 流式數據實時技術處理及平臺無論在金融、電信、公安還是在海關、網絡安全等行業中都擁有更廣闊的發展前景。
四、結語
通過實踐經驗及理論研究證明,流式數據在技術處理與平臺應用上有更大上升空間?;诖朔N情況,流式數據更具有向大眾推廣的價值。流式數據采用事前或事中模式來實現感知、判斷等功能,需要以流式數據為支撐點。另外,流式數據實時處理還可以為深度學習大數據提供計算保障。“流立方”流式數據實時處理平臺為概率、統計、網絡等眾多形態的人工智能計算框架提供更多支持。利用流式數據實時處理技術的平臺系統,充分實現對數據的準確分析、提高流式處理平臺數據處理能力的延展性、科學性、能夠充分保證需求量。
參考文獻:
[1]邢黎聞,陳純.大數據需要實時智能分析,流式數據的實時分析,一定是有規則、模型的東西[J].信息化建設,2017(04).
[2]吳秋莉,郭麗娟,呂澤承.基于大數據的井噴式狀態監測數據實時處理研究[J].電力信息與通信技術,2017(03).
[3]彭曉平,段琳,程旭明.基于電力大數據的實時流數據處理技術研究[J].電力大數據,2017(08).
[4]李鵬飛,劉春宇,海軍.云計算環境下關聯性大數據實時流式可控聚類算法[J].科學技術與工程,2018(07).
[5]曹旭峰,江國華.一種適用于流式大數據系統測試的數據生成方法[J].計算技術與自動化,2017(03).
[6]高尚.從金融科技創新到金融模式變革——流式計算在信用卡實時大數據應用領域的研究[J].國際金融,2018(06).
[7]付琳.大數據處理系統模式及其應用分析[J].集成電路應用,2018(12).
*基金項目:多場景主動式實時大數據擁堵治理關鍵技術及應用(編號yjt17001)。
(作者單位:安徽三聯學院)