摘要:隨著互聯網和信息技術的深入發展,新型數據——流數據,開始廣泛應用在無線通信網絡、傳感器網絡、金融股票交易等領域。流數據與傳統數據集有所不同,其特點是數據規模龐大、具有時序性、變化速度快等特點。傳統的大數據批量計算模型已經無法滿足流數據處理的實時性要求。在航天測控中心系統中的大量測量數據由測控設備解碼,生成原始數據并發送到測控中心。這些帶有時間戳的原始數據、處理數據、處理結果以及程序狀態信息形成了時序大數據。本文分析了時序大數據流式計算處理在航天測控中心系統中的應用。
關鍵詞:航天測控中心;時序大數據;流式計算
在航天工程中,航空航天測控系統扮演著至關重要的角色。測控中心系統建立了地球與航天器之間的通信鏈路,實現了航天器的多項功能,包括數據傳輸、觀測、遙測、遠程控制等[1]。航天器獲取的測量數據經過收集后,需要經過航天測控中心系統進行處理。監測數據通常包括軌道數據、中繼反向鏈路數據、測站外測數據,以及各種遙測信息如電壓、溫度等。
時序大數據是批量大數據和流式數據的結合體。對于需要實時處理的數據,時序數據起著關鍵作用,時間概念是驅動數據處理的核心。為此,航天測控系統需要進行在線分析和計算,并作出實時智能決策。面對大量高速流式數據,系統必須解決高完整性和高實時可靠性的挑戰。消息隊列系統如Message、Kafka、RocketMQ、RabbitMQ等被廣泛應用于航天工程數據的處理,以確保系統的高效運行。
本文提出了利用流式計算技術來實現航天測控中心系統,借助Kafka消息通信機制確保系統運行效率。在處理大量高速流動的數據時,這種技術能夠有效減輕服務器的實時操作壓力,降低資源消耗,防止數據丟失,從而避免潛在的不良后果的出現。
一、流數據及其計算技術
流數據是指按時間順序動態且無限增長的數據序列,通常不受人為破壞的影響。流數據屬性可以概括為:1.流數據包含巨大的數據量,具有無限屬性。由于流數據產生的大量數據,存儲所有這些數據所需的空間是無限的。2.流數據往往具有高速傳輸的特點,例如監控互聯網流量、股票交易數據等。數據傳輸速度非常快。3.流數據具有時序性的特征,只能通過單次遍歷方式訪問數據元素。數據元素只能按時間順序讀取,無法隨機訪問流中的數據。4.數據流通常是高維的,不是由最初生成的數據集組成,而是在數據創建后已經達到高維標準。5.流數據是不可再現的、持續變化的。流數據不保持不變,可能在不同時間點呈現不同的情況。大多數流數據在處理后被丟棄,除非有意存儲,否則無法再次提取或處理。
在處理時序大數據時,Hadoop技術是一種用于分布式批處理的軟件解決方案。Hadoop結合了HDFS(Hadoop分布式文件系統)和MapReduce框架,專門用于執行批處理計算任務。與流計算不同,Hadoop技術是針對在存儲介質上的數據集進行批量計算處理。Hadoop技術在處理生成的數據集時非常有效,但流計算則是針對內存中的數據流進行實時計算[2]。由于Hadoop技術具有高性能、低延遲、連續操作和強實時性等優勢,它在大數據處理領域得到了廣泛應用。
二、流式計算在航天測控中心中的應用
(一)處理流程
航天測控中心系統在處理遙感數據時需要執行一系列復雜的流程,這些流程包括數據點選擇、降頻、數據分發、處理、存儲以及數據優化等步驟。這些流程對系統的可用性要求非常高。遙感數據包括距離測量、遙測、速度測量和角度測量等信息,這些數據通過航天器利用無線電波發送到遙測設備或地面接收站。
在航天測控中心系統中,對外通信子系統會收到簡單數據清洗后的數據流,并將其發送到實時處理子系統進行處理。成功接收后,實時處理子系統會對數據進行處理。數據交換軟件通過多媒體網絡向測控中心系統的外部通信子系統發送數據。
除了處理傳統業務數據外,航天測控中心系統還通過實時處理子系統中的智能分析模塊,來實現內部消息監測和網絡IP包分析等功能,從而實現對系統狀態的實時監測。這些功能包括監測數據采集、實時處理、原始數據、數據建模、實時特征指標分析等,幫助系統實現更高效的數據處理和監測功能。
(二)模型設計
該模型由一個環狀結構組成,其中包括“多維數據集”內存數據存儲單元。多為數據集作為內存中的快速存儲空間,主要負責儲存高速時序數據流。多維數據集的工作狀態分為包括數據填充、閑置等待、等待寫入和數據寫入。每種狀態都是獨立存在的,不會同時發生。
1.數據填充:該狀態下,上層請求會被傳送到多維數據集,數據會以追加方式寫入。當達到預定的加載閾值時,數據填充狀態會轉變為掛起的寫入狀態,此時可以選擇另一個未活動的多維數據集繼續填充數據。數據填充失敗時會返回錯誤信息。
2.閑置等待:該狀態下,多維數據集內無數據,是初始狀態。
3.等待寫入:此狀態表示數據已經到達多維數據集,等待分配到相應的存儲節點進行持久化。數據被發送到指定的存儲節點并排隊等待寫入操作。
4.數據寫入:該狀態下,存儲節點將數據寫入多維數據集。當所有數據都存儲完畢時,多維數據集將變為非活動狀態。每個存儲節點可能有多個存儲多維數據集,但每個存儲節點僅有一個存儲多維數據集。
多維數據集的狀態會隨著數據的變化而變化,形成閉環。為避免寫入操作被阻塞,系統中必須至少有一個活動的多維數據集。根據數據流量調整多維數據集的數量可以避免寫入操作的暫停。參數設置可以通過兩種方法實現:根據數據流統計結果設置多維數據集的數量,或者使用機器學習模型訓練歷史數據來預測最佳數量。本文采用計算機預置桶計數的方法。在未來的工作中,可以考慮使用基于學習的方法來調整參數調優方法。
(三)系統架構
整個系統的體系結構分為五個部分:1.數據流生成模塊:負責生成穩定負載流。采用了Wisckey的鍵值分離思想,該模塊可以直接替換成數據發送模塊。2.存儲節點:負責對多維數據集中的數據進行持久化,并在持久化完成后將多維數據集轉為睡眠狀態。用戶可以根據實際需求或數據類型選擇不同的存儲模塊。3.多維數據集分配模塊:根據用戶的分離策略,將適合存儲的多維數據集分配到相應的底層存儲節點中。4.多維數據集填充模塊:負責填充多維數據集的數據流。在單個多維數據集存儲方案中,確保數據集處于完整數據狀態。當數據量達到一定范圍后,填充模塊會將數據集狀態更改為等待寫入,并選擇一個空的多維數據集來進行數據填充。5.系統監控模塊:實時監控系統的運行情況,對每個節點的數據進行詳細分析。當系統負載過高時,用戶可通過該模塊動態增加底層存儲節點,從而有效降低寫入壓力。
三、關鍵技術
(一)多源時序數據的實時關聯計算
實時關聯計是指在時間序列數據中實時分析、合成信息,并根據給定的公式補充必要的決策和估計數據進行信息處理的過程。同時,實時關聯計算也被稱為多源關聯、多源融合或數據融合,因為它能夠整合不同類型的信息。在有限的存儲條件下,多源時序數據的實時關聯計算實現了大時差時序數據流的無回溯關聯計算。
(二)時間滑動窗口動態數據計算
測控中心系統在處理數據查詢請求時,若需要多個時間窗口的協助,每個查詢請求都需要重新計算結果,這可能會嚴重影響系統性能。因此,系統亟需一種能夠支持多個時間窗口(從秒到幾十年)和多種窗口漂移方法(數據驅動和系統時鐘驅動)的實時動態計算方法。這種方法應能快速響應查詢需求,并在多個層次上執行復雜查詢。時間窗口需要支持基于彈性時間窗口的靈活查詢,并且能夠進行動態精度管理。滑動窗口過程的原理如圖1所示。
(三)復雜統計指標的實時增量計算
在大數據分析中,統計指標如均值和方差等非常重要。計算統計指標可以采用不同方法,包括靜態數據檢索、簡單算法和復雜算法。通過合并查詢結果來實現諸如計數、平均值、求和等指標。然而,一些復雜指標如標準差、可變性和熵等可能難以直接計算。此外,在進行復雜指標的查詢時,特別是涉及熱點數據維度和長周期時間窗口時,重新計算會增加計算成本。
為了解決這些問題,復雜算子增量計算方法以多項式拆解為基礎,實現了對協方差、方差、K階中心矩等多種復雜算子在高密度、長尺度、長周期時間窗口內的實時計算[3]。
四、實驗測試與結果分析
(一)實驗方法
本次實驗共選取了十臺服務器節點,其中包括4臺配備有10核 Intel (R) Xeon (R) E5-2690 處理器的服務器。這些服務器都搭載了操作系統Neokylin 3 2.2,擁有64GB內存、900GB SATA驅動器和主頻為3.0GHz的配置。實驗旨在對服務器性能和數據完整性進行驗證。本實驗主要研究數據流量統計、異常數據分析等實驗對象。
(二)實驗結果
1.數據流量統計
對所有統計信息進行測試。首先加載單個任務的數據量參數,然后對任務核心數據進行流量統計,并將統計結果與核心交換機的數據進行比較。經過比較,發現測試數據之間沒有較大差異。接著,針對顯示、自動和系統狀態這三種數據類型進行流量統計。在本次實驗中,需要10臺服務器的網卡單向發送包含這三種類型任務數據 的IP 包,每秒共發送19615個數據包。
2.異常數據分析
通過分析1MS數據行的時間滑動窗口,發現數據量在45秒時達到峰值。使用智能分析軟件進一步分析,發現除了在50MS階段出現大量數據外,其余時間的數據量相對較低。。數據行航時以整數秒為單位發送,與一些數據處理和傳輸過程相關的航時也存在。當程序發出警報時,需要修復錯誤。圖2顯示了三種類型的數據:系統狀態數據、顯示數據和自動化數據,其中占比最大的是系統狀態數據包數據量。從智能分析模型中發出警告后,需要修復錯誤。在校準故障前和修復后分別統計樣本數據1、2的數據包監測結果,結果見下圖3所示。
五、結束語
綜上所述,Kafka以其高性能、低延遲和開源的特點在各領域的大型數據中心得到了廣泛應用。將零拷貝機制應用在消息隊列系統中,顯著提升了航天測控中心系統的數據發送和接收性能,同時提高了數據抵抗能力。因此,Kafka可以被認為是近年來航天測控系統中消息通信機制的替代方案。
作者單位:陳曉峰 成亞勇 中國電子科技集團公司第五十四研究所
參考文獻
[1] 陳純.時序大數據實時智能處理技術及網絡安全應用[J].中國信息安全,2021(z1):51.
[2] 符葉丹,張方圓,黨琪,等.時序大數據流式計算處理在航天測控中心系統的應用[J].電訊技術,2023,63(5):638-642.
[3] 涂永勝,馬高峰,龐為興.淺析大數據技術在海量監測數據回放中的應用[J]. 中國無線電,2021(1):64-67.