








摘 要:為了對非周期性、非高斯性及間歇性的曳引式電梯數據進行數據清洗,對電梯運行過程中的異常數據進行排查,提出一種改進后的長短期記憶網絡的數據清洗模式。在對基于物聯網技術使用數據庫存儲的時序數據進行異常數據的清洗時,提取不等長的時間序列數據進行劃分與填充,利用長短時間神經網絡對其進行建模,進行初期的異常數據檢測清洗。在系統中實現電梯故障系統的故障預測、壽命分析、可視化前的數據清洗工作,完成數據優化。
關鍵詞:物聯網;時間序列;數據管理
中圖分類號:TP183文獻標志碼:A文章編號:1671-5276(2024)03-0151-04
Research on Data Cleansing Method of Elevator Based on Time Series Data
Abstract:In order to perform the data cleaning of aperiodic, non-Gaussian and intermittent traction type elevator and troubleshoot the abnormal data in the process of elevator operation, this paper proposes a data cleaning mode of modified long short-term memory network. Based on the IoT technology using a database to store the time-series data of abnormal data cleaning, the time series data of different lengths are extracted for division and filling, the long and short time neural network is used for modeling, and the initial abnormal data detection and cleaning are carried out. Data cleaning and data optimization are completed before the realization of fault prediction, life analysis and visualization of the elevator fault system.
Keywords:IoT; time series data; data management
0 引言
大數據已經廣泛運用于各個行業,電梯物聯網正逐步完善。由于所使用的電梯數量多、類型廣,造成了電梯品類的管理與維保質量各不相同,經驗不同的工作人員對電梯實際故障情況的判斷會出現偏差,影響最終故障的解決。因此,加強對電梯的信息化管理、提高電梯設備質量、做好售后服務、保障電梯使用安全是非常重要的。對電梯數據進行監測、數據管理、預警,構建電梯系統成為了必然趨勢。
隨著物聯網的興起,智能設備和傳感器技術得到大量應用,在數據清洗的研究領域,又新增了時序數據的清洗。盧峰等[1]使用云計算對電網大數據進行數據清洗,該數據清洗模型針對的是企業內部決策者提供的準確數據。謝智穎等[2]針對公交車規律使用長短期記憶(LSTM)神經網絡進行了數據清洗來解決公交車到站預測問題,并對各類異常數據實現了數據清洗。XIE等[3]比較了傳統的卷積神經網絡和長短期記憶網絡提取特征,實現對汽車品質的準確評價。沈沛等[4]提出了一種基于相似重復數據少的DM-SVM數據清洗,利用時序數據的時序唯一性,將SVM算法的窗口改為自動縮放型,提高了數據清洗的效率。韓紅桂等[5]使用SVM與粒子算法相結合,對城市污水處理過程的異常數據建立了一種缺失數據補償模型,提高了數據質量。WANG等[6]針對BIM信息集成技術產生的海量數據進行數據清洗,利用RNN-LSTM網絡對建筑施工項目中質量數據進行預測,降低施工中的問題率。YANG等[7]基于多傳感器周期性數據使用LSTM模型進行數據異常分類與定位,提出了條件生成對抗網絡來進行數據修復。
為了解決上述問題,本文提出了一種基于電梯時序數據的LSTM異常數據清洗方法。首先,根據時間序列進行整合重組,剔除停頓的數據后,使用長短期記憶深度學習進行數據清洗,最后得到相對干凈的電梯數據。
1 數據采集
1.1 電梯信號數據采集
電梯數據采集主要基于運行過程的各個傳感器和電梯監控數據,如溫度傳感器、加速度傳感器等。電梯運行信號采集具有以下特點:
1)采樣頻率高;
2)數據量大;
3)采集實時性較高;
4)電梯機房比較封閉且有較多影響電磁波傳輸的障礙物。
如圖1所示,基于物聯網的電梯數據管理系統的數據源是由安裝在電梯中各個設備組件中的傳感器及其電梯機房的數據構成的。多個電梯工作組上的傳感器構成整個系統的物聯網感知層,并將采集到的信號數據源源不斷地通過有線以太網組成的物聯網傳輸層發送到服務器集群中。
為了滿足電梯運行數據采集實時性高、數據量大等需求,電梯運行信號采集系統采用有線以太網的數據傳輸方式。系統主要采集的數據是電梯運行狀態信號以及x、y、z軸3個方向的振動信號數據。系統將采集到的數據進行換算后存入實時數據庫中,并進行數據清洗,等待分布式處理集群的后續故障診斷、故障預警等應用實現。
1.2 電梯數據存在的問題
電梯數據屬于連續、離散作業混雜的數據類型。影響電梯運行的要素很多,如所在位置、機房溫度、運行加速度的變化等。由于物聯網技術的興起,許多電梯已經開始步入智能化管控階段,故障檢測與預警系統實際需要的數據是經過數據清理后獲得初值化的多維、大規模數據集,直接使用原始數據會加大計算復雜性,難以保證預測的準確性和可靠性。所以,需要對電梯數據進行清洗,避免故障預測的失真。電梯數據質量問題主要表現在以下幾個方面。
1)數據失真和失準。由于電梯所處的環境及電梯使用年限各不相同、設備運維保養情況各不相同等原因,可能造成各類運行數據出現數據失真和失準。
2)數據冗余。冗余數據是指對電梯數據分析預測時沒有價值的數據,如:同一個時間間隔內數據重復上傳的情況。
3)數據錯列。當數據采集器出現故障或者控制器發生收錄錯誤時,會出現部分數據與其設置的屬性無法對應,從而產生錯列問題。
本文針對電梯時序數據的數據失真失準問題進行研究,使用LSTM算法對數據的異常值進行探究,對電梯的異常值數據進行清洗,優化數據質量。
·信息技術·
王容·基于時序數據的電梯數據清洗方法研究
1.3 數據評估
不同的數據質量問題具有不同的嚴重性和故障發生的可能性,使用風險評估矩陣來對各類數據的質量問題進行評估,如表1所示。
對于檢測結果可以使用如下公式來進行計算:
式中:A為準確率;R為召回率。
2 電梯時序大數據特征
電梯傳感器在采集數據時會帶有時間序列這一時間要素。電梯的時序數據體現了數據的實時性和連續控件位置變化的屬性,反映了其中某部電梯與其所處樓層位置之間的關系特征。如圖 2所示,圖中的各個節點代表電梯控制系統整個運行周期的狀態情況。
電梯的時間維度是以某一個時刻作為起點,在某段時間內不固定地發生變化,根據電梯狀態轉移圖可知,電梯數據具有一定的規律性、序列性。
1)序列性
電梯的采樣頻率以一定的時間間隔進行數據采集,上、下樓梯時會有劇烈的抖動,影響x、y、z軸上的加速度、按鍵的樓層、到達的時間、等待序列等。在這個序列中數據是連續的,丟失幾個時間點的值,會出現較大的奇異值。
2)規律性
電梯加速度變化存在一定的隨機性,但是隨時間變化有一定規律性。例如:工作場所內的電梯在工作日的工作時間段日變化規律相近,工作日與休息日的形狀不同。從日流量變化圖可獲得每天的人流量高峰時間與高峰小時流量,這些都具有隨機性。但是電梯具有狀態轉移規律,電梯數據會具有規律性,電梯開門、選擇到達樓層、關門、運行,循環往復,一直到最后電梯停止。
3 電梯大數據清洗方法
本文基于時序電梯數據的改進長短期記憶神經網絡算法(LSTM)建立數據清洗方法。LSTM具有控制遺忘的結構設計,非常適合處理時序任務。相比于傳統神經網絡RNN,LSTM提出了“遺忘門-輸入門-輸出門”,對前期的數據進行選擇性地記憶與遺忘,提取時間特征對數據實現長期記憶。利用LSTM方法進行異常數據清洗并實現數據補償的方法如下。
1)由于電梯數據呈現非周期性、間歇性的特點,所以需要在進行預測前將非周期性的時間序列進行轉換,轉化為不等長的時間序列片段,將每次暫停在某一樓層的時間段剝離后進行時間序列的重組,去除長時間停留在某層的時間間隔,完成電梯數據的重組排序,如圖 3所示。
2)對電梯數據在使用LSTM算法進行清洗前,需要進行歸一化處理,在訓練樣本上需要求出每個維度的均值和方差,在訓練樣本上進行歸一化處理的公式為:
式中:Y為歸一化后的數據;x為待處理的數據。其中,對時間進行歸一化處理時,提取日期和時間后,再對時間進行轉化。
3)確定模型其他參數。例如:輸出層、節點數、優化器等,結合損失函數和觀測函數隨訓練輪次的結果,修改相應的參數信息及選取合適的訓練輪次。
4)通過不同的數據預測模型進行預測及數據分析,異常數據具有很強的突變性,數據分布的方差也會發生很大的變化。因此,將預測值與真實值的誤差值進行記錄,在閾值內進行數據的清洗與補償。
4 數據清洗結果驗證
4.1 利用時序重組后的LSTM對數據的預測與判斷
本文以某學校內的電梯數據集為例進行分析。該數據集選用電梯加速度數據集,使用加速度傳感器記錄x軸、y軸、z軸及絕對值加速度,隨機采集上下電梯的一段數據,共采集85 770組數據。選用了x軸加速度、y軸加速度、z軸加速度、絕對值加速度來作為輸入特征,預測絕對值加速度。以電梯上下運行加速度為正常樣本數據,以成年人在轎廂內的中等強度跳動模擬異常數據。
如圖4所示,得到傳感器數據,并且標記出異常數據。直接采用LSTM對電梯數據進行異常值清洗會出現較大誤差,預測值與真實值的誤差閾值較大,異常值數據清洗的準確率較低。將靜止時的數據與運行中產生的加速度變化數據進行剔除,完成剔除后對電梯運行過程中的數據進行時間序列的重組,再根據數據的時間間隔進行序列生成,完成后再對數據進行LSTM算法的數據清洗。結果如圖 5所示。預測的駝峰數據變少,數據預測的誤差值在±0.5之間。
重組前的訓練耗時210s,重組后的算法迭代輪數不變,訓練耗時約170s,單輪迭代時間2s。相比于數據重組前,改進后由于數據結構簡單,靜態數據減少,訓練速度提升了19%。
4.2 數據清洗實驗結果
通過比較預測值和真實值,計算兩者誤差,設定真實值與預測值的誤差閾值為±0.1,可以成功檢測出異常數據的數量,然后比較異常數量并使用評判結果進行評價。數據重組前與數據重組后的LSTM數據清洗方法分別對電梯加速度數據進行清洗后的結果對比如表2所示。
通過對比可以發現,電梯數據在進行重組后再進行異常值清洗,提高了數據清洗的準確率和召回率,說明時間重組后確實可以有效地提高數據的質量。
5 結語
本文結合物聯網采集的時序電梯大數據對非周期性的電梯數據進行時序重組后,使用LSTM神經網絡對電梯異常數據進行數據清洗并補償,并對采集的實際數據進行了驗證。電梯數據清洗的后期研究需要結合其他的清洗方式清洗后的數據進行對比分析才能真正地應用到系統預測、可視化界面以及壽命預測分析中,使其真正服務于電梯物聯網系統。
參考文獻:
[1] 盧峰,吳朝文,陳小龍,等. 基于云計算的電力能源大數據清洗模型構建[J]. 自動化儀表,2022,43(1):72-76.
[2] 謝智穎,何原榮,李清泉. 基于時空相關性的公交大數據清洗[J]. 計算機工程與應用,2022,58(1):113-121.
[3] XIE L P, LU C H, LIU Z E, et al. The evaluation of automobile interior acceleration sound fused with physiological signal using a hybrid deep neural network[J]. Mechanical Systems and Signal Processing,2023,184:109675.
[4] 沈沛,毛海濤,胡文林,等. 面向時序的相似重復數據清洗算法優化[J]. 計算機時代,2022(9):68-72,77.
[5] 韓紅桂,魯樹武,伍小龍,等. 基于改進型SVM的城市污水處理過程異常數據清洗方法[J]. 北京工業大學學報,2021,47(9):1011-1020.
[6] WANG D P,FAN J F,FU H L,et al. Research on optimization of big data construction engineering quality management based on RNN-LSTM[J]. Complexity,2018:1-16.
[7] YANG K,DING Y L,JIANG H C,et al. A two-stage data cleansing method for bridge global positioning system monitoring data based on bi-direction long and short term memory anomaly identification and conditional generative adversarial networks data repair[J]. Structural Control and Health Monitoring,2022,29(9):e2993.1-e2993.19.