潘 鵬, 王廷銀, 潘健鴻, 吳海燕, 金曉磊, 樊明輝, 吳允平
1(福建師范大學 光電與信息工程學院, 福州 350007)
2(福建省特種設備檢驗研究院, 福州 350008)
3(福建師范大學 數學與信息學院, 福州 350007)
4(數字福建環境監測物聯網實驗室, 福州 350007)
5(福州大學 物理與信息工程學院, 福州 350108)
電梯作為現代人類活動最后50米的交通工具, 已成為與城市居民生活密切相關的重要基礎設施之一.過去十年間, 國內電梯保有量迅速增加, 到2016年已達到493.69萬臺[1].電梯的構成要素多, 事故的發生既有一定的隨機性和突發性, 又有一些必然性, 僅2016年國內就發生電梯事故48起, 死亡41人[2];據統計, 電梯構成要素中發生的事故概率分別為:廳門事故占 80% 左右, 井道內事故占 15% 左右, 其他占 5%;引發事故的原因主要有設備缺陷、作業違章、管理缺陷[3].
目前, 電梯的安全主要靠定期維護或年檢的方式,維保公司依據規程對電梯的各構成要素進行固定項目的檢修[4,5], 雖然且該方式存在“過修”或者“欠修”的情況[6], 對可能發生的異常難以檢測, 但在過去10年間它為我國萬臺電梯事故率由1.56起降至0.15起發揮了重要作用[7].
但隨著電梯保有量的持續增長, 電梯使用頻率的快速提高, 影響電梯安全運行的隱患隨之進一步加大,傳統管理方式面臨巨大挑戰.毫無疑問, 將電梯聯網實現監管已成為該行業重要舉措, 如在上海地區, 將新一代電梯運行狀態安全監控系統鋪開, 到2018年預增至10萬臺以上[8].2016年, 《質檢總局2016年電梯安全攻堅戰工作方案》首次明確要求運用大數據、物聯網技術, 多措并舉以提升電梯應急能力和監管效能[9].
國內已有專家圍繞電梯安全積極探索評價方法.慶光蔚等選取與電梯安全相關的指標并計算權重, 通過模糊綜合評價法評估電梯安全, 模糊綜合評價方法能夠較為準確的反映和衡量電梯運行情況及安全性能,指出群體性電梯管理提升點, 指標體系的建立仍有待完善, 缺乏動態檢測、評估[10].陳國華等分析電梯歷史故障信息, 采用基于故障率修正的模糊綜合評價方法評估電梯系統風險, 在模糊評估過程中引入故障率修正系數, 故障率修正系數的引入有利于實現電梯系統風險動態評價[11], 該方法具有較好的適應性, 能夠隨電梯安全技術、安全管理水平修正評價系數, 但評估因素的權重需要不同專業領域的專家依據問卷調查表進行主觀評分, 主觀性強.李剛通過故障原因分析, 研究整機性能與各部件間的關系建立電梯安全評價數學模型, 提出了針對長期服役電梯的安全評價項目、內容、要求及流程, 為長期服役電梯部件及整機報廢、維修、改造提供了技術支撐, 有利于長期服役電梯安全管理及安全水平的提升, 但評價程序的智能化程度差, 僅能根據輸入進行風險值的計算, 無法實現邏輯算法較為復雜的部件及整機判廢[12].這些研究方法為電梯故障分析、監管、改進等方面提出了建設性建議,但如何將事后評估變為對電梯的實時評估, 快速實現對電梯健康狀態預警, 特別是減少評估過程的人為主觀性和加快評估過程, 無疑是一項具有挑戰性的研究.
毫無疑問, 大數據的出現為各個行業帶來了巨大變化[13], 它可以更有效地表征數據、解釋數據[14].電梯的物聯網發展已積累了海量的數據, 如何應用新的智能技術, 例如Logistic回歸等適用于大數據的人工智能算法, 發揮這些數據的作用, 挖掘電梯健康狀況與運行數據間的關聯性, 針對運行中電梯進行健康評估并預警、減少評估時間, 無疑是一項很有意義的研究.
電梯設備健康評估, 涉及到實時數據(物聯網技術監控電梯運行數據)、靜態數據(設備的型號、廠商等)、維保數據和歷史運行數據, 如圖1所示, 時間跨度長、數據量大, 且電梯設備健康需及時評估, 因此需要一種運算時間短, 適用于大數據的評估算法.

圖1 電梯設備的健康評估數據組成框圖
Logistic回歸模型作為一種有效的數據處理方法在很多領域都有廣泛的應用[15–18], 是公認的最常用數據科學研究方法[19].方案最后選定Logistic回歸模型作為最終方案, 一方面由于Logistic回歸假定數據服從二項式分布, 電梯數據量大, 符合二項分布的基礎條件,另一方面, Logistic回歸利用統計學手段, 對數據進行預測分析, 提供后驗概率, 相對于傳統機器學習或深度學習算法其運算速度快, 在數據量較大時效果優異, 適用于大數據環境下電梯健康評估.
評價方案主要包括數據清洗、特征篩選、特征處理、模型訓練和設備評估等, 如圖2.
電梯健康運行需要每部分有機協調, 缺一不可.從功能上看, 電梯可劃分成六部分[12].結合目前的相關研究[4,5,10,12,20]結果, 選取相關的整體特征和局部特征.整體特征是評價電梯各部分共同包含的特征, 局部特征是根據各部分的特點篩選的特有特征.篩選發現, 現有條件無法針對對重系統、導向系統、轎廂系統篩選出適宜的局部特征, 如圖3.

圖2 設備健康評估方案流程

圖3 電梯健康評價特征
電梯特征原始數據不符合評估模型要求, 因此需要借助數據清洗、預處理等方法使其符合要求, 結果如表1、表2.
電梯健康評估是評估模型根據電梯運行數據得出的結果, 因此評估模型是整個系統核心.優化評估模型,是提高評估系統泛化能力最關鍵的步驟.
機器學習分類方法對平衡數據集分類取得了良好的效果, 但對于基于總體分類精度為學習目標的分類器而言, 樣本不均衡勢必會導致分類器過多關注多數類樣本, 從而使少數類樣本分類性能下降[21,22].

表1 電梯整體特征處理后參數

表2 電梯局部特征處理后參數
樣本數據庫中包括發生故障電梯和正常運行電梯的數據, 但正常運行電梯的樣本量遠大于故障電梯樣的數據量, 所有在訓練分類前需要解決樣本不均衡問題.同時, 由于故障樣本數據量級不大, 所以在解決樣本不均衡的前提下需要合理利用樣本.SMOTE算法根據已有的樣本生成新樣本點, 擴大樣本個數[23].但SMOTE可能引入新的噪聲, 使用SMOTE過采樣算法結合KMeans++聚類降采樣, 既避免了為樣本集引入較多的噪聲, 又有效地解決了訓練集樣本稀疏的問題[24,25].
Logistic回歸通過擬合系數, 建立評價模型.但樣本指標單位不一致、不同的量綱, 影響訓練模型參數,降低模型泛化能力.數據的標準化將數據約束到同一標尺,降低了單位與量綱對模型的影響[26,27].
標準分數(Z-score)是一種常見的標準化法, 將數值變準化到Z分數, 公式如下:

模型通過標準分數法將不同單位的數據, 統一到同一尺度, 降低了屬性間的關聯度, 同時壓縮了數據中的噪聲, 提高了模型泛化能力.
在電梯評價模型中, 需要對所有的特征數據進行標準化處理.模型訓練時, 每個特征的所有訓練數據計算“平均值”和“方差”, 后根據公式對數據進行標準化處理.在評估中, 所有數據的標準化參數, 使用訓練模型中“平均值”和“方差”參數帶入公式中進行標準化.
結合本文的需要, 先對相關原理進行分析.Logistic回歸將預測值映射到“Sigmod”函數上并將預測值轉化成預測概率, 函數形式為:

在二分類問題中, 定義屬于“1”的概率表示為P(y=1|x,θ)=f(x), 定 義 屬 于 “0”的 概 率 是P(y=0|x,w)=1-f(x), 可以寫成:

對式(1)求最大似然估計可解得參數wT, 計算概率得:

求解的關鍵在于求解參數wT, 但本質上是仍線性.
線性回歸通過學習、計算, 擬合出結果與特征參數間的線性數量關系:f(x)=wTx.線性回歸試圖完成使得f(xi)?yi. 即yi=f(xi)+εi, 使得εi最小.由中心極限定理可知, 誤差是獨立同分布的, 服從均值為 0, 方差為σ2的高斯分布.

根據極大似然估計法可得:

若使得式L(w)最大, 即使得式(2)最小:

利用梯度下降算法或者最小二乘法都可求解[15,28].
Logistic回歸的本質是線性回歸, 線性回歸是變量的一階形式, 一階模型對樣本的學習不充分.將f(x)=wTx變成形如:

在變量設計上將x1與x12看作是兩個變量, 這樣就人為的將f(x)變成高級回歸, 本質上仍是線性回歸[29].階數高時擬合效果較好, 但是存在過擬合的情況.因此使用交叉驗證, 測試不同階數在測試數據上的準確度,選擇合適的模型適合的階數.
求解式(1)的最大似然估計時, 解得的wT可能造成評價模型學習過擬合.為降低過擬合程度, 引入L1/L2懲罰因子[30]:

但在數學推導上仍舊無法推算λ 最優解.
交叉驗證將原始數據進行分組, 一部分作為訓練集, 另一部分作為驗證集.首先用訓練集對模型進行訓練, 再將相關參數回帶入目標函數選擇適合的參數.通過交叉驗證法, 如圖4, 利用測試數據以式(3)損失函數為評價標準, 選取合適的 λ.
電梯健康評估系統主要包括離線模型訓練和電梯設備實時評估兩個部分.

圖4 交叉驗證
離線模型訓練部分包括, 使用離線數據, 借助統計算法, 數據的規整, 預處理等方法整理原始數據, 利用整理后的數據學習訓練logistic回歸模型關鍵參數, 建立評價模型.
實時評估系統將實時上傳的數據整合后放入訓練后的模型, 達到對電梯健康實時評估、預警, 如圖5.

圖5 電梯健康評估系統
評估模型計算每部分發生故障的概率Pi, 帶入公式:F(x)=100(1-Pi), 計算各部得分.將電梯各部分得分的均值作為電梯最后得分, 完成電梯健康評估, 如圖6.

圖6 評估結果
電梯是一個復雜系統, 具有構成要素多、供應商多, 生命周期長等特點;從安裝、維保到維修, 影響其運行狀態的要素很多.本文從電梯組成、影響或可以用于評價電梯健康因素入手, 選取評價參數.借助現象與故障之間的聯系, 在歷史數據的基礎上建立數學模型, 利用現有數據, 使用大數據分析方法建立評估模型.引入數據預處理、懲罰因子、交叉驗證方法, 針對實際業務優化評估模型.該模型評估時間周期短, 模型動態調整, 達到了對電梯健康實時監控并預警.
評估階段取平均值作為電梯最后評價結果, 但電梯各部分對電梯重要并不對等, 因此評價電梯各部分的比重系數可作為下階段的研究重點.
在整個研究設計過程中, 由于缺乏統一的規范和標準, 各廠商的數據獲取難度大, 信息孤島現象還比較嚴重.隨著物聯網技術的發展, 應盡快實施電梯物聯網的協議和接口標準化, 加快提升行業的活力和發展態勢.