王子豪
(徐州工程學院,江蘇 徐州 221018)
制造廠商需要抽樣檢測流水線上生產的產品,數據公司同樣也需要對自己的數據產品質量進行把控。研究數據驅動的異常檢測與預警問題,對于生產企業來說可以及時發現產品或數據中的異常,從而修正偏差改善產品質量,提高收益。此外,對于任何的分析,在數據預處理的過程中檢測數據中的異常值都是非常重要的一步。異常值會大幅度地改變數據分析和統計建模的結果。數據集中異常值有很多不利影響,會增加誤差差異,并降低統計測試的能力。研究數據驅動的異常檢測與預警問題,可以降低錯誤率,提高結果的準確性。
在數據篩選方面通過因子分析的方法對題中所給數據進行篩選。根據已篩選的數據進行高斯分布分析,通過高斯分布進行再一次的篩選,將不滿足高斯分布的數據進行剔除,只保留滿足高斯分布的數據。
對篩選結果而來的數據,運用Spss 軟件對數據進行可視化處理,本文采取繪制箱線圖的方法,求解得出結果,根據箱線圖所給的范圍,找出異常值存在的范圍,即確立離群點。將篩選結果導入Excel 中,利用Excel 標選出離群點。
先考慮風險性異常特點,對所篩選出來的離群點通過Excel進行縱向分析,以異常值持續時間為指標篩選出異常值具有持續性特點的離群點。再在此基礎上對數據進行橫向分析,選取在同一時間出現異常的傳感器數量作為指標篩選聯動性特點。橫向篩選結果的集合與縱向篩選結果的集合取交集,即為風險性異常數據波動。
對數據進行高斯分布處理,根據高斯分布特點,本文發現不符合高斯分布的數據其波動性變化微小,故本題將這些變化微小的數據進行篩選剔除,保留滿足高斯分布的數據。
對篩選結果而來的數據,運用Spss 軟件對數據進行可視化處理,本文采取繪制箱線圖的方法,刻畫離群點,將這些離群點在Excel 中標出。
在此前模型的基礎上對風險性異常數據進行量化評價方法,本題首先建立評價指標,指標的建立采用窗口分析法,提取窗口中該異常數據與平均值的大小,分析出該窗口的方差、數據變化幅度并將其作為指標,然后建立評價模型,由于本題評價類型較為客觀,故選擇熵權法進行評價。
2.1.1 利用熵權法確定相關指標的權重
熵權法是一種客觀賦權方法。在具體使用過程中,熵權法根據各個指標的變異程度,利用信息熵計算出各個指標的熵權,再通過熵權對各個指標的權重進行修正,由此得出的結果為較為客觀的指標權重[2]。
(1)對問題一已篩選得出的風險異常數據進行標準化處理,如下式所建立的負向指標:

(2)求各個指標的信息熵。根據信息論中信息熵的定義,一組數據的信息熵計算公式如下所示:

(3)確定各個指標權重。根據信息熵計算公式,計算得出各個指標的信息熵。通過信息熵計算各個指標的權重,如下式所示:

2.1.2 對風險性異常數據整體量化評價
為了避免權重計算時失去實際意義,采用將某時刻中的某一項指標加權后與全時刻該指標加權后的平均值進行比較。首先計算共計L 的全時刻指標E 量化加權后的平均值,如下式所示:

由于在量化過程中,本題已經確保了量化結果與風險等級正相關,故只需要將第X 個時刻的指標E 與平均值E 作差,并用差值與平均值作比,即可作為該時刻該指標的得分,如下式所示:

求出時刻全部指標的總得分即為該醫院最終得分,如下式所示:

最后,用求出的Sx可較為公正且全面的衡量風險異常數據時刻的風險等級,將這L 個時刻所得最終得分降序排列,去排名靠前的五個時刻,通過計算得出具體結果。
建立在問題一篩選出來的數據的基礎上,進一步求出這些數據所占的權重。由于這里的權重需要偏客觀性,本文采用熵權法求權重。考慮到這些數據均為異常值數據,所以先對數據進行逆向化量綱處理。
在模型建立中選取了均值和方差作為指標,并用Spss 求出該異常編號數據的均值和方差,運用主成分分析法在均值和方差之間提取了均值作為主要分析的成分,篩選出來的5 個異常時刻編號如下:
1929(8:02:15)、1131(4:42:45)、2470(10:17:30)、3082(12:50:30)、941(3:55:15)
對應得機器編號為:3;69;62、74;54;69、84 對處理好的數據進行熵權法求權重,求得平均值、標準差。求解結果如表1 所示。

表1 平均值及標準差求解表
在步驟一、步驟二處理好數據,并求得平均值、標準差之后,本文使用熵權法求解出相應權重,使用Spss 軟件求出權重如表2 所示。

表2 熵權法計算權重結果匯總表
權重數據可視化如圖1 所示。

圖1 權重數據可視化圖
Step4:根據以上模型,得出最終5 個異常分值最高時刻對應的異常傳感器編號排序如下:
62、74>69>3>54>69、84
本文對數據進行篩選與處理,篩選得出的數據通過繪制箱線圖,確定異常點的集合,在此基礎上再對異常點進行有無風險性判斷。本題選取時間間隔與持續時間為異常點滿足風險性條件下的指標,選取所有傳感器在同一時間出現異常點的個數為聯動性指標。由此對數據進行縱向與橫向雙維度篩選分析,當持續時間長且同時出現異常傳感器數量多時,即為風險異常數據。
在前模型的基礎上,對風險性異常數據進行量化評價,對各個指標進行量化處理,確定指標的權重,權重的確立要更加接近于持續性、聯動性等特點,由于評價目標較為客觀,故可以在以上分析的基礎上利用熵權法確定權重,再為每一個傳感器計算出一個風險性異常波動指數。對每一時刻所有傳感器的風險性異常波動指數進行求和,選取最大的五個時刻,并記錄此時風險性異常波動指數最大的傳感器。