施 珮,匡 亮,唐 玥,袁永明,余曉棟
基于改進SVDD算法的池塘水質數據流異常檢測
施 珮1,2,匡 亮3,唐 玥1,2,袁永明4,余曉棟1,2
(1. 南京信息工程大學濱江學院,無錫 214105;2. 江蘇省物聯網設備超融合與安全工程研究中心,無錫 214105;3. 江蘇信息職業技術學院物聯網工程學院,無錫 214153;4. 中國水產科學研究院淡水漁業研究中心,無錫 214081)
無線傳感器網絡獲取的水質數據流具有高復雜性、非平穩性、非線性等特點,為了提高傳感數據流的異常檢測能力,保障水質監測數據流的有效性,該研究提出一種基于改進支持向量數據描述(Support Vector Data Description,SVDD)水質數據流異常檢測方法。首先應用馬氏距離改進Parzen-Window高斯窗函數,避免數據在分類過程中產生干擾。再利用改進的Parzen-Window獲取訓練數據的分布密度估計,并結合模糊隸屬度函數,對傳統SVDD算法進行密度補償,構建改進的SVDD異常檢測模型,從而降低有噪正常樣本的干擾性,提高算法的分類精度。最后,選擇密度補償支持向量數據描述(Density Weighted Support Vector Data Description,D-SVDD)、傳統SVDD和FastFood算法,在不同試驗池塘的多個測試數據集中進行對比試驗。結果表明,改進 SVDD 算法具有較高的檢測性能,該算法在 3 口池塘的最高異常檢測正確率 TPR(True Positive Rate)值達到99.83%,最高檢測準確率 Accuracy 達到 99.83%,明顯優于 D-SVDD 和傳統 SVDD 算法,且最低運行時間僅 1.34 s。結果可為水質數據流異常監測提供技術支持。
水產養殖;水質;數據流;密度補償;支持向量數據描述
在集約化的水產養殖中,傳感器網絡作為一種常見的技術被應用于養殖水體的環境監測[1]。通過部署多種傳感器節點,可以不間斷地采集水質數據,構成具有時間特性的傳感器數據流。然而,受傳感器老化、電氣特性、外界磁性干擾或節點間通訊等原因[2],采集的數據流會存在數據缺失、異常等問題。水質數據流的異常檢測能夠幫助及時發現偏離正常情況的數據,同時,針對異常數據實時發送警報信息、節點故障信息等。在高密度的集約化水產養殖中,基于水質數據流進行的異常檢測能有效地保障水產養殖水質監測的可靠性和有效性,從而為精準養殖生產提供決策依據。
傳感器數據流的異常檢測是一項具有重要意義的研究,基于不同研究算法的傳感器數據流異常檢測已經被廣泛應用于各個領域[3-7]。張懷峰等[3]提出代表性特征自編碼器異常檢測算法,提取相位相同樣本的代表性特征,并根據這些特征衡量衛星電源系統的異常數據。Lee等[4]提出了一種基于Self-organizing Maps(SOM)算法的自適應動態分簇式在線異常檢測算法。該算法利用實時更新的網絡結構和適應度為依據構建異常簇或正常簇。這類算法在進行異常檢測時無需數據標定,具有很強的特征提取能力,較適合具有確定性時序特征的數據流。唐斯琪等[5]基于局部保持投影算法基本思想,提出基于類別信息的監督判別(Locally Preserving Projection,LPP)的(Supervised Discriminant Locality Preserving Projection,SDLPP)算法,并應用到網絡數據流的異常檢測中。這類算法具有較高的檢測精度,但對測試和訓練的數據集有較高的要求。事實上,在實際工程實踐中,諸如養殖池塘的水質數據流,其數據本身異常和正常比例不均衡,且異常類型復雜多變,全面地采集和準確標定是難以實現的,因此需要更為合適、有效的算法應用于這類問題的數據流異常檢測。SVDD作為一種適用于不均衡數據集分類的機器學習方法,具有高效的非線性分割能力[8-11]。為了解決具有分布差異的訓練數據出現分類界面偏移的問題,Cha等[12]將密度權重的概念引入到SVDD算法中,并采用階鄰域(K-Nearest Neighbor,KNN)算法來度量數據的相對密度分布情況。陶新民等[13]提出一種最大軟間隔SVDD故障檢測算法對不均衡數據下的軸承故障問題進行檢測,取得了較好的效果。目前,SVDD模型已廣泛應用于工業過程中的故障檢測領域,但在水產養殖水質監測領域應用較少。
本文提出一種改進的SVDD異常檢測算法,并將檢測結果同密度補償支持向量數據描述(Density Weighted Support Vector Data Description,D-SVDD)、SVDD和FastFood三種模型進行對比,探索具有較高檢測準確度、效率和泛化性能的水質數據流異常檢測算法,解決傳統水質數據流異常檢測中不平衡數據檢測準確度低、特征信息貧乏、魯棒性差的問題,以進一步提高水質數據流的長期異常檢測精度。
為了對數據流異常檢測算法的適用性進行試驗和測試,本研究首先使用國際通用傳感網絡數據集SensorScope中的12號傳感器節點的外部溫度、地表溫度進行仿真試驗。同時,以實際生產中的多個試驗池塘的水質數據流為異常檢測的研究對象,在江蘇省常熟市水產養殖基地(121.9°E、31.6°N)的多個養殖池塘中部署傳感器網絡,從而獲取傳感器感知的水質數據流。養殖區域內共3口試驗池塘,總面積約為2×104m2,每口池塘約6.7×103m2(長110 m,寬60 m)。1號池塘養殖南美白對蝦,養殖密度為75尾/m2;3號池塘養殖中華絨螯蟹,養殖密度為0.013 5 kg/m2,放養規格為120尾/kg;13號池塘混養青蝦和中華絨螯蟹,中華絨螯蟹養殖密度0.011 2 kg/m2,放養規格為600尾/kg,青蝦放養密度為0.004 5 kg/m2,放養規格為8 000尾/kg。獲取的水質數據指標數據包括溶解氧濃度和pH值。在水產養殖遠程監測系統中,水下傳感器的數據采集間隔為10 min。水體數據經ZigBee傳輸至Sink節點,再傳輸至服務器端,系統總體架構如圖1所示。
本文以2020年5月20至6月2日為試驗周期,采集周期內3個養殖池塘的水質數據流為試驗樣本。同時,在1號池塘中分別構建不同大小的樣本集進行模型訓練和測試,各試驗數據集均包含兩項檢測指標,其詳細信息如表1所示。1號池塘、3號池塘和13號池塘均包含大小相近的數據集樣本。同時,在1號池塘中,分別設置3個試驗樣本集:No.1、No.2和No.3,各樣本集中總試驗數據量遞增,訓練和測試集中樣本量也分別遞增。

表1 試驗數據集
SVDD是支持向量機的一種分支。它的主要思想是通過對訓練集中的數據使用立體概念超球體進行包裹,從而實現數據間的劃分[14]。
在這個超球體實現數據分類的過程中,其依賴的是數據間的映射。SVDD以結構風險為目標,數據的分類為目的,不斷優化超球體的大小,以期最大程度地包含所有目標數據[15]。在超球體內部,以為球心,為半徑。球體內部數據為目標類,外部數據則為非目標類,其算法結構圖如圖2所示。


式中ξ≥0,為懲罰因子。
引入拉格朗日乘子求解式(1),替換其中內積運算為核函數 K(),在滿足Mercer 定理的條件下,獲得其對偶表達式如下:
求解式(2),得到特征空間中觀測數據到球中心的距離和球體半徑,x為第個數據,x為第個數據,它們的計算表達式如下:


核函數表征樣本從低維到高維的特征映射,在SVM中占有重要地位,影響著函數的性能。目前常用的核函數包括線性核函數、多項式核函數、高斯核函數和Sigmoid核函數等[16]。在不同的應用領域中,各個核函數均有不同的適用性。
概率密度估計能夠對樣本進行參數估計,獲得其分布情況的特征統計信息(概率密度函數值)[17]。參數估計和非參數估計作為概率密度估計主要的2種形式,分別以已知分布形式的訓練樣本集和未知分布形式的訓練樣本集為研究對象。Parzen-Window(核密度估計)作為概率論中的典型非參數估計方法,能夠實現樣本的未知概率密度函數值的估算[18]。


使用Parzen-Window函數進行概率密度估計,本文中選擇常用的高斯窗核函數完成概率密度估計,其表達式為
在傳統SVDD算法中,不需要對樣本的數據密度分布進行分析。相對密度的引入能夠補償SVDD算法的缺陷,使得研究區域中相對密度高的樣本更易被超球體包圍。對樣本集[1,2,, x]中任意樣本x,其相對密度ρ為

式中為輸入維度,為權重,為Parzen-window平滑參數。
當x的相對密度ρ越小,則樣本點x所處的區域越稀疏。將相對密度引入SVDD中,使用概率密度(x)乘以公式(1)中松弛變量ξ,獲得表達式如下:
密度補償SVDD算法(Density Weighted Support Vector Data Description,DSVDD)通過引入相對密度能夠讓位于相對密度較大區域中的樣本點盡可能多的被超球體邊界所包含。在求公式(10)的最優解時,引入拉格朗日乘子,則獲得式(11):

在DSVDD異常檢測算法中,Parzen-window窗函數一般選擇高斯核函數。為了避免傳感器數據流在量綱上的差異帶來的影響,在高斯函數中,選擇馬氏距離(Mahalanobis distance)替代傳統歐式距離,將樣本點之間包含的隱藏信息考慮進去,從而構建新的Parzen-window窗函數[19]。在新的Parzen-window窗函數中,對樣本集[1,2,, x]中某樣本x,則其相對密度ρ為

同時,在目標樣本被劃分為正常樣本的過程中,會存在一部分有噪正常樣本混在其中。這些噪聲樣本會對DSVDD的異常檢測模型的構建產生負作用。因此,本文選擇利用隸屬度函數[20-21]對DSVDD進行改進。通過隸屬度函數,使每個訓練集中的樣本都能產生一個相應密度信息下的隸屬度值。對于樣本集[1,2,, x]中某一樣本x,其相對密度ρ下的模糊隸屬度z可表示如下:
式中max為ρ中的最大值,min為ρ中的最小值。由隸屬度函數公式(14)生成的相關密度的隸屬度值,使得所有訓練樣本集中重要性越大的樣本分配得到越大的模糊隸屬度值,且樣本隸屬于一個相對密集的區域中。而重要性越小的樣本則分配越小的隸屬度值,且樣本隸屬于一個稀疏的區域。
引入相對密度ρ的隸屬度函數z對公式(10)進行改進,獲得改進的密度估計補償SVDD算法,其表達式如下:
求解公式(15)的最優解時,引入拉格朗日乘子,則獲得式(16):

針對水質數據流在數據量綱上的差異,需要對這些數據流進行標準化處理。因此,本文采用Z-score方法[22]完成數據流的標準化過程,其預處理的表達式為

在水質數據流的異常檢測中,正常數據和異常數據之間比例具有不均衡性,且異常樣本難以被標記。傳統有監督算法進行異常檢測時,模型難以準確設計和構建,因此需要使用新的方法來解決這些實際的問題,并保證數據流異常檢測的準確度。因而,本文嘗試使用SVDD算法構建一種半監督型的數據流異常檢測算法,并構造關于相對密度的模糊隸屬度函數(),降低有噪正常樣本對異常檢測模型的干擾,求解計算如式(14)。
本文構建的養殖水體數據流異常檢測模型,首先需要采用式(17)進行數據標準化。然后,利用概率估計和模糊隸屬度計算,構建改進的SVDD異常檢測模型實現數據流的異常檢測,主要包括數據預處理、改進SVDD檢測模型的訓練、改進SVDD模型的測試和驗證效果等,具體異常檢測流程如圖3所示。
數據預處理。對傳感器采集的水質數據流樣本進行標準化處理,避免數值量綱和變異等對改進SVDD模型訓練過程中的參數尋優產生影響。
模型訓練。在改進SVDD的模型訓練過程中,首先需要設置初始參數懲罰因子和,利用5-折交叉驗證法對參數進行尋優,以平均絕對誤差(Mean Absolute Error,MAE)作為迭代尋求的評估指標;再利用改進的Parzen-Window函數進行樣本的概率密度估計,確定密度函數值;結合模糊隸屬度函數,將基于相對密度的隸屬度值帶入SVDD中,求解改進SVDD模型的輸出參數超球體半徑和拉格朗日乘子的值。
異常檢測測試。進行異常檢測測試時,計算各觀測點到中心的距離值。對比值與超球體半徑;當>時,則判定該觀測點為異常數據;當<時,則判定該觀測點為正常數據;輸出異常數據,完成測試數據的異常檢測過程。
本文將2020年5月20日-6月2日期間養殖區域中各試驗池塘的溶解氧濃度和pH數據流作為異常檢測對象,分別構建訓練樣本集和測試樣本集。試驗中,異常檢測算法采用Matlab 2014進行程序的編寫和運行,使用的Intel雙核2.7 GHzCPU,16.00 GB RAM,Windows 10(64 bit)操作系統。在算法的性能評價上,分別采用正確率(True Positive Rate,TPR),誤報率(False Negative Rate,FPR),準確率(Accuracy)和運行時間Time對異常檢測算法進行性能評估。TPR代表正常數據被正確檢測的識別率百分比;FPR為異常數據被檢測為正常數據的錯誤檢測百分比[23-25]。其計算公式分別為


式中TP(True Positive)代表正常數據被檢測為正常數據的數量;FP(False Positive)代表異常數據被檢測為正常數據的樣本數量;TN(True Negative)代表異常數據被檢測為異常樣本的數量;FN(False Negative)代表異常數據被檢測為正常樣本的數量。
3.2.1 不同核函數性能比較
為了評估異常檢測算法不同核函數的檢測性能,選擇SensorScope數據集進行仿真試驗,從而確定最適宜的異常檢測核函數。在試驗過程中,設置SVDD的參數為[2-3, 23],為[0.1, 1]。利用5-折交叉驗證法測試各核函數的檢測性能,仿真試驗結果如表2所示。

表2 不同核函數的檢測結果
表2為改進SVDD算法使用不同核函數的異常檢測試驗結果,可以發現各核函數均能較好的實現異常檢測過程。然而,在這4種核函數中,基于高斯核函數的改進SVDD異常檢測算法的FPR值明顯低于其他3種核函數,Accuracy值明顯高于其他3種核函數。該核函數的TPR值與Sigmoid核函數接近,明顯高于Linear和Poly核函數。結果表明,改進SVDD算法使用高斯核函數時有明顯的優勢,在異常檢測中能獲得更好的檢測效果。
3.2.2 檢測性能對比
1)改進SVDD在不同池塘中的檢測結果
為了測試改進SVDD異常檢測算法的檢測性能,使用試驗區域中試驗樣本量大小相近的數據集進行試驗。經過多次試驗,獲得各試驗池塘水質數據流的異常檢測結果如表3所示。

表3 改進SVDD算法在不同數據集的異常檢測結果
表3顯示,改進SVDD異常檢測算法在13號池塘、3號池塘和1號池塘第一組No.1的試驗數據集中均取得了較好的檢測結果。3組試驗數據集的異常檢測正確率TPR值均大于90%,誤報率FPR值均小于4%,準確率Accuracy值均大于90%。同時,運算速度較快,具有較高的運行效率。
通過對試驗環境進行分析發現,3口試驗池塘均在養殖周期前后經過了標準化池塘改造,養殖品種分別為南美白對蝦、青蝦和中華絨螯蟹,養殖模式雖有所差異,但在養殖生產周期內,各試驗池塘均定期進行水質調控和設備清洗等日常生產管理行為。事實上,傳感器的工作環境復雜,表面易附著各種藻類、淤泥和微生物等,使得水質數據流在采集過程中容易出現誤差。綜合改進SVDD在3口池塘水質數據流的異常檢測結果,該算法的檢測性能較穩定,能夠實現水質數據流的可靠性和有效性檢測。
2)改進SVDD在不同大小樣本集中的檢測分析
本文以1號池塘采集的3組樣本為試驗對象,分別測試樣本在不同試驗樣本量條件下改進SVDD異常檢測算法的檢測性能情況,檢測結果如表3所示。表3顯示,改進SVDD算法在1號池塘第一組No.1、第二組No.2和第三組No.3樣本集中的檢測結果TPR值分別為96.13%、99.94%和99.83%。誤報率FPR值分別為0、32.14%和0。雖然樣本大小有不同,但改進SVDD算法的檢測準確率Accuracy值無較大差異,且無明顯變化規律。
同時,本文選擇D-SVDD對比算法來驗證改進SVDD算法的模糊隸屬度函數改進操作的優越性。將SVDD對比算法驗證改進SVDD算法的檢測精度,FastFood算法則作為運行時間對比算法驗證改進SVDD的運行效率。各算法均進行多次試驗,并取其運行平均時間作為效率指標,具體對比結果如圖4所示。
如圖4所示,隨著樣本量的增大,4種檢測算法的檢測時間隨之增加;在4種算法中,改進SVDD算法的平均檢測時間與D-SVDD算法相近;FastFood算法具有最快的檢測速度,在3個試驗數據集中的運行時間均不高于0.6 s,檢測時間明顯低于其他3種。SVDD算法的檢測時間隨著樣本量的增加快速增加。這主要是由于本文的異常檢測方法與D-SVDD算法均需要考慮數據的密度分布,二者的算法原理相似。而FastFood是一種近似核函數映射的SVDD算法,算法的復雜度低于其他3種算法。
3)不同方法在不同池塘中異常檢測的結果分析
為了深入分析改進SVDD算法的適用性,對比了不同檢測算法在不同試驗池塘水質數據流中的檢測效果。選擇ROC(Receiver Operating Characteristic)曲線[26-28]對各檢測算法進行綜合性能評估。在1號池塘、3號池塘和13號池塘的各異常檢測算法的ROC曲線如圖5所示。
由圖5可以發現,在3個試驗池塘中,改進SVDD算法的ROC曲線下的面積(AUC值)最大,最接近1。因此,相比其他3個算法,改進SVDD算法的檢測性能具有顯著的優勢。同時,在3號池塘中FastFood算法明顯更靠近對角參考線,故其ROC曲線下的面積最小,檢測性能最差。在13號和1號池塘中傳統SVDD算法更靠近對角參考線,故其ROC曲線下的面積最小,檢測性能最差。且D-SVDD算法在3號和1號池塘中的ROC曲線與改進SVDD基本重合,AUC值較接近1,因此該算法的檢測性能較FastFood和SVDD更好。綜上,在不同的試驗池塘中,改進SVDD均有較高的檢測正確率和較低的檢測誤報率,算法的檢測性能較穩定。
為了充分了解不同檢測算法的實際試驗結果情況,表4列出不同檢測算法在不同試驗池塘的異常檢測結果。由表4可以發現,改進SVDD算法在13號、3號和1號池塘中的檢測正確率TPR值較D-SVDD算法分別提高了24.54%、5.53%和5.72%;較SVDD算法分別提高了34.06%、20.29%和52.22%;較FastFood算法則分別提高了1.32%、19.03%和23.95%。而該算法在3號和1號池塘中的檢測誤報率FPR與D-SVDD和SVDD算法相同,均為0。在13號和3號池塘中檢測FPR值較FastFood算法有明顯降低。同時,改進SVDD算法在13號、3號和1號池塘中的檢測準確率Accuracy指標較D-SVDD算法分別提高了23.08%、5.24%和5.54%;較SVDD算法分別提高了31.96%、19.12%和49.85%;較FastFood算法則分別提高了1.59%、18.14%和49.85%。
同時,對表4中不同檢測算法在不同池塘中的檢測時間進行分析可以發現,在3口池塘數據集中,FastFood算法的運行時間明顯低于其他3個算法。在1號和3號池塘中,改進SVDD算法的運行時間與D-SVDD算法相近。在1號池塘中,傳統SVDD算法運行時間最長。結果表明,改進 SVDD 算法具有較高的檢測性能,該算法在 3 口池塘的最高異常檢測正確率 TPR(True Positive Rate)值達到99.83%,最高檢測準確率 Accuracy達到99.83%,明顯優于 D-SVDD 和傳統 SVDD 算法,且最低運行時間僅 1.34 s。結果可為水質數據流異常監測提供技術支持。
事實上,綜合上述所有試驗結果進行分析,盡管試驗池塘環境和試驗數據量不同,但是改進SVDD算法較傳統算法(如SVDD算法)、其他同類型算法(如D-SVDD算法)或典型算法(如FastFood算法),均能獲得較穩定的異常檢測性能,實現水質數據流的可靠性和有效性檢測,為水產養殖水質數據流的檢測預警提供可靠的決策依據。

表4 不同檢測算法在不同試驗池塘的檢測結果對比
針對養殖水體中水質數據流的異常問題,提出了一種新型的改進SVDD異常檢測方法。引入基于相對密度的模糊隸屬度函數對傳統SVDD算法進行補償,利用Parzen-Window算法估算數據的概率密度。并使用馬氏距離改進Parzen-Window的高斯窗函數,從而提高水質數據流異常檢測的準確度。經過不同的核函數異常檢測測試,確定最適合的核函數。在不同的數據集中進行異常檢測試驗,改進SVDD均達到了較好的檢測效果。同時,對比不同的異常檢測算法,在不同的池塘水質數據流中,改進SVDD算法的平均異常檢測正確率TPR值達到99.83%,最高檢測準確率Accuracy值達到99%,且運行速度較快。本文的試驗結果對改進和應用現有的有監督型數據流異常檢測算法提供了一定的理論參考。
[1] 張錚,曹守啟,朱建平,等. 面向大面積漁業環境監測的長距離低功耗LoRa傳感器網絡[J]. 農業工程學報,2019,35(1):164-171.
Zhang Zheng, Cao Shouqi, Zhu Jianping, et al. Long range low power sensor networks with LoRa sensor for large area fishery environment monitoring[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(1): 164-171. (in Chinese with English abstract)
[2] 焦賢龍,王剛,田海琛,等. 基于相繼干擾消除的無線傳感網低時延廣播算法[J]. 計算機學報,2019,42(11):2526-2538.
Jiao Xianlong, Wang Gang, Tian Haishen, et al. Successive interference cancellation based low-delay broadcast algorithms for wireless sensor networks[J]. Chinese Journal of Computers, 2019, 42(11): 2526-2538. (in Chinese with English abstract)
[3] 張懷峰,江婧,張香燕,等. 面向衛星電源系統的一種新穎異常檢測方法[J]. 宇航學報,2019,40(12):1468-1477.
Zhang Huaifeng, Jiang Jing, Zhang Xiangyan, et al. Novel anomaly detection method for satellite power system[J]. Journal of Astronautics, 2019, 40(12): 1468-1477. (in Chinese with English abstract)
[4] Lee S, Kim G, Kim S. Self-adaptive and dynamic clustering for online anomaly detection[J]. Expert Systems with Applications, 2011, 38(12): 14891-14898.
[5] 唐斯琪,潘志松. 基于流形學習的網絡數據流異常檢測[J]. 濟南大學學報:自然科學版,2017,31(2):118-128.
Tang Siqi, Pan Zhisong. Anomaly detection in network traffic flow based on manifold learning[J]. Journal of University of Jinan: Science and Technology, 2017, 31(2): 118-128. (in Chinese with English abstract)
[6] Kim T Y, Cho S B. Web traffic anomaly detection using C-LSTM neural networks[J]. Expert Systems with Applications, 2018, 106: 66-76.
[7] Xu X, Liu Y, Liu S, et al. Real-time detection of potable-reclaimed water pipe cross-connection events by conventional water quality sensors using machine learning methods[J]. Journal of Environmental Management, 2019, 238(3): 201-209.
[8] 肖利平,全臘珍,余波,等. 基于改進CoSaMP的農田信息異常事件檢測算法[J]. 農業機械學報,2019,50(10):230-235.
Xiao Liping, Quan Lazhen, Yu Bo, et al. Anomaly event detection for farmland information monitoring based on improved CoSaMP[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(10): 230-235. (in Chinese with English abstract)
[9] 亞森江·加入拉,高建民,高智勇,等. 一種復雜機電系統LE-SVDD異常監測方法[J]. 振動、測試與診斷,2017,37(3):469-475.
YasenJiang·Jiarula, Gao Jianmin, Gao Zhiyong, et al. Laplacian eigenmaps-support vector domain description method for complex electromechanical system[J]. Journal of Vibration, Measurement & Diagnosis, 2017, 37(3): 469-475. (in Chinese with English abstract)
[10] 謝彥紅,孫呈敖,李元. 加權動態SVDD在非線性過程監測中的應用研究[J]. 系統仿真學報,2017,29(7):1506-1513.
Xie Yanhong, Sun Chengao, Li Yuan. Application of weighted dynamic SVDD in nonlinear process monitoring[J]. Journal of System Simulation, 2017, 29(7): 1506-1513. (in Chinese with English abstract)
[11] 張漢元,田學民. 基于KSFDA-SVDD的非線性過程故障檢測方法[J]. 化工學報,2016,67(3):827-832.
Zhang Hanyuan, Tian Xuemin. Nonlinear process fault detection based on KSFDA and SVDD[J]. Journal of Chemical Industry and Engineering (China) (CIESC )Journal, 2016, 67(3): 827-832. (in Chinese with English abstract)
[12] Cha M, Kim J S, Baek J G. Density weighted support vector data description[J]. Expert Systems with Applications, 2014, 41(7), 3343-3350.
[13] 陶新民,李晨曦,李青,等. 不均衡最大軟間隔SVDD軸承故障檢測模型[J]. 振動工程學報,2019,32(4):718-729.
Tao Xinmin, Li Chenxi, Li Qing, et al. Rolling bearings fault detection model using imbalanced maximum soft margin support vector domain description[J]. Journal of Vibration Engineering, 2019, 32(4): 718-729. (in Chinese with English abstract)
[14] 羅鵬,王布宏,李騰耀. 基于BiGRU-SVDD的ADS-B異常數據檢測模型[J]. 航空學報,2020,41(10):281-291.
Luo Peng, Wang Buhong, Li Tengyao. ADS-B anomaly data detection model based on BIGRU-SVDD[J]. Acta Aeronautica et Astronautica Sinica, 2020, 41(10): 281-291. (in Chinese with English abstract)
[15] 陳士剛,關永剛,張小青,等. 不完備故障類別下基于Multi-SVDD的高壓隔離開關故障診斷方法[J]. 電工技術學報,2018,33(11):2439-2447.
Chen Shigang, Guan Yonggang, Zhang Xiaoqing, et al. Diagnosis method of high voltage isolating switch fault based on multi-SVDD under incomplete fault type[J]. Transactions of China Electro technical Society, 2018, 33(11): 2439-2447. (in Chinese with English abstract)
[16] 樓俊鋼,蔣云良,申情,等. 軟件可靠性預測中不同核函數的預測能力評估[J]. 計算機學報,2013,36(6):1303-1311.
Lou Jungang, Jiang Yunliang, Sheng Qing, et al. Evaluation the prediction performance of different kernel functions in kernel based software reliability models[J]. Chinese Journal of Computers, 2013, 36(6): 1303-1311. (in Chinese with English abstract)
[17] 李杰,陳建兵,張琳琳. 隨機過程的概率密度函數估計[J]. 應用力學學報,2010,27(3):481-485.
Li Jie, Chen Jianbing, Zhang Linlin. Moment method for global sensitivity analysis in multiple failure modes[J]. Chinese Journal of Applied Mechanics, 2010, 27(3): 481-485. (in Chinese with English abstract)
[18] 楊楠,周崢,陳道君,等. 基于非參數核密度估計的風功率波動性概率密度建模方法[J]. 太陽能學報,2019,48(7):2028-2035.
Yang Nan, Zhou Zheng, Chen Daojun, et al. Research of modeling method based on non-parametric kernel density estimation of probability of wind power fluctuations[J]. Acta Energiae Solaris Sinica, 2019, 48(7): 2028-2035. (in Chinese with English abstract)
[19] 呂鵬飛,閆云聚,荔越. 基于馬氏距離的改進核Fisher化工故障診斷研究[J]. 自動化學報,2020,46(11):143-155.
Lv Pengfei, Yan Yunju, Li Yue. Research on fault diagnosis of improved kernel fisher based on mahalanobis distance in the field of chemical industry[J]. Acta Automatica Sinica, 2020, 46(11): 143-155. (in Chinese with English abstract)
[20] Lin C F, Wang S D. Fuzzy support vector machines[J]. IEEE Transactions on Neural Networks, 2002, 13(2): 464-471.
[21] 張鐵民,黃俊端. 基于音頻特征和模糊神經網絡的禽流感病雞檢測[J]. 農業工程學報,2019,35(2):8-174.
Zhang Tiemin, Huang Junduan. Detection of chicken infected with avian influenza based on audio features and fuzzy neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(2): 168-174. (in Chinese with English abstract)
[22] Mcintosh A R, Grady C L, Haxby J V, et al. Within-subject transformations of PET regional cerebral blood flow data: ANCOVA, ratio, and Z-score adjustments on empirical data[J]. Human Brain Mapping, 2015, 4(2): 93-102.
[23] Ali K, Liu A X, Chai E, et al. Monitoring browsing behavior of customers in retail stores via RFID imaging[J]. IEEE Transactions on Mobile Computing, 2020, (99): 1-14.
[24] 謝為俊,魏碩,鄭招輝,等. 深度多分支模型融合網絡的胡蘿卜缺陷識別與分割[J]. 農業工程學報,2021,37(2):177-186.
Xie Weijun, Wei Shuo, Zheng Zhaohui, et al. Classification and segmentation of defect carrots using deep multi-branch models fusion network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(2): 177-186. (in Chinese with English abstract)
[25] 段青玲,肖曉琰,劉怡然,等. 基于SW-SVR的畜禽養殖物聯網異常數據實時檢測方法[J]. 農業機械學報,2017,48(8):159-165.
Duan Qingling, Xiao Xiaoyan, Liu Yiran, et al. Anomaly data real-time detection method of livestock breeding internet of things based on SW-SVR[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(8): 159-165. (in Chinese with English abstract)
[26] Le Q V, Sarlos T, Smola A J. FastFood: Approximate kernel expansions in loglinear time[C]. // In: JMLR Workshop and Conference Proceedings. Atlanta: Microtome Publishing, 2013, 244-525.
[27] 邵園園,王永賢,玄冠濤,等. 高光譜成像快速檢測殼聚糖涂膜草莓可溶性固形物[J]. 農業工程學報,2019,35(18):245-254.
Shao Yuanyuan, Wang Yongxian, Xuan Guantao, et al. Rapid detection of soluble solids content in strawberry coated with chitosan based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(18): 245-254. (in Chinese with English abstract)
[28] Pan D, Liu D, Zhou J, et al. Anomaly detection for satellite power subsystem with associated rules based on kernel principal component analysis[J]. Microelectronics Reliability, 2015, 55(9): 2082-2086.
Abnormal detection of aquaculture water quality data stream using an improved SVDD in pond
Shi Pei1,2, Kuang Liang3, Tang Yue1,2,Yuan Yongming4,Yu Xiaodong1,2
(1.,,214105; 2.,214105; 3.,,214153,; 4.,,214081,)
An anomaly detection of the data stream has been one of the most critical subjects for the monitoring of water quality in aquaculture. The data stream of water quality collected by wireless sensor network is normally difficult to be detected accurately, due to the characteristics of high complexity, instability, and nonlinearity. The traditional support vector data description (SVDD) presents a relatively low recognition on a small number of abnormal samples under the condition of data imbalance. The noise samples have also a great interference to the anomaly detection, leading to the specific features that cannot be captured completely. In this study, an improved support vector data description (improved SVDD) was proposed to strengthen the detection capability of the sensor data stream. First, a mahalanobis distance was applied to enhance the Gaussian function of Parzen-Window, thus avoiding data interference in the process of classification. Then, the improved Parzen-Window function was utilized to realize the density estimation of training data. As such, the data classification was completed to extract the distribution of training data. In this case, the new ISVDD model was constructed to combine the fuzzy membership function. Thus, the interference of the model from the noise samples was significantly reduced to improve the classification accuracy. Finally, the abnormal detection effect of SVDD different kernel functions was compared to determine the optimal kernel function, according to the performances. The density-weighted support vector data description (D-SVDD), traditional support vector data description (improved SVDD), and the FastFood were selected to verify the performance in different testing datasets of three ponds. The D-SVDD was used to verify the superiority of the fuzzy membership function during improvement operation. The traditional SVDD was used to verify the detection precision of improved SVDD. The FastFood was taken to verify the running efficiency. All detections were tested several times to choose the average values as the final. The true positive rate (TPR), false negative rate (FPR), accuracy value, and running time were used as the detection performance to evaluate all models. The experimental results showed that the improved SVDD presented a higher detection performance. Among them, the maximum TPR value of ISVDD was 99.83%, the minimum FPR value reached zero, the maximum accuracy value of anomaly detection was 99.83%, and the minimum running time was 1.34 s. It indicated that the improved SVDD presented a superior performance than the D-SVDD and traditional SVDD. The detection performance demonstrated that the different kernel functions in SVDD and different detection were identified in all testing ponds during the aquaculture period. In addition, the expanding boundary of normal and abnormal data was achieved using the density-weighted and fuzzy membership function with a greatly better performance of abnormal detection. The finding can provide a new idea to improve the accuracy of anomaly detection in the whole aquaculture cycle. Meanwhile, the experimental and improved SVDD can be expected to serve as a theoretical reference to enhance the supervised level of anomaly detection.
aquaculture; water quality; data stream; density compensation; support vector data description
2021-07-20
2021-11-28
江蘇省高校自然科學基金面上項目(21KJB520020);南京信息工程大學濱江學院人才啟動經費資助(2021r038);國家自然科學基金項目(62072216);現代農業產業技術體系專項(CARS-46)
施珮,博士,講師,研究方向為農業物聯網和邊緣計算。Email:njxk_sp@163.com
10.11975/j.issn.1002-6819.2021.24.028
TP39;TP212;TP274.2
A
1002-6819(2021)-24-0249-08
施珮,匡亮,唐玥,等. 基于改進SVDD算法的池塘水質數據流異常檢測[J]. 農業工程學報,2021,37(24):249-256. doi:10.11975/j.issn.1002-6819.2021.24.028 http://www.tcsae.org
Shi Pei, Kuang Liang, Tang Yue, et al. Abnormal detection of aquaculture water quality data stream using an improved SVDD in pond[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(24): 249-256. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.24.028 http://www.tcsae.org