王玉玲,王 蒙,閆 巖,宮淑蘭,汪 明,徐 亞
?
基于聚類算法的ERT污染區域識別方法
王玉玲1*,王 蒙1,2,閆 巖1,宮淑蘭1,汪 明1,徐 亞3
(1.山東建筑大學信息與電氣工程學院,山東省智能建筑技術重點實驗室,山東 濟南 250101;2.林雪平大學科學工程學院,瑞典 林雪平 58183;3.中國環境科學研究院,北京 100012)
本文提出將聚類算法引入到ERT監測系統中,采用K均值(K-means)聚類、模糊C均值算法(FCM)以及混合高斯模型(GMM)3種常用聚類算法對ERT檢測結果進行污染區域識別,通過一個數值模型分析了3種算法的識別效果.研究結果表明當污染區域與背景土壤的電阻率區分度較大時(電阻率差異性大于30%),采用3種聚類算法都可以識別出污染區域,K-means和FCM的識別效果優于GMM算法.最后,給出一個實際場地調查的應用案例.
ERT檢測;污染場地;聚類算法;污染區域識別
我國存在大量污染場地,這些污染場地會造成對土壤和地下水污染,對人類健康和環境產生危害[1-2],因此,對污染場地的檢測和修復是亟待解決的問題.由于電阻率成像(ERT)方法具有快速、費用低等優點,近年來開始嘗試將ERT應用于場地污染及修復進程監測領域[3-4].在采用ERT進行場地監測時,通常會周期性地對場地進行ERT檢測,這些檢測數據需要被實時地分析處理.然而,目前對ERT檢測數據的分析處理主要依靠人工完成,因此很難保證識別的效率和準確性,這成為制約ERT監測系統應用的關鍵問題之一.
近年來人工智能技術取得了高速發展,涌現出了許多新技術新方法,這些方法已被用來解決醫學圖像處理、自動駕駛等領域的問題,獲得了良好的應用效果[5-7].其中,聚類算法用于在事先并不知道任何樣本的類別標號的情況下,按照個體或樣本的特征通過某種算法來把一組未知類別的樣本劃分成若干類別,使同一類別內的個體具有盡可能高的同質性,而類別之間則應具有盡可能高的異質性.
常用的聚類算法包括:K均值(K-means)算法、模糊C均值算法(FCM)、混合高斯模型(GMM)等.國內外學者對這些算法開展了大量研究[8-9].針對K-means算法對初始中心點的選擇十分敏感,易陷入局部最優解的問題,Bradley等[10]提出了基于分布模式估計初始中心的方法,該方法使得迭代求解收斂于更優的局部最小值;Bagirov[11]研究了一種改進的最小平方和聚類問題的全局K-means算法,改善了K-means算法中初始中心點的選擇問題; Tzortzis[12]提出了一種MinMax K-means算法,該算法根據類別的方差對每個類別賦予不同權重,得到一個優化的K-means目標函數,解決了對初始值的依賴.模糊C均值算法(FCM)[13]是在C均值基礎上的一種改進算法,采用隸屬度函數表示樣本點隸屬于某一類別的程度,通過優化各個樣本點對不同類別中心的隸屬度,使不同類之間的相似性最小化,同類之間的相似性最大化,從而決定各樣本點的類別.Wang等[14]在FCM算法的基礎上增加了空間信息,基于局部空間相似性度量模型自適應地確定初始聚類中心和初始隸屬度.然后根據其固有的像素間的相關性,對模糊隸屬度函數進行修正. GMM是由多個高斯分布函數的線性組合建立的模型.Huang等[15]提出了一種基于高斯混合模型搜索圖像全局閾值的有效方法,該方法具有較強的魯棒性,但是對于對比度較差的圖像處理效果不精確.這些聚類算法被應用于醫學圖像處理領域: Baid[16]對K-means算法、高斯混合模型和模糊C均值聚類算法在腦腫瘤分割中的應用進行了比較研究;Kannan等[17]利用FCM算法對乳房以及大腦核磁共振圖像進行了有效分割,其中該算法可將乳腺分為四個集群:脂肪、正常組織、良性病變以及惡性病變; Janssen等[18]采用GMM算法對人腦圖像進行分割;徐立等[19]提出一種新的基于腦部MR圖像的腫瘤診斷方法,該方法通過多閾值分割形態學操作檢測圖像的畸形區域,提取用于分類的高斯混合模型(GMM)特征,利用決策樹分類器對腫瘤圖像類型進行分類;Lalaoui等[20]提出了一種改進的期望最大化(MEM)算法并且對比了五種算法(K-means、FCM、MS、ES以及MEM算法)在分割人腦圖像中的效果.除此以外,Li等[21]采用K-means算法對為巖石間斷集進行識別.然而目前尚未有將聚類算法用于ERT檢測結果中土壤污染區域的識別的報道.
研究表明,土壤的電阻率受到多種因素的影響,例如土壤類型、含水率、孔隙水離子濃度等[22-23],這使得在對ERT檢測得到的電阻率數據進行解釋時,沒有一個普適的電阻率值可以用來劃分污染土壤以及未受污染的土壤,不合理的閾值會導致錯誤的污染區域判定.針對此問題,本文研究了采用聚類算法,利用數據之間的相似性和差異性將ERT數據劃分成若干類別,從而實現污染區域自動識別.
K-means算法是聚類算法中使用最廣泛的算法之一,它把個對象根據屬性分為個類別,使得聚類結果滿足:同一聚類中的對象相似度較高;而不同聚類中的對象相似度較小.定義損失函數如下:

式中:x為待分類的數據點;為第個類別的聚類中心;r∈{0,1}來表示數據點x對于聚類的歸屬(其中=1,...,;=1,...,),如果數據點x屬于第聚類,則r=1,否則為0.
K-means通過迭代求解,得到使得損失函數最小的所有數據點的歸屬值{r}和聚類中心{}.
模糊C均值聚類(FCM)用隸屬度確定每個數據點屬于某個聚類的程度.它是硬C均值聚類(HCM)方法的一種改進.FCM把個向量x(=1,2,…,)分為個模糊組,隸屬矩陣的元素允取的取值范圍為[0,1].
FCM定義了目標函數如下:

式中:u介于0,1間;c為模糊組的聚類中心,d=||c-x||為第個聚類中心與第個數據點間的歐幾里德距離,是隸屬度因子.一個數據的隸屬度之和等于1:

基于(4)和(5),構造新的目標函數如下:

式中:是約束式的拉格朗日乘子.對所有輸入參量求導,使式(6)達到最小的必要條件為:
